Skip to content

IshidaMotohiro/TextMining

Folders and files

NameName
Last commit message
Last commit date
Jun 28, 2017
May 20, 2017
Aug 5, 2022
Aug 5, 2022
May 20, 2017
Jun 18, 2022
Jun 18, 2022
Jan 25, 2022
Dec 6, 2017
Nov 2, 2023
Jan 25, 2022
Aug 5, 2022
May 20, 2017
Aug 12, 2022
Jun 22, 2017
Apr 29, 2017
Dec 6, 2017
May 20, 2017
May 20, 2017
May 20, 2017
May 20, 2017
Jan 25, 2022
Jun 20, 2022

Repository files navigation

『Rによるテキストマイニング入門(第2版)』 スクリプトおよびデータ

関連ファイルは右上の[Code] ボタンを押して[Download ZIP]をクリックしてください。

正誤表(予定)

https://github.com/IshidaMotohiro/TextMining/wiki/%E6%AD%A3%E8%AA%A4%E8%A1%A8

Windows 版 R バージョン 4.2 から、デフォルトの文字コードが UTF-8 となり、またインストールされるのが 64 Bit のみとなりました。 本書の次回増刷で対応予定ですが、基本、以下が必要となります。

Windows版MeCab のインストールについて

Windows版Rをご利用の場合、Rのバージョンによって、それぞれ異なるインストーラーをダウンロードしてインストールしてください。

Windows版R-4.1 まで

工藤拓氏の公式サイト https://taku910.github.io/mecab/ からインストーラーをダウンロードして、文字コードは標準のShift-JISのままインストールしてください。

また、このGithubレポジトリ https://github.com/IshidaMotohiro/TextMining に登録されているファイルはすべて文字コードが UTF-8 になっています。このため Windows 版 RStudio で開くと、日本語部分が文字化けします。これを修正するには、RStudio のメニューから、File -> Reopen with Encoding -> UTF-8 として開き直します。画面上で文字化けが修正されたことが確認できたら、再び RStudio のメニューから Save with Encoding を指定し CP932 で保存し直してください。

Windows版R-4.2 以降

ikegami氏の Github サイト https://github.com/ikegami-yukino/mecab/releases から私家版MeCabインストーラーをダウンロードし、文字コードはUTF-8を指定してインストールしてください。もしも公式のMeCabを既にインストールしている場合は、必ず、アンインストールしてから、ikegami氏のバイナリからインストールし直してください。

このサイト https://github.com/IshidaMotohiro/textMining に登録されているファイルはすべて文字コードが UTF-8 になっていますが、このファイルをそのまま使ってください。Shift-JISに変換する必要はありません。

macOS での MeCab インストールについて

左上のAppleアイコンをクリックし、「このMacについて」を選びます。ここで、自身が使っている MacOS マシンが Intel 版なのか M1 版なのか、確認しておいてください。 なおMeCabをインストールするには、Apple 社が無償で公開している Xcode コマンドラインツールが必要です(Xcode本体は必要ありません)。コマンドラインツールのインストールは、アプリケーションフォルダのユーティリティーフォルダにあるターミナルを起動し、以下の命令を入力してEnterキーを押します。

xcode-select --install

ポップアップメッセージに従ってインストールを完了してください。

Intel 版 macOS

工藤拓氏のサイトから MeCab 本体のソース mecab-0.996.tar.gz と、辞書 mecab-ipadic-2.7.0-20070801.tar.gz をダウンロードしてビルドしてください。

M1 (Sillicon) 版 macOS

ターミナルのプロパティを確認します。「ファイル」>「情報を見る」と選択するか、ターミナルのアイコン上でCommand+Iキーを押します。サブメニューが表示されるので、「情報をみる」を選びます。

ここで「Rosettaを使用して開く」にチェックが入っていないかどうかを確認してください。もしも導入された Python が M1 用であれば、MeCab も M1 用にビルドします。ビルドというのは、ソースファイルからアプリケーションを作成することです。 この際、ターミナルを使いますが Rosetta を使う設定がなされていると、M1 用ではなく Intel 用の MeCab が作成されてしまいます。

ところが、ややっこしいのですが、M1 MacOS に Intel 用の MeCab をビルドすることができます(ユーザーが意識しないところで Rosetta というソフトウェアが M1 アーキテクチャと Intel アーキテクチャの橋渡しを行います)。ユーザーが気が付かないうちにターミナルが Rosetta を利用している場合があります。これを確認するため、ターミナルの「情報をみる」で「Rossetaを使用して開く」を確認するわけです。チェックが入っている場合はチェックを外し、ターミナルをいったん閉じて、起動し直します。

なお M1 版 macOS で MeCab をビルドする手順を YouTube で公開しています。動画では Python から MeCab を利用する前提で説明していますが、MeCab のビルドとインストール手順については、Python も R も全く同じです。

https://youtu.be/0ePI8a9kNUI

MeCab_Install

RMeCab インストールについて

パソコンに開発環境があれば GitHub からもインストールもできます。本書の説明通りに RMeCab をインストールしてRが落ちる場合には、この方法を試してください。開発環境としては Windowsの場合 R-4.2 以降をお使いの場合は Rtools42 https://cran.ism.ac.jp/bin/windows/Rtools/ を、 Mac であればコマンドラインツール https://support.apple.com/ja-jp/guide/deployment-reference-macos/apdf028a757b/web をインストールした上で試してください。MeCab については上記の手順であらかじめインストールしておいてください。

# Windows Mac Linux の場合
install.packages("remotes")
remotes::install_github("IshidaMotohiro/RMeCab")
# Mac Linux の場合は以下でも良い
# install.packages("RMeCab", repos = "http://rmecab.jp/R", type = "source")

ファイルの説明

  • 各章に対応したスクリプトファイル

-- Chapter01.R -- Chapter02.R -- Chapter03.R -- Chapter04.R -- Chapter05.R -- Chapter06.R -- Chapter07.R -- Chapter08.R -- Chapter09.R -- Chapter10.R -- Chapter11.R

  • RMeCab の関数紹介スクリプト

data/RMeCab.R

  • データ

-- data/H18koe.csv 沖縄観光アンケート -- data/bigram.csv 口コミサイトから生成したバイグラム -- data/hon.txt 短文 -- data/merosu.txt 走れメロス -- data/photo.csv データフレームサンプル -- data/sentences.xlsx 独立性の検定サンプルデータ -- data/classes.csv クラス成績データ -- data/kumo.txt 芥川龍之介『蜘蛛の糸』 -- data/revi.csv 口コミサイトから生成した頻度表 -- data/YN.csv 食洗機の購入 -- data/classes.xlsx クラス成績データ

  • 宮沢賢治『注文の多い料理店』(ルビ等削除済み)

-- data/NORUBY/chumonno_oi_ryoriten2.txt

  • Alice in Wonderland の一部分を三分割したファイル

-- data/alice/alice1.txt -- data/alice/alice2.txt -- data/alice/alice3.txt

  • 単語文書行列作成用サンプル

-- data/doc/doc1.txt -- data/doc/doc2.txt -- data/doc/doc3.txt

  • 沖縄観光アンケート性別年齢別仕分け済みファイル

    H18koe.csv からテキスト部分を取り出しがファイル(本書に取り出し方法の説明あり)

-- data/okinawa/F20.txt -- data/okinawa/F30.txt -- data/okinawa/F40.txt -- data/okinawa/F50.txt -- data/okinawa/F60.txt -- data/okinawa/F70.txt -- data/okinawa/M20.txt -- data/okinawa/M30.txt -- data/okinawa/M40.txt -- data/okinawa/M50.txt -- data/okinawa/M60.txt -- data/okinawa/M70.txt

  • 文体識別用サンプルファイル(いずれも全文ではなく抜粋)

-- data/writers/ogai_gan.txt 森鴎外『雁』 -- data/writers/ogai_niwatori.txt 森鴎外『鶏』 -- data/writers/ogai_kanoyoni.txt 森鴎外『かのように』 -- data/writers/ogai_vita.txt 森鴎外『ヰタ・セクスアリス』 -- data/writers/soseki_eijitsu.txt 夏目漱石『永日小品』 -- data/writers/soseki_omoidasu.txt 夏目漱石『思い出す事など』 -- data/writers/soseki_garasu.txt 夏目漱石『硝子戸の中』 -- data/writers/soseki_yume.txt 夏目漱石『夢十夜』

  • 辞書サンプルデータ

-- data/motohiro.csv -- data/mecab.bat

  • 説明ファイル

-- README.md

本書のデータ分析を Python で実施する方法

『Pythonで学ぶテキストマイニング』 出版社 : シーアンドアール研究所 (2022/8/13) 発売日 : 2022/8/13 ISBN-13 : 978-4863543935 https://www.amazon.co.jp/dp/486354393X/

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published