quantedaはRがインストールされていればWindows、Mac OS、Linuxのいずれでも利用できる。R StudioからRを使用することで最も快適に操作を行える。
quantedaはCRAN(Comprehensive R Archive Network)版とGithub版があるが本稿の例は、後者の最新版がインストールされていることを前提としている。
CRAN版は安定しているが、三カ月に一回程度の更新なので、最新の機能は含まれていない。
install.packages("quanteda")
Github版は毎週のように新しい機能が追加され、また、報告された不具合の多くが修正されている。
install.packages("devtools")
devtools::install_github("kbenoit/quanteda")
WindowsおよびMacでは、C++のコードをコンパイルするためRtoolsやXcodeをインストールする必要がある。
Rtoolsは、Rのバージョンに適合したものをインストールする。RtoolsはRBuldToolsを同梱するが、後者はRそのものをコンパイルするためのものであり、インストールする必要はない。
本稿のファイルの日本語がRStudioで正しく表示されない場合は、"File"メニューの"Reope with Encoding"で、UTF-8を選ぶ必要がある。その際は、"Set as default encoding for source files"にチェックを入れることが望ましい。
Windowsは、標準の文字コードがUTF-8ではないため、テキスト分析において、文字化けが頻繁に発生する。Windowsの英語版で、日本語の文字が正しく表示されない場合は、Windowsの言語設定をコントロールパネルで変更する必要がある。 Windowsの利用者は、無料の仮想化プログラムであるVitualBoxを用いて、UbuntuやKDE NeonなどのLinuxを実行し、その中で、テキスト分析を行うと、多くの文字コードに起因する問題を回避できる。
CSVファイルを編集する際に表計算ソフトが使われることが多いが、Microsoft ExcelはUTF-8に対応しないため、使うべきではない。UTF-8のCSVファイルの編集では、Libre Officeを使うと良い。