スクリプトを修正

IshidaMotohiro · IshidaMotohiro · commit 97a5e475b923 · 2022-01-25T10:51:57.000+09:00
diff --git a/Chapter07.R b/Chapter07.R
@@ -9,7 +9,7 @@ setwd("C:/Users/ishida/TextMining")# など
 setwd("/Users/ishida/Download/TextMining")# など
 ### Linux
 setwd("/home/ishida/Dropbox/R/Morikita/Version2/")# など
-  setwd("/myData/Books/morikita/")
+setwd("~/myData/Books/morikita/")
   
 ### 7.1 沖縄観光への意見データ
 okinawa <- read.csv("data/H18koe.csv", stringsAsFactors = TRUE)
@@ -113,12 +113,15 @@ rownames(FM4)
 View(FM4)
 
 ### 7.3 意見データの対応分析
-#install.packages(c("FactoMineR", "factoextra"))
+# install.packages(c("FactoMineR", "factoextra"))
 library(FactoMineR)
 FM4ca <- CA(FM4, graph = FALSE)
 ## ggplot2 ベースのバイプロットを描く
 library(factoextra)
-fviz_ca_biplot(FM4ca)
+fviz_ca_biplot(FM4ca, labelsize = 6, pointsize = 4)
+# +theme(text = element_text(size = 12),
+#        axis.title = element_text(size = 12),
+#        axis.text = element_text(size = 12))
 
 # 上記の実行結果の画像で文字化けが生じている場合、以下のようにPDF画像として作成して確認してみてください
 # 3行続けて実行することで画像ファイルが作成されます
diff --git a/Chapter09.R b/Chapter09.R
@@ -11,7 +11,7 @@ setwd("/Users/ishida/Download/TextMining")# など
 setwd("/home/ishida/Dropbox/R/Morikita/Version2/")# など
 
 
-### l9.1 解析の準備
+### 9.1 解析の準備
 library(RMeCab)
 ## Windowsの場合は以下の "data/prime/utf" を "data/prime/sjis" にするなど
 ## 自身の作業環境にあわせて適宜変更
@@ -26,14 +26,13 @@ library(dplyr)
 library(magrittr)
 ## 列名を短縮化する
 colnames(prime)  %<>% str_replace("_general-policy-speech.txt", "")
-colnames(prime)  %<>% str_replace("(\\d{4})\\d{4}_(\\d{3})", "\\1_\\2")
+colnames(prime)  %<>% str_replace("(\\d{4})\\d{4}_(\\d{1,3})", "\\1_\\2")
 
 
 ### 9.3 所信表明演説のクラスター分析
 hc <- prime %>% t %>% dist %>% hclust("ward.D2")
 
-# 
-install.packages("ggdendro")
+# install.packages("ggdendro")
 
 library(ggdendro)
 ggdendrogram(hc, rotate= TRUE)
@@ -73,7 +72,7 @@ TD_svd$v
 t(TD_svd$u[, 1:3]) %*% TD
 
 ### 9.6 潜在的意味インデキシングによる分類
-install.packages("rgl")
+# install.packages("rgl")
 
 prime.svd <- svd(prime)
 prime2 <- t(prime.svd$u[, 1:3]) %*% prime
@@ -110,7 +109,7 @@ vignette("rgl")
 
 
 ### 9.7 トピックモデル
-install.packages(c("topicmodels","lda"))
+# install.packages(c("topicmodels","lda"))
 
 library(RMeCab)
 
@@ -133,15 +132,16 @@ prime3 <-  prime2 %>% select(-c(TERM:POS2))
 rownames(prime3) <- prime2$TERM
 ## 列名は短縮化
 colnames(prime3)  %<>% str_replace("_general-policy-speech.txt", "")
-colnames(prime3)  %<>% str_replace("(\\d{4})\\d{4}_(\\d{3})", "\\1_\\2")
+colnames(prime3)  %<>% str_replace("(\\d{4})\\d{4}_(\\d{1,3})", "\\1_\\2")
 
+## ターム文書行列を作成
 library(tm)
 prime3a <- prime3 %>% t() %>%  as.DocumentTermMatrix(weighting = weightTf)
 
 ### 9.7.1 トピックモデルによるモデル推定
 library(topicmodels)
 ## トピックの数を指定
-K <- 5
+K <- 5１
 res1 <- prime3a %>% LDA(K)
 
 terms(res1)
@@ -192,6 +192,15 @@ ministersDF <- as.data.frame(ministers) %>%
                    mutate(num = paste0("No", c(64, 74, 77, 80)))
 ministersDF
 
+## 行列をデータフレームに変換し列名を設定
+ministersDF <- as.data.frame(ministers) %>% 
+  set_names(paste0("topic", 1:5)) %>% 
+  ## num という列を追加
+  mutate(num = c("64:小泉", "74:鳩山", "77:野田", "80:安倍"))
+
+ministersDF
+
+
 # install.packages("tidyr")
 
 library(tidyr)
@@ -207,6 +216,6 @@ ministersDF %>% ggplot(aes(x = topic, y = props, fill = num)) +       geom_bar(s
 # 3行続けて実行することで画像ファイルが作成されます
 # RStudio 右のFilesタブで画像ファイルをクリックすることで、適切なビューワー が立ちあがります
 cairo_pdf(file = "ministersDF.pdf", family = "JP1")# Mac の場合は family = "HiraKakuProN-W3" と変えてください
-x
+
 dev.off()
 
diff --git a/Chapter10.R b/Chapter10.R
@@ -8,7 +8,7 @@ setwd("C:/Users/ishida/TextMining")# など
 ### Mac
 setwd("/Users/ishida/Download/TextMining")# など
 ### Linux
-setwd("/home/ishida/Dropbox/R/Morikita/Version2/")# など
+setwd("/home/ishida/Download/TextMining")# など
 
 
 library(RMeCab)
@@ -18,6 +18,8 @@ res <- docNgram("data/writers", type = 0)
 
 ncol(res) ; nrow(res)
 
+colnames(res) <- c("鴎外：雁", "鴎外：かのように", "鴎外：鶏", "鴎外：ヰタ", 
+                   "漱石：永日", "漱石：硝子", "漱石：思い出す", "漱石：夢")
 
 res %>% tail()
 
@@ -66,18 +68,22 @@ options(digits = 3)
 
 summary(res2_pc)
 
-install.packages("ggfortify")
+# install.packages("ggfortify")
 library(ggfortify)
 
 library(stringr)
+rownames(res2_pc$scores) 
 
+# 変数名を日本語にした場合は以下（１）はスキップして、（２）を実行
+# （１）変数名がアルファベット表記の場合
 rownames(res2_pc$scores) <- res2_pc$scores %>% 
                               rownames() %>% 
                                 str_extract("[a-z]+") %>% 
                                   paste0(1:8)
 
+# （２） バイプロットの作成
 autoplot(res2_pc, label =TRUE, label.size = 8, loadings = TRUE, 
-          loadings.label = TRUE,  loadings.label.size  = 12, 
+          loadings.label = TRUE,  loadings.label.size  = 6, 
           loadings.label.family = "JP1")
 
 # 上記の実行結果の画像で文字化けが生じている場合、以下のようにPDF画像として作成して確認してみてください
diff --git a/res2pc.pdf b/res2pc.pdf