@@ -16,18 +16,23 @@ setwd("/home/ishida/Dropbox/R/Morikita/Version2/")# など
16
16
# library(rvest)
17
17
18
18
# ## 2017年4月にサイト構造が大きく変ったため、以下のコードではテキストを抽出できません
19
- # ## サイトからテキストを抽出し、テキストマイニングのデータとする手順として参考にしてください
20
- # ## 抽出し、形態素解析を実行した結果のファイルを revicsv, bigram.csv として用意しています
19
+ # ## Rselenium を利用することで抽出は可能であり、別ファイル use_Rseleium.R にその方法の概要を公開していますが
20
+ # # 「読書メータ」様の方でこのような利用を許可していない可能性があります。
21
+
22
+ # ## そこで、以下のコードは、WEBサイトからテキストを抽出し、テキストマイニングのデータとする手順として参考にしてください
23
+ # ## なお、形態素解析を実行した結果のファイルを revi.csv, bigram.csv として用意していますので
24
+ # ## 形態素解析後の手順(45行目以降)は再現可能です
25
+
21
26
22
27
# jobs <- read_html("http://bookmeter.com/b/4062180731")
23
28
24
- library(dplyr )
29
+ # library(dplyr)
25
30
# reviews <- jobs %>% html_nodes("div[id^='review_text_']") %>% html_text()
26
31
27
- library(magrittr )
32
+ # library(magrittr)
28
33
# reviews %>% extract(1)
29
34
30
- library(RMeCab )
35
+ # library(RMeCab)
31
36
# reviews %>% extract2(1) %>% RMeCabC() %>% unlist()
32
37
33
38
# # writeLines(reviews, "data/reviews.txt")
@@ -36,6 +41,8 @@ library(RMeCab)
36
41
# revi %>% NROW()
37
42
38
43
44
+
45
+ # # 形態素解析済みのファイルを読み込みます
39
46
revi <- read.csv(" data/revi.csv" , stringsAsFactors = FALSE )
40
47
41
48
revi %> % head ()
@@ -57,8 +64,10 @@ revi2 %>% arrange(reviews.txt) %>% tail(30)
57
64
# bigram <- docDF("data/reviews.txt", type = 1, nDF = 1, N = 2,
58
65
# pos = c("名詞","形容詞","動詞"))
59
66
#
67
+
60
68
# write.csv(bigram, file = "data/bigram.csv", row.names = FALSE, quote = FALSE, fileEncoding = "UTF-8")
61
69
70
+ # # 解析済みのバイグラムファイルを読み込みます
62
71
bigram <- read.csv(" data/bigram.csv" , stringsAsFactors = FALSE )
63
72
64
73
0 commit comments