add hint for using RSelenium

IshidaMotohiro · IshidaMotohiro · commit 4f3c03602519 · 2022-06-18T13:15:37.000+09:00
diff --git a/Chapter05.R b/Chapter05.R
@@ -164,8 +164,12 @@ merosu <- Ngram("data/merosu.txt", type = 2, N = 2)
 
 merosu %>% head()
 
-
+library(tidyverse)
+library(RMeCab)
 ### 5.6.4 汎用的なdocDF() 
+merosu <- docDF("data/merosu.txt", type = 0, N = 2, nDF = 1)
+merosu %>% View()
+merosu %>% tail()
 merosu <- docDF("data/merosu.txt", type = 1, pos = c("名詞","形容詞"), N = 2, nDF = 1)
 merosu %>% head()
 
diff --git a/Chapter06.R b/Chapter06.R
@@ -16,18 +16,23 @@ setwd("/home/ishida/Dropbox/R/Morikita/Version2/")# など
 # library(rvest)
 
 ### 2017年4月にサイト構造が大きく変ったため、以下のコードではテキストを抽出できません
-### サイトからテキストを抽出し、テキストマイニングのデータとする手順として参考にしてください
-### 抽出し、形態素解析を実行した結果のファイルを revicsv, bigram.csv として用意しています
+### Rselenium を利用することで抽出は可能であり、別ファイル use_Rseleium.R にその方法の概要を公開していますが
+## 「読書メータ」様の方でこのような利用を許可していない可能性があります。
+
+### そこで、以下のコードは、WEBサイトからテキストを抽出し、テキストマイニングのデータとする手順として参考にしてください
+### なお、形態素解析を実行した結果のファイルを revi.csv, bigram.csv として用意していますので
+### 形態素解析後の手順（45行目以降）は再現可能です
+
 
 # jobs <- read_html("http://bookmeter.com/b/4062180731")
 
-library(dplyr)
+# library(dplyr)
 # reviews <- jobs %>% html_nodes("div[id^='review_text_']") %>% html_text()
 
-library(magrittr)
+# library(magrittr)
 # reviews %>% extract(1)
 
-library(RMeCab)
+# library(RMeCab)
 # reviews %>% extract2(1) %>% RMeCabC() %>% unlist()
 
 ## writeLines(reviews, "data/reviews.txt")
@@ -36,6 +41,8 @@ library(RMeCab)
 # revi %>% NROW()
 
 
+
+## 形態素解析済みのファイルを読み込みます
 revi <- read.csv("data/revi.csv", stringsAsFactors = FALSE)
 
 revi %>% head ()
@@ -57,8 +64,10 @@ revi2 %>% arrange(reviews.txt) %>% tail(30)
 #bigram <- docDF("data/reviews.txt", type = 1, nDF = 1, N = 2, 
 #                 pos = c("名詞","形容詞","動詞"))
 #
+
 #write.csv(bigram, file = "data/bigram.csv", row.names = FALSE, quote = FALSE, fileEncoding = "UTF-8")
 
+## 解析済みのバイグラムファイルを読み込みます
 bigram  <- read.csv("data/bigram.csv", stringsAsFactors = FALSE)
 
 
diff --git a/use_Rselenium.R b/use_Rselenium.R
@@ -0,0 +1,28 @@
+install.packages("RSelenium")
+
+# use installed selenium-server
+## check your directory
+# cd .local/share/binman_seleniumserver/generic/4.0.0-alpha-2/
+# java -jar selenium-server-standalone-4.0.0-alpha-2.jar 
+
+library(RSelenium)
+# Start Selenium Session
+remDr <- remoteDriver(
+  remoteServerAddr = "localhost",
+  port = 4444L,
+  browserName = "firefox"
+)
+remDr$open()
+
+remDr$navigate(url = "https://bookmeter.com/books/5550353")
+
+remDr$navigate("https://books.toscrape.com/catalogue/category/books/science-fiction_16")
+
+# reviews <- remDr$findElements(using = "css", "html body.layouts.application section.books.show div.bm-wrapper div.bm-wrapper__main section.layouts.components.content-with-header div.content-with-header__content section")
+reviews <- remDr$findElements(using = "class", "frame__content__text")
+
+texts <-  unlist(lapply(reviews, function(x){x$getElementText()}))
+
+texts
+
+remDr$close()