Skip to content

snowmeow2/surfing-on-general

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

21 Commits
 
 
 
 
 
 

Repository files navigation

general-related

目的

蒐集綜合版的發言,以便後續進行Data mining與NLP的處理。

請勿大量向伺服器發送請求。過快的爬取會被拒絕訪問。

說明

執行crawlers/Komica_crawler.py來爬取綜合版最近的討論串,若全數爬取約花費4.5 8小時。

爬蟲會由檔案區取得爬取的範圍(預設為只爬取第0頁),請自行依需求調整。

爬取結果包括內容,文章編號、ID、時間等metadata,儲存於Full_thread.json中。 以下文字內容不收錄其中:

  • 換行符號等字元
  • 諸如>>11451419等回應
  • 此外,也不會爬取圖片

目錄中的Full_thread.json是八月初執行的結果。

計畫

  • 針對多台主機的並行處理
  • 改善效率

About

綜合爬蟲、綜合F5、綜合剖析

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages