general-related

目的

蒐集綜合版的發言，以便後續進行Data mining與NLP的處理。

請勿大量向伺服器發送請求。過快的爬取會被拒絕訪問。

執行crawlers/Komica_crawler.py來爬取綜合版最近的討論串，若全數爬取約花費~~4.5~~ 8小時。

爬蟲會由檔案區取得爬取的範圍（預設為只爬取第0頁），請自行依需求調整。

爬取結果包括內容，文章編號、ID、時間等metadata，儲存於Full_thread.json中。以下文字內容不收錄其中：

目錄中的Full_thread.json是八月初執行的結果。

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
crawlers		crawlers
Full_thread.json		Full_thread.json
README.md		README.md