baiduSpider

百科类网站爬虫

特性

百科类网站全站词条抓取，包括百度百科、互动百科、wiki中英文站点；
支持断点续爬；
支持缓存百科词条页面；
可分布式部署；
经过单机测试，在i9-9900K 内存64G 100M网络带宽下，百度百科词条一天可以抓取大概50w条(默认系统配置下)；互动百科测试结果类似，wiki网站抓取数据量较少，收到配置的代理延迟影响较大；

如何使用

安装依赖 pip install -r requirement.txt
初始数据库 python initialize_db.py
初始化爬虫种子 python initialize_tasks_seeds.py
开始运行爬虫 python start_spiders.py

分布式使用

单机，多次运行 python start_spiders.py
多机，配置好redid 和mysql 服务器，多次运行python start_spiders.py

常见问题

理论上来说，只要你给的种子够全面，你就可以尽可能的抓取到更多的词条信息
种子链接提取码：iagw 来源于百度百科 2012 dump

已知BUG

多进程爬取下，Redis 的内存会溢出（64G），目前改为 1.5T内存尚未遇到BUG，运行三个小时，已使用内存高达38G

一些闲话

大家要是感兴趣，请动动你们勤劳的小手儿给我点个💗💗吧！非常感谢~
欢迎大家讨论并给作者提出一些宝贵的改进建议；

Name		Name	Last commit message	Last commit date
Latest commit History 39 Commits
WebDownloader		WebDownloader
baikeSpider		baikeSpider
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
TIM截图20191103145210.png		TIM截图20191103145210.png
initialize_db.py		initialize_db.py
initialize_tasks_seeds.py		initialize_tasks_seeds.py
requirement.txt		requirement.txt
scrapy.cfg		scrapy.cfg
start_spiders.py		start_spiders.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

baiduSpider

百科类网站爬虫

特性

如何使用

分布式使用

常见问题

已知BUG

一些闲话

About

Releases

Packages

Languages

License

pluto-junzeng/baiduSpider

Folders and files

Latest commit

History

Repository files navigation

baiduSpider

百科类网站爬虫

特性

如何使用

分布式使用

常见问题

已知BUG

一些闲话

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages