-
Notifications
You must be signed in to change notification settings - Fork 148
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
有两个疑问 #29
Comments
这个是延迟爬取的吗?等了好久,才好了一本小说 |
要等一段时间的,具体啥情况也不知道,我的一个站一个多月自动采集了大概1800本书 |
那就很慢了。 |
|
嗯,现在已经正常了。还有一点是,如果设置自动更新小说,那么是不是会每天把所有小说跑一遍?那样的话就有点浪费资源了。 |
自动更新小说是指自动运行爬虫,每天去爬虫网站的小说,这个会自动将目标站的新增小说爬取过来,因为每个网站的新增小说显示可能不一致,所以只能将该网站全部爬取一遍。每天爬取更新确实是挺浪费资源,或者可以增加一个更新周期配置? |
像ptcms这种小偷程序,设置的是如果有人访问这本小说,那么会自动更新这本书的资源,不访问的话,就不更新。 |
哦,确实可以考虑增加冷热小说更新机制 |
这大概就是我为啥一个月跑了144T的原因吧 |
144T??是数据库磁盘大小吗,现在采集了多少本小说有这么大的数据量? |
是跑的流量,磁盘大概用了40G左右,有近2000本书,而且它后台tcp连接很多,一直都是建立连接的 |
什么时候修复 #26 |
你好,这个采集规则不太懂,比如我要采集webnovel.com上面的小说,怎么设置采集规则 |
1.为什么采集只采集了几本小说
2.为什么采集的小说是0章节
用的规则是23txt,在后台测试规则是成功的
The text was updated successfully, but these errors were encountered: