Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

有两个疑问 #29

Open
HuntSweet opened this issue Mar 12, 2020 · 13 comments
Open

有两个疑问 #29

HuntSweet opened this issue Mar 12, 2020 · 13 comments

Comments

@HuntSweet
Copy link

1.为什么采集只采集了几本小说
2.为什么采集的小说是0章节
用的规则是23txt,在后台测试规则是成功的

@HuntSweet
Copy link
Author

这个是延迟爬取的吗?等了好久,才好了一本小说

@lyuly
Copy link

lyuly commented Mar 12, 2020

要等一段时间的,具体啥情况也不知道,我的一个站一个多月自动采集了大概1800本书

@HuntSweet
Copy link
Author

要等一段时间的,具体啥情况也不知道,我的一个站一个多月自动采集了大概1800本书

那就很慢了。

@vckai
Copy link
Owner

vckai commented Mar 13, 2020

  1. 爬虫的URL判断有问题,导致无法递归,所以只能采集到首页的10多本小说。已修复该问题。
  2. 采集的小说章节为0是因为采集会在爬取完成所该小说的有章节内容之后再批量写入数据库,由于23txt的网站请求速度大概在800ms左右,�所以采集一本所有章节会比较慢。另外为了防止采集速度过快被目标站封杀目前只开了5个协程在跑,如果有代理ip可以开启更大的协程进行采集。

@HuntSweet
Copy link
Author

  1. 爬虫的URL判断有问题,导致无法递归,所以只能采集到首页的10多本小说。已修复该问题。
  2. 采集的小说章节为0是因为采集会在爬取完成所该小说的有章节内容之后再批量写入数据库,由于23txt的网站请求速度大概在800ms左右,�所以采集一本所有章节会比较慢。另外为了防止采集速度过快被目标站封杀目前只开了5个协程在跑,如果有代理ip可以开启更大的协程进行采集。

嗯,现在已经正常了。还有一点是,如果设置自动更新小说,那么是不是会每天把所有小说跑一遍?那样的话就有点浪费资源了。

@vckai
Copy link
Owner

vckai commented Mar 15, 2020

自动更新小说是指自动运行爬虫,每天去爬虫网站的小说,这个会自动将目标站的新增小说爬取过来,因为每个网站的新增小说显示可能不一致,所以只能将该网站全部爬取一遍。每天爬取更新确实是挺浪费资源,或者可以增加一个更新周期配置?

@HuntSweet
Copy link
Author

像ptcms这种小偷程序,设置的是如果有人访问这本小说,那么会自动更新这本书的资源,不访问的话,就不更新。

@vckai
Copy link
Owner

vckai commented Mar 16, 2020

哦,确实可以考虑增加冷热小说更新机制

@lyuly
Copy link

lyuly commented Mar 27, 2020

哦,确实可以考虑增加冷热小说更新机制

这大概就是我为啥一个月跑了144T的原因吧

@vckai
Copy link
Owner

vckai commented Mar 27, 2020

哦,确实可以考虑增加冷热小说更新机制

这大概就是我为啥一个月跑了144T的原因吧

144T??是数据库磁盘大小吗,现在采集了多少本小说有这么大的数据量?

@lyuly
Copy link

lyuly commented Mar 27, 2020

哦,确实可以考虑增加冷热小说更新机制

这大概就是我为啥一个月跑了144T的原因吧

144T??是数据库磁盘大小吗,现在采集了多少本小说有这么大的数据量?

是跑的流量,磁盘大概用了40G左右,有近2000本书,而且它后台tcp连接很多,一直都是建立连接的

@pingProMax
Copy link
Contributor

  1. 爬虫的URL判断有问题,导致无法递归,所以只能采集到首页的10多本小说。已修复该问题。
  2. 采集的小说章节为0是因为采集会在爬取完成所该小说的有章节内容之后再批量写入数据库,由于23txt的网站请求速度大概在800ms左右,�所以采集一本所有章节会比较慢。另外为了防止采集速度过快被目标站封杀目前只开了5个协程在跑,如果有代理ip可以开启更大的协程进行采集。

什么时候修复 #26

@fjgui
Copy link

fjgui commented May 18, 2020

你好,这个采集规则不太懂,比如我要采集webnovel.com上面的小说,怎么设置采集规则

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants