有两个疑问 #29

HuntSweet · 2020-03-12T04:38:58Z

1.为什么采集只采集了几本小说
2.为什么采集的小说是0章节
用的规则是23txt，在后台测试规则是成功的

HuntSweet · 2020-03-12T04:47:26Z

这个是延迟爬取的吗？等了好久，才好了一本小说

lyuly · 2020-03-12T10:38:50Z

要等一段时间的，具体啥情况也不知道，我的一个站一个多月自动采集了大概1800本书

HuntSweet · 2020-03-12T10:41:02Z

要等一段时间的，具体啥情况也不知道，我的一个站一个多月自动采集了大概1800本书

那就很慢了。

vckai · 2020-03-13T10:42:30Z

爬虫的URL判断有问题，导致无法递归，所以只能采集到首页的10多本小说。已修复该问题。
采集的小说章节为0是因为采集会在爬取完成所该小说的有章节内容之后再批量写入数据库，由于23txt的网站请求速度大概在800ms左右，�所以采集一本所有章节会比较慢。另外为了防止采集速度过快被目标站封杀目前只开了5个协程在跑，如果有代理ip可以开启更大的协程进行采集。

HuntSweet · 2020-03-14T14:18:42Z

爬虫的URL判断有问题，导致无法递归，所以只能采集到首页的10多本小说。已修复该问题。

采集的小说章节为0是因为采集会在爬取完成所该小说的有章节内容之后再批量写入数据库，由于23txt的网站请求速度大概在800ms左右，�所以采集一本所有章节会比较慢。另外为了防止采集速度过快被目标站封杀目前只开了5个协程在跑，如果有代理ip可以开启更大的协程进行采集。

嗯，现在已经正常了。还有一点是，如果设置自动更新小说，那么是不是会每天把所有小说跑一遍？那样的话就有点浪费资源了。

vckai · 2020-03-15T06:14:14Z

自动更新小说是指自动运行爬虫，每天去爬虫网站的小说，这个会自动将目标站的新增小说爬取过来，因为每个网站的新增小说显示可能不一致，所以只能将该网站全部爬取一遍。每天爬取更新确实是挺浪费资源，或者可以增加一个更新周期配置？

HuntSweet · 2020-03-15T06:18:47Z

像ptcms这种小偷程序，设置的是如果有人访问这本小说，那么会自动更新这本书的资源，不访问的话，就不更新。

vckai · 2020-03-16T03:32:48Z

哦，确实可以考虑增加冷热小说更新机制

lyuly · 2020-03-27T03:08:38Z

哦，确实可以考虑增加冷热小说更新机制

这大概就是我为啥一个月跑了144T的原因吧

vckai · 2020-03-27T04:12:13Z

哦，确实可以考虑增加冷热小说更新机制

这大概就是我为啥一个月跑了144T的原因吧

144T？？是数据库磁盘大小吗，现在采集了多少本小说有这么大的数据量？

lyuly · 2020-03-27T04:39:52Z

哦，确实可以考虑增加冷热小说更新机制

这大概就是我为啥一个月跑了144T的原因吧

144T？？是数据库磁盘大小吗，现在采集了多少本小说有这么大的数据量？

是跑的流量，磁盘大概用了40G左右，有近2000本书，而且它后台tcp连接很多，一直都是建立连接的

pingProMax · 2020-04-06T12:58:50Z

爬虫的URL判断有问题，导致无法递归，所以只能采集到首页的10多本小说。已修复该问题。

采集的小说章节为0是因为采集会在爬取完成所该小说的有章节内容之后再批量写入数据库，由于23txt的网站请求速度大概在800ms左右，�所以采集一本所有章节会比较慢。另外为了防止采集速度过快被目标站封杀目前只开了5个协程在跑，如果有代理ip可以开启更大的协程进行采集。

什么时候修复 #26

fjgui · 2020-05-18T15:52:02Z

你好，这个采集规则不太懂，比如我要采集webnovel.com上面的小说，怎么设置采集规则

vckai added a commit that referenced this issue Mar 13, 2020

修复爬虫无法递归爬取bug（#29）

2830f52

vckai mentioned this issue May 19, 2020

你好，这个采集规则不太懂 #42

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

有两个疑问 #29

有两个疑问 #29

HuntSweet commented Mar 12, 2020

HuntSweet commented Mar 12, 2020

lyuly commented Mar 12, 2020

HuntSweet commented Mar 12, 2020

vckai commented Mar 13, 2020

HuntSweet commented Mar 14, 2020

vckai commented Mar 15, 2020

HuntSweet commented Mar 15, 2020

vckai commented Mar 16, 2020

lyuly commented Mar 27, 2020

vckai commented Mar 27, 2020

lyuly commented Mar 27, 2020

pingProMax commented Apr 6, 2020

fjgui commented May 18, 2020

有两个疑问 #29

有两个疑问 #29

Comments

HuntSweet commented Mar 12, 2020

HuntSweet commented Mar 12, 2020

lyuly commented Mar 12, 2020

HuntSweet commented Mar 12, 2020

vckai commented Mar 13, 2020

HuntSweet commented Mar 14, 2020

vckai commented Mar 15, 2020

HuntSweet commented Mar 15, 2020

vckai commented Mar 16, 2020

lyuly commented Mar 27, 2020

vckai commented Mar 27, 2020

lyuly commented Mar 27, 2020

pingProMax commented Apr 6, 2020

fjgui commented May 18, 2020