Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于知乎爬虫 #7

Open
MercuialC opened this issue Sep 8, 2021 · 9 comments
Open

关于知乎爬虫 #7

MercuialC opened this issue Sep 8, 2021 · 9 comments
Labels
idea if you have a nice idea for spider use this

Comments

@MercuialC
Copy link

感谢优秀的工作!
知乎用户文章有反爬机制,作者有空可以拓展一下知乎的爬虫,或者分享一下爬取公众号文章的经验吗

@srx-2000
Copy link
Owner

srx-2000 commented Sep 9, 2021

嗯嗯,对于知乎的那个反爬后面会更新ip代理池来修复的,之前也有想过做一下知乎用户信息爬取的爬虫,在未来可能会实现并加入到该仓库吧,对于公众号文章的爬取我还没有具体涉及,后续会找时间试试看,如果有什么进展会在这个帖子给你答复的

@MercuialC
Copy link
Author

好的 期待更新

@srx-2000
Copy link
Owner

目前知乎问答的那个爬虫已经可以较为有效的反反爬啦,同时用户个人信息那个爬虫也已经提交了第一版,基本可以做到每日5w-10w用户数据的爬取,后续还会持续更新,会优化爬取算法。也会增加用户信息分析,用户排行榜等多个模块,公众号文章那个之前在得到你的反馈后,我有去尝试,但好像没有想象中的那么好爬,可能明年一月份我会突击一下,如果有什么进展我会在这里通知你的

@MercuialC
Copy link
Author

好的, 本想做一个个性化邮箱推送的小软件,但是反爬机制直接给我劝退了。期待大佬更新时学习一波!

@srx-2000
Copy link
Owner

嗯嗯,感谢支持

@srx-2000 srx-2000 added the idea if you have a nice idea for spider use this label Dec 9, 2021
@srx-2000
Copy link
Owner

em...抱歉啦,微信公众号文章那个爬虫,我这段时间确实研究了一下,可惜的是前段时间微信刚刚改版之前使用历史记录爬取的方案应该已经作废了,我也不是很想通过搜狗的接口去爬取微信,所以可能要需要一段时间去找找别的方式.......如果有进展了我在这里给你回复吧,还请见谅了

@ZXB1020
Copy link

ZXB1020 commented Apr 18, 2022

知乎问题的那个有人运行成功了吗
raise ProgramError(value) execjs._exceptions.ProgramError: SyntaxError: 语法错误
我的报这个错

@srx-2000
Copy link
Owner

那个有人运行成功了吗

首先确保自己电脑中有nodejs环境,同时安装了execjs库
然后可以参考这个issue中的解决办法:[#23]

@today5566
Copy link

nodejs版本有要求吗?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
idea if you have a nice idea for spider use this
Projects
None yet
Development

No branches or pull requests

4 participants