Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

无法看见转推信息; 评论,点赞,回复数等也是0 #190

Open
myrainbowandsky opened this issue Feb 28, 2020 · 6 comments
Open

Comments

@myrainbowandsky
Copy link

myrainbowandsky commented Feb 28, 2020

1.你是怎么操作的?
一台机器上默认开启所有任务。
celery -A tasks.workers worker -l info -c 1

2.你期望的结果是什么?
转推所有相关信息,包括:
1.转推数,
2.所有转推人列表
3.转推的原作者,
4.原围脖发送时间,
5.原微博内容,

3.实际上你得到的结果是什么?

  1. 执行:python3 first_task_execution/repost_first.py
    得到:2020-02-28 17:32:42 - crawler - INFO - There are 11836 repost urls have to be crawled
    然后就没了

  2. 在抓取用户信息时 执行 celery -A tasks.workers -Q login_queue,fans_followers worker -l info -c 1
    得到
    截屏2020-02-2818 38 16

  3. 请问UI界面的用户信息是不是我抓取的微博的博主的信息,还是随机抓取的?也就是说必须先有种子数据(先抓取一定量的微博)才能再抓取相对应的其他信息,如果不抓取任何微博,其他一切数据抓取都是0。

  4. 关于 https://github.com/SpiderClub/weibospider/wiki/WeibSpider%E4%B8%AD%E6%89%80%E6%9C%89%E4%BB%BB%E5%8A%A1%E5%8F%8A%E5%85%B6%E4%BD%9C%E7%94%A8%E8%AF%B4%E6%98%8E 任务表述
    comment_crawler | 抓取第一页评论的任务
    -- | --
    comment_page_crawler | 根据第一页评论分发的抓取其它页评论的任务
    repost_crawler | 抓取第一页转发的任务
    repost_page_crawler | 抓取第一页之后的转发数据
    praise_crawler | 抓取第一页点赞的任务
    praise_page_crawler | 抓取第一页之后的点赞数据

这个“第一页之后”是什么意思?

  1. mysql里面有一个user_relation 是储存什么用的?任何一个任务都无法填充这个表。
    截屏2020-02-2818 47 46

  2. 在UI界面内的“微博信息”的用户ID和“用户信息”里的用户ID无法在对方搜索栏中找到。
    “用户信息”是🈯️哪些用户?是转发的用户?微博信息是博主信息?

  3. 执行所有任务时报错。

截屏2020-02-2819 04 07

在UI界面上,找不到转推信息,怎么设置才能看见。还是说要去mysql手动找?
评论,点赞,回复数为什么是0呢
截屏2020-02-2813 18 50

4.你使用的是哪个版本的WeiboSpider? 你的操作系统是什么?是否有读本项目的常见问题
UBUNTU18.04,master

@myrainbowandsky myrainbowandsky changed the title 无法看见转推信息 无法看见转推信息; 评论,点赞,回复数等也是0 Feb 28, 2020
@thekingofcity
Copy link
Member

  1. 第一页之后是ajax请求时的页数, 请稍微了解一下网页版微博的网络请求流程
  2. 数据库表字段说明

@myrainbowandsky
Copy link
Author

  1. 第一页之后是ajax请求时的页数, 请稍微了解一下网页版微博的网络请求流程
  2. 数据库表字段说明

5.如何向 user_relation 填入数据?

@thekingofcity
Copy link
Member

默认会在抓取用户信息的时候抓取其关注和粉丝列表, 见

@myrainbowandsky
Copy link
Author

谢谢,其他问题可以解答一下吗

@thekingofcity
Copy link
Member

UI界面从未使用过, 等待他人回复吧

@qwer331821731
Copy link

我这里抓下来的微博评论,点赞,回复数也都是0,执行的search任务。是否网页结构发生改变导致解析有问题。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants