针对2019年末发现的新型冠状病毒疫情,本项目旨在通过爬虫收集全国最新的各机构所需的物资信息。点击查看最新物资需求表。
1、自动抓取和更新(暂时手动更新,每天保证至少更新一次)
- 所需物资:常见的物资已支持(详见物资需求表示例)
- 发布时间(日期)
- 信息来源:目前只收集政府网站发布的公告以保证信息可靠性
- 需求方信息:机构、地址、联系信息等(主要功能已开发,待完善)
- 紧急程度:暂不支持
3、数据编辑、审核、导出(项目介绍中的链接即最新的清单文件,点击下载)
pip install -r requirement.txt
python main.py
此命令相当于分步执行以下三条命令
scrapy runspider crawler.py
# 此脚本将查询最新(近一天,关键字为:'接受 捐赠 公告')发布的公告,
# 并保存到数据库
python downloader.py
# 此脚本用于下载(数据库中未下载的)公告
python parse.py
# 此脚本会将所有公告内容进行解析,并生成清单保存到data/demands.csv中
注意:执行此命令会覆盖原清单文件!
- 开发语言:Python3
- 相关依赖:Scrapy、BeautifulSoup、requests
- 数据库:SQLite3,并且数据文件提交到代码库,以减少重复工作
相关表结构,请查看