Skip to content

Latest commit

 

History

History
27 lines (12 loc) · 541 Bytes

README.md

File metadata and controls

27 lines (12 loc) · 541 Bytes

zfnews

政府新闻的爬虫和挖掘

引文:

主要是为了做个政务相关的信息搜索工具,也可以从网上找些接近人民日报的语料数据,其他更深的挖掘还有待观察。目前估计的政府网站至少在10w+,日更新量100w+,内容还是可观的。因为个人做的很慢,有兴趣的可以一起来做。

已完成的部分

1 网站的新增内容定时爬取 2 网站抽取的工作 3 元数据的维护

TODO

  1. 信息的分类搜索
  2. 文本分类和知识图谱