推特官方提供的API可以让我们获取到所需的数据。
为此,我们需要推特账号去创建一个app以获得keys和sccess tokens。然后使用Python的Tweepy库来和API交互。在即时任务中可以通过Stream API获取twitter流数据,因为是及时获取的数据,实际速率取决于设置关键词的数量和热门程度,一般不会超出限制。常规任务中可以通过Search API获取twitter历史数据,不过只能够下载当前时间以前的7天的数据,且存在速率限制。两者在Collecting Tweets with Tweepy中有相关的实现。
BTW,我们还可以在Github或Kaggle上可以找到现有的名人或事件的社交平台数据集,本项目数据来源于Trump Twitter Archive,基本涵盖了川普开通推特账号以来的所有推文(2009~),而且持续更新,cool~
你可以在Trump Tweets Mining中查看全部代码。
到我的博客阅读此文章以查看更多分析和图表说明,来看看川普这个人那些事儿吧~
- Twitter的开发者文档
- Tweepy的说明文档
- Dealing Data PoGo Series
- David Robinson Text analysis of Trump's tweets confirms he writes only the (angrier) Android half
- Marco Bonzanini Mining Twitter Data with Python
- DATAQUEST Working with streaming data: Using the Twitter API to capture tweets
Up-to-date Archive of Trump Tweets