该课程为 Paddle AI Studio 出品。2020年就已经结课,有些东西不能直接运行,这里记录一下。
下面简单的说一下几个作业情况。
青春有你2 选手信息爬取
使用传统的 requests 模块不能过百度百科认证,具体情况可以看这篇文章,所以我是用了 aiohttp 能够正确获取到网页内容。
其中的一些细节,比如网页元素的获取等等就不说了。
青春有你2 选手数据分析
这里为了保持一致,使用了 2020 年提供的选手信息数据,代码没啥问题。
青春有你2 选手识别
在 AI Studio 中无法复现,最终两张图片全识别为 <虞书欣>。
本地复现时没有注意版本问题,一开始就安装最近的版本,PaddleHub==2.3.1,paddlepaddle-gpu==2.4.2,但是注意到 PaddleHub 更新到 2.x 版本时,BaseCVDataset不存在了,由于不想更换环境,就不打算复现了,直接跳过。
青春有你2 评论数据爬取分析
代码没有问题,调用 PaddleHub 中的 porn_detection_lstm 模块来进行评论内容审核。