当今最热的职业是数据科学,数据科学领域应用最广泛的编程语言是python,python这么火的原因就是其有一个功能强大的数据科学库:pandas。
网上有大量的pandas教程,但始终没有简单的方法来练习pandas。我fork了这个2000+星的仓库,创建了这样一个专注于实战练习来学会pandas的组队学习教程。
此教程优点明显:
- 拥有十余种丰富的数据集
- 学习的内容有系统性、成体系
- 通过实际操作学习
仓库里将有三种不同类型的文件:
1. 练习说明
2. 无代码的解决方案
3. 带代码和注释的解决方案
其中1和2用作练习,3为参考答案。
学习就是要做,除非你亲手练习,否则你永远都无法学会。我的建议是你先学习文件夹learn-it部分然后再在practice-it中练习。 如果您的答案有误,请多思考而不是直接使用代码解决方案。
总结:此仓库包含十余个数据集,通过实操学会的数据分析技能足以在工作和竞赛中使用。
建议和合作非常受欢迎。欢迎打开issue或提PR :)
时间 | 主题 | 学习内容 | 对应数据集 | 练习数据集 |
---|---|---|---|---|
D1 | 开始了解你的数据 | 探索Chipotle快餐数据 | chipotle.tsv | Occupation、World Food Facts |
D2 | 数据过滤与排序 | 探索2012欧洲杯数据 | Euro2012_stats.csv | Chipotle、Fictional Army |
D3 | 数据分组 | 探索酒类消费数据 | drinks.csv | Occupation、Regiment |
D4 | Apply函数 | 探索1960 - 2014 美国犯罪数据 | US_Crime_Rates_1960_2014.csv | students_alcohol_consumption |
D5 | 数据合并 | 探索虚拟姓名数据 | 练习中手动内置的数据 | auto_mp、housing market |
D6 | 数据统计 | 探索风速数据 | wind.data | us_baby_names |
D7 | 数据可视化 | 探索泰坦尼克灾难数据 | train.csv | chipotle、online_retail、scores、tips |
D8 | 创建Series和DataFrames | 探索Pokemon数据 | 练习中手动内置的数据 | pokemon |
D9 | 时间序列 | 探索Apple公司股价数据 | Apple_stock.csv | financial_data、investor |
D10 | 数据删除 | 探索Iris纸鸢花数据 | iris.csv | Wine |
这套教程包含从初级到进阶的内容,适合初学者和希望进阶建立知识体系的数据科学从业者、竞赛爱好者。
学习此课程可以关注公众号AI圈终身学习(ID:AIHomie)的组队学习活动(非盈利),一起掌握数据分析。