Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于本仓库名称与实验手册内容的建议 #1

Open
will-ww opened this issue Oct 4, 2023 · 4 comments
Open

关于本仓库名称与实验手册内容的建议 #1

will-ww opened this issue Oct 4, 2023 · 4 comments

Comments

@will-ww
Copy link
Contributor

will-ww commented Oct 4, 2023

根据“开源生态分析挖掘任务 - 数据科学系列课程规划”的内容,以及目前的内容体系与分工,给出如下建议:

1、仓库名称

简单来说就是用“开源生态数据分析”中的各种任务作为《数据科学与工程导论》课程中的各个单元的实验;另一方面,前面我们也设计过一个面向教师的开源案例教学赛,如下图所示。

因此,不妨也做个文字游戏,例如:OpenTEA101,即面向数据科学与工程导论课程的开源生态数据分析实训案例(Open Source Ecological Data Analysis Cases for Teaching)。

2、实训案例内容

这个可以直接按照“开源生态分析挖掘任务 - 数据科学系列课程规划”中的框架进行列举。

2.1 问题定义@bifenglin

  • 知识点:Git 知识、GitHub 知识、GitHub 行为数据结构、开源生态知识
  • 参考资料:oss101 课程

2.2 数据收集@andyhuang18

2.3 数据预处理@wj23027

  • 知识点:数据清洗(数据质量:缺失值处理、异常处理、重复数据、数据结构、格式转化)、数据合并、数据集成、数据规约、数据变换、综合实践
  • 参考资料:《数据科学导论》第 4 章

2.4 数据探索@wj23027

2.5 特征工程@andyhuang18

2.6 数据建模 + 结果评估(请 @lhbvvvvv @Zzzzzhuzhiwei 分工)

  • 回归分析建模:线性回归、多项式回归、岭回归;参考《数据科学导论》5.3 节、《巧用ChatGPT快速搞定数据分析》6.1 节
  • 预测分析建模:神经网络预测模型、决策树和随机森林;参考《巧用ChatGPT快速搞定数据分析》6.2 节
  • 分类分析建模:评论情感分类、KNN 分类、Bayes 分类、SVN 分类;参考《数据科学导论》5.4 节、《巧用ChatGPT快速搞定数据分析》7.1 节
  • 聚类分析:K-Means 聚类、层次聚类;参考《数据科学导论》5.5 节、《巧用ChatGPT快速搞定数据分析》7.2 节
  • 深度学习分析:CNN分类、 LSTM预测;参考《巧用ChatGPT快速搞定数据分析》8.1 节

其中,“2.6 数据建模 + 结果评估”中,还需要根据不同的技术选取恰当的任务和场景,例如:

  • 回归分析建模:例如 GitHub 仓库数、GitHub 开发者数量等的回归拟合
  • 预测分析建模:例如 Activity、OpenRank 预测问题
  • 分类分析建模:例如机器人分类、Issue 评论情感分类、仓库技术类型分类
  • 聚类分析:例如开源社区聚类、OpenGalaxy
  • 深度学习分析:待定
@bifenglin
Copy link
Contributor

给的建议非常详细清楚,根据建议已修改,可参照commit
具体修改内容为:

  1. 修改README 更加符合本仓库的目标。
  2. 修改目录结构,可包含多个实验内容。
  3. 增加bot_detect目录内的问题描述。

关于OpenTEA101的仓库名称建议确实很不错,已修改。

@bifenglin
Copy link
Contributor

bifenglin commented Oct 4, 2023

各个问题的问题定义已经更新至PR #2 ,请review相关PR,后续可能还会修改相关问题,可以后续再讨论。

@andyhuang18
Copy link
Contributor

实训案例中,和@wj23027 商讨后,我负责 2.2数据收集2.5特征工程 部分

@will-ww
Copy link
Contributor Author

will-ww commented Oct 5, 2023

实训案例中,和@wj23027 商讨后,我负责 2.2数据收集2.5特征工程 部分

已更新~

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants