[毕业设计] 面向开源治理最佳实践认证过程的分类预测模型 #64

gymgym1212 · 2022-05-18T13:24:57Z

gymgym1212
May 18, 2022
Maintainer

利用 OpenSSF 最佳实践的项目数据，结合我们自有的日志数据，建立一个最佳实践认证过程的分类预测模型。

我的第一个问题是：怎么样才能说明这个模型确实有用呢？如果只是利用上述的数据进行 K 折交叉验证，是不是太单薄了？如果要想证明真的有用，是不是需要自行在 GitHub 上搜罗更多数据？还是说是“市面上”已经有比较契合这个问题的数据集了呢？

@X-lab2017/x-lab

gymgym1212 · 2022-05-18T13:27:58Z

gymgym1212
May 18, 2022
Maintainer Author

另外，怎么证明 OpenSSF 的数据是高质量的呢？

2 replies

will-ww May 18, 2022
Maintainer

这个认证过程，是专家经验，评测本身，可以认为就是能够反映实际情况的高质量数据。当然，对数据需要做一些清洗等工作。

gymgym1212 May 18, 2022
Maintainer Author

这个认证过程，是专家经验，评测本身，可以认为就是能够反映实际情况的高质量数据。当然，对数据需要做一些清洗等工作。

好的，这也算是工作量能够写在论文里的对吧？

gymgym1212 · 2022-05-18T13:42:54Z

gymgym1212
May 18, 2022
Maintainer Author

这是一个示例 https://bestpractices.coreinfrastructure.org/zh-CN/projects/1

从示例里其实可以直观看到，有很多问题其实是很难量化分析的，下面举几个例子：

是否简明扼要的说明了项目的作用？（利用项目的 About 内容 + readme 解析 + NLP 也许能做到？）
是否有各类文档（怎么检测文本文件属于什么文档类型以及内容上是否完善？）
必须拥有两个以上的无关的重要开发者（这个也许我们可以做）
...
诸如此类的问题非常多，整个问卷设计的也非常细

在建模过程中怎么考虑这些难以量化的因素呢？

1 reply

will-ww May 18, 2022
Maintainer

这是一个示例 https://bestpractices.coreinfrastructure.org/zh-CN/projects/1

从示例里其实可以直观看到，有很多问题其实是很难量化分析的，下面举几个例子：

是否简明扼要的说明了项目的作用？（利用项目的 About 内容 + readme 解析 + NLP 也许能做到？）

是否有各类文档（怎么检测文本文件属于什么文档类型以及内容上是否完善？）

必须拥有两个以上的无关的重要开发者（这个也许我们可以做）
...
诸如此类的问题非常多，整个问卷设计的也非常细

在建模过程中怎么考虑这些难以量化的因素呢？

不用考虑所有的问题。可以先简单做，能否方便量化的作为特征，然后试一下效果，特别是，加上我们的GitHub行为数据，我感觉应该能有一定效果的，毕竟达成这些徽章的项目，应该还是有一个定的活跃度和影响力的。

如果效果不是很好，再来尝试增加一些特征信息，例如NLP的内容。

will-ww · 2022-05-18T14:07:00Z

will-ww
May 18, 2022
Maintainer

利用 OpenSSF 最佳实践的项目数据，结合我们自有的日志数据，建立一个最佳实践认证过程的分类预测模型。

我的第一个问题是：怎么样才能说明这个模型确实有用呢？如果只是利用上述的数据进行 K 折交叉验证，是不是太单薄了？如果要想证明真的有用，是不是需要自行在 GitHub 上搜罗更多数据？还是说是“市面上”已经有比较契合这个问题的数据集了呢？

@X-lab2017/x-lab

因为这些项目都是已经打上标签了（通过、白银、黄金等，以及百分比）。这个标签就是 ground truth，可以用来作为评测。从这几千个项目样本中提取出来训练，应该能够说明问题。

2 replies

gymgym1212 May 18, 2022
Maintainer Author

OK, 我也是看了一些数据集，其实本身也没有去证明自己数据是否好用。至少最后建模分析的结果本身也是一种回应和佐证。

will-ww May 18, 2022
Maintainer

对的，自圆其说就好。但这套数据我们觉得还是非常有价值的。

gymgym1212 · 2022-05-22T18:00:51Z

gymgym1212
May 22, 2022
Maintainer Author

关于 CII 最佳实践的数据已经获取完毕，约 12MB
projects.csv

0 replies

gymgym1212 · 2022-05-25T14:24:14Z

gymgym1212
May 25, 2022
Maintainer Author

研究了一下 scorecard，每个检查项 10 分，总评分就是加权平均。检查项有四个等级，critical 权重为 10，high 权重为 7.5，medium 权重为 5，low 权重为 2.5。

这篇文档里介绍了每个检查项的等级，以及具体评分的细节：https://github.com/ossf/scorecard/blob/main/docs/checks.md

但这些指标的权重数值是如何产生的，也没有特别的描述。我猜就是专家经验+拍脑袋。另外，如果一个检查项有脱离 GitHub 的实现方式（比如 CI 不一定要在 GitHub 做），那么等级就可能被设置为 low。

0 replies

gymgym1212 · 2022-05-25T14:27:05Z

gymgym1212
May 25, 2022
Maintainer Author

从想要达到的目的上讲，scorecard 和 CII 最佳实践徽章的效果是类似的。因此可以考虑使用 scorecard 对 CII 最佳实践徽章中的项目进行测试、比对效果。但在测试的时候发现，对于在最佳实践中提交比较早的项目可能就不太适用了，因为 scorecard 只能检测仓库的当前状态，而不能追溯历史。

1 reply

will-ww May 26, 2022
Maintainer

嗯，我觉得挺好，早期项目（近期没有更新的），可以考虑作为数据清洗的策略去掉。

Scorecard 就是一个“专家经验 + 自动化评测”类型的工具，也挺符合这个行业（咨询分析 + 开源安全）的做法，整个评分细节还是非常值得借鉴的，并且还在不断迭代完善。

因此，我们可以做的事情包括：

把 CII 和 Scorecard 两个项目详细的了解清楚
整理 CII 数据，并根据我们的目标进行适当的清洗，提高数据质量
跑通整个 Scorecard，并初步利用 CII 中的项目进行对比分析
根据结果，再来看下一步

gymgym1212 · 2022-05-26T14:26:52Z

gymgym1212
May 26, 2022
Maintainer Author

对 CII 的数据进行了一些统计整理，发现：

一共有 4738 个项目，其中未通过的项目有 3948 个，占总项目数的 83.3%。
从 CII 搜集到的原始数据中的标注时间，是每一个项目分别第一次达到 passing/ silver/ gold 级别的时间。下图举了一个例子：

从图中可知，第一个、第二个和第四个项目达到了 `passing` 级别，而第三个项目未达成。

下图是对项目的统计结果，展示了最后达到的级别、对应年份、达到的项目数量。
另外，从图中可以看出一共有 7 个 gold 项目，但实际上从网站上可以看到有 11 个项目已经是 gold 级别。应该是 CII 官方提供的数据接口并非最新数据，但总体上也差不了太多。

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

X-lab

[毕业设计] 面向开源治理最佳实践认证过程的分类预测模型 #64

{{title}}

Replies: 0 comments 13 replies

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

X-lab

[毕业设计] 面向开源治理最佳实践认证过程的分类预测模型 #64

gymgym1212 May 18, 2022 Maintainer

Replies: 0 comments · 13 replies

gymgym1212 May 18, 2022 Maintainer Author

will-ww May 18, 2022 Maintainer

gymgym1212 May 18, 2022 Maintainer Author

gymgym1212 May 18, 2022 Maintainer Author

will-ww May 18, 2022 Maintainer

will-ww May 18, 2022 Maintainer

gymgym1212 May 18, 2022 Maintainer Author

will-ww May 18, 2022 Maintainer

gymgym1212 May 22, 2022 Maintainer Author

gymgym1212 May 25, 2022 Maintainer Author

gymgym1212 May 25, 2022 Maintainer Author

will-ww May 26, 2022 Maintainer

gymgym1212 May 26, 2022 Maintainer Author

gymgym1212
May 18, 2022
Maintainer

Replies: 0 comments 13 replies

gymgym1212
May 18, 2022
Maintainer Author

will-ww May 18, 2022
Maintainer

gymgym1212 May 18, 2022
Maintainer Author

gymgym1212
May 18, 2022
Maintainer Author

will-ww May 18, 2022
Maintainer

will-ww
May 18, 2022
Maintainer

gymgym1212 May 18, 2022
Maintainer Author

will-ww May 18, 2022
Maintainer

gymgym1212
May 22, 2022
Maintainer Author

gymgym1212
May 25, 2022
Maintainer Author

gymgym1212
May 25, 2022
Maintainer Author

will-ww May 26, 2022
Maintainer

gymgym1212
May 26, 2022
Maintainer Author