-
Notifications
You must be signed in to change notification settings - Fork 18
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[合作] 游兰教授团队在图数据分析与可视化方向的事宜 #73
Comments
GitHub explorer 的示例已迁移完毕,具体可见 https://github.com/X-lab2017/open-digger/blob/master/notebook/clickhouse_demo.ipynb 。 总体而言,都是些较简单的统计工作,实际意义不大,可以用于熟悉 Clickhouse 的 SQL 语法。 |
Great, many thanks~ 下学期,我的导论课程,也用这个教程了~ |
关于数据镜像制作,之前的数据统计有问题,目前 2020 年全年的日志数据量大约为 8.8 亿条,即使用 Clickhouse 最高效的 Native 格式导出,也需要大约 900GB 的数据量。即使仅使用日志量最多的 10W 个项目数据,数据量也在 3 亿条左右。总体而言数据量还是过大。 |
这个确实很大,我们想想怎么弄合适~ |
其实要看分析诉求是什么,如果他们有预算,也可以在云上弄一个 Clickhouse 实例,一般从局部分析的角度出发,是不一定需要全域数据的,例如 Apache 的所有数据、Google 的所有数据、按时间的采样数据等等,全域数据的量怎么都是很大的,不太适合进行常态化的分发。 |
嗯,我来提出一些设计点吧,也不是专门为了他们,想慢慢把数据出版这件事情做起来了~ |
已经完成游老师团队在语雀和github中的人员添加与团队设置。 |
貌似昨天的讨论可以回答这个问题了:X-lab2017/open-perf#27 数据集小于100G,应该是个比较合适的,有几个问题问一下:@frank-zsy
如果以上回答均是,我觉得直接给到游兰教授团队就可以了,即便不是,其实也是可以的~ |
翻了下这个项目的 issue,貌似有些问题可以回答了,而且有些有意思的内容: |
他的数据集是 2011 到 2020 年底的。就目前建图而言,信息是完整的,也可以计算活跃度和影响力。但也有很多做不了,例如邮箱域名统计。 但他的构建方式有一个致命的问题,就是没有存项目和开发者的 ID,这对有过改名的项目非常不友好,没有办法在时序上关联,这与我们现在使用的方式是完全不兼容的,而且这意味着这个数据集肯定无法在生产环境使用。而且建图时没有办法关联改名的项目,这会是巨大的问题,例如微软的 org 名就改过,他的数据集无法关联改名前后的 VSCode 项目,会因为项目名不同而变成两个项目。 我也在思考为什么他的数据集会小很多,目前看到的可能包含几点:
以上是我感觉他的数据会比较小的几个重要的因素。 |
那我基本理解了,我们有两个选项,看觉得哪个合适: 原则:进 OpenPerf 主要是科研与教学目的的数据,可以不用考虑生产需求;而 OpenDigger 产出的,是需要保证生产需求的。可以有交集的部分,但不强求。因此,OpenPerf 的定位主要是创造学术影响力,协同高校、科研院所、跨学科等的智力资源。
长远来看,可以开发一个数据生成器,从我们的原始数据上可以根据需求定制各种数据集(时间、范围、时间类型等等),以供各种用途。 我在想,创新效率和工程效率,是否何以适当兼顾下~ |
是的,最好的方式还是能够进行统一,都归到 OpenDigger 下面,用统一和完整的一套数据格式和数据内容来做,否则长远来看是有局限性的,我拉一下目前所有列的数据空间占用情况: 看起来确实是 另外 而且 commit message 在他的表中也是不存储的,目前我们也还没有对 commit message 的文本分析,但不确定之后是否会有。 其实数据镜像的生成工程上并没有很大的难度,目前主要还是数据量导致的网络 I/O 开销,如果可以减少数据量,就可以方便的做一些分发工作。 |
目前可以考虑的优化点:
上述优化后可以看下导出数据量的情况。 |
非常赞同!好的,那我们就还是坚持 OpenDigger 的一致性,等你重构与优化好后,看看数据量的情况,many thanks~ |
上述优化项已完成并开始重新导入,大约需要两天左右完成,目前导出来看,日期类列不会再出现默认值情况 |
关于数据镜像制作事宜同步如下:
以上流程可作为标准流程进入 OpenDigger,我后续会在 OpenDigger 中上传相关脚本,包含:
使用方的最大挑战为:
|
感谢 Frank 的基础性工作,实在太棒! |
完成 Translation Guidance.md,整个 issue 中的内容基本上就完成了~ @xiaoya-Esther #72 |
根据该文档:https://github.com/X-lab2017/open-digger/tree/master/sample_data 可以进行采样数据的集成工作。 目前尚未完成:
已全部完成,具体详情见上述链接。 |
为什么说每行数据是不完整的呢? BTW 这种交流方式似乎 Discussions 的 Thread 会舒服一点.. |
@tisonkun 我来晚了。这里不完整的意思是例如对于 |
基于我们 29 日讨论的结果(记录文档),初定本周完成如下几个工作:
The text was updated successfully, but these errors were encountered: