Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Dataset] 提议第一个进入 OpenPerf 的数据集 #27

Open
will-ww opened this issue Jun 3, 2022 · 4 comments
Open

[Dataset] 提议第一个进入 OpenPerf 的数据集 #27

will-ww opened this issue Jun 3, 2022 · 4 comments
Assignees
Labels

Comments

@will-ww
Copy link
Contributor

will-ww commented Jun 3, 2022

根据 ClickHouse 的 github-explorer 实例,建议第一个作为进入 OpenPerf 的数据集~

部分摘要信息如下:

需要进一步丰富与补充相关信息,以及在上面开发分析任务与挑战~

@bifenglin
Copy link
Collaborator

若是把所有数据都扔上去也可以,然后各项挑战直接从这些数据里面提取就好了,也就是这么一个数据集衍生出很多任务,而不是每项任务一个单独的数据集。

@will-ww
Copy link
Contributor Author

will-ww commented Jun 3, 2022

若是把所有数据都扔上去也可以,然后各项挑战直接从这些数据里面提取就好了,也就是这么一个数据集衍生出很多任务,而不是每项任务一个单独的数据集。

加入前面的 Issue 一起来参考:#26

@frank-zsy
Copy link
Collaborator

frank-zsy commented Jun 5, 2022

关于制作 ClickHouse 采样数据镜像的步骤:

  • 需要等待线上数据导入完成
  • 将表结构导出,使用 SQL 为 SHOW CREATE TABLE github_log.events FORMAT TabSeparated OUTFILE 输出到某个文件
  • 将采样数据导出,使用 SQL 为 SELECT * FROM github_log.events WHERE ... FORMAT Native/JSONCompact OUTFILEWHERE 子句为筛选条件,如时间区间、采样频率、仓库范围等。FORMAT 为输出格式,Native 为二进制格式,使用空间最小,但不可读,无法验证。JSONCompact 为压缩 JSON,仅有 value,可做验证。输出到某个文件即可。
  • 使用一个新的 ClickHouse Server 容器,目前线上版本为 20.8.7.15,官方基础镜像使用相同版本。ARM 镜像需要使用另外的非官方镜像为基础镜像。
  • 接下来有多种处理方式:
    • 1、将上述导出的表结构文件与数据文件打包到官方服务器镜像中,并在启动时使用 shell 脚本动态进行数据初始化,并在初始化后删除原始文件,设置标记文件,以防止容器启停后再次初始化。这种方式的问题在于数据导入时需要消耗较大内存,无论数据量大小,导入时内存消耗峰值可达 6GB 以上,故需要宿主机至少 8GB 内存分配给 ClickHouse 容器方可保证正常初始化。
    • 2、分步制作镜像。首先启动一个新的 ClickHouse 服务器镜像,并通过脚本建表和导入数据,导入后将数据卷移动到其他目录备用,并在镜像中设置启动 shell 脚本将数据文件在镜像启动时拷贝到数据目录下完成初始化。之后使用 docker commit 提交当前容器为一个镜像即可。需要进行数据移动的原因是:由于这行设置,ClickHouse 服务器官方镜像的数据目录并不在镜像内,而是在宿主机的匿名 Volume 中,因此无法在容器内持久化。除通过数据目录的移动备份方式外,还可以我们自己修改官方 Dockerfile 并重新打包自己的服务端镜像,使数据卷可以持久化。

@bifenglin
Copy link
Collaborator

bifenglin commented Mar 2, 2023

此工作暂时可参照 X-lab2017/open-digger#856 获取相应demo数据集,文档可转移至 opendigger 项目,关于openperf的数据集我这边建议整理成结构型数据集,附带有标签数据。目前已完成的标签数据集和正在完成的标签数据集有:

  1. github 机器人账号数据集
  2. 开源数据库项目数据集

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

3 participants