🤗 Hugging Face • ⏬ 数据 • 📖 教程
 English | 中文

DevOps-Eval是一个专门为DevOps领域大模型设计的综合评估数据集。我们希望DevOps-Eval能够帮助开发者，尤其是DevOps领域的开发者，追踪进展并分析他们拥有的DevOps大模型的优势和不足之处。

📚 该仓库包含与DevOps和AIOps相关的问题和练习, 还添加了关于ToolLearning相关的样本。

💥 目前有 7486 个多项选择题，根据DevOps的通用流程将其归纳未8个模块，如下图所示。

🔥 AIOps样本总计 2840 个，覆盖的场景包括日志解析、时序异常检测、时序分类、时序预测和根因分析。

🔧 ToolLearning样本 1509 个，涵盖59个领域，总计 239 种工具类别。

🔔 更新

[2023.12.27] 新增1509个ToolLearning样本，发布了相应的评测排行榜
[2023.11.27] 增加运维场景样本487例、时序预测样本640例；同步更新评测排行榜
[2023.10.30] 增加针对AIOps场景的评测排行榜
[2023.10.25] 增加AIOps样本，包含日志解析、时序异常检测、时序分类和根因分析
[2023.10.18] DevOps-Eval发布大模型评测排行版

📜 目录

🏆 排行榜
⏬ 数据
🚀 如何进行测试
🧭 TODO
🏁 Licenses
😃 引用
🗂 Miscellaneous
- ✨ Star History
- 🤝 Friendship Links

🏆 排行榜

以下是我们获得的初版评测结果，包括多个开源模型的zero-shot和five-shot准确率。我们注意到，对于大多数指令模型来说，five-shot的准确率要优于zero-shot。

👀 DevOps

Zero Shot

模型	plan	code	build	test	release	deploy	operate	monitor	平均分
DevOpsPal-14B-Chat	60.61	78.35	84.86	84.65	87.26	82.75	69.89	79.17	78.23
DevOpsPal-14B-Base	54.55	77.82	83.49	85.96	86.32	81.96	71.18	82.41	78.23
Qwen-14B-Chat	60.61	75.4	85.32	84.21	89.62	82.75	69.57	80.56	77.18
Qwen-14B-Base	57.58	73.81	84.4	85.53	86.32	81.18	70.05	80.09	76.19
Baichuan2-13B-Base	60.61	69.42	79.82	79.82	82.55	81.18	70.37	83.8	73.73
Baichuan2-13B-Chat	60.61	68.43	77.98	80.7	81.6	83.53	67.63	84.72	72.9
DevOpsPal-7B-Chat	54.55	69.11	83.94	82.02	76.89	80	64.73	77.78	71.92
DevOpsPal-7B-Base	54.55	68.96	82.11	78.95	80.66	76.47	65.54	78.7	71.69
Qwen-7B-Base	53.03	68.13	78.9	75.44	80.19	80	65.06	80.09	71.09
Qwen-7B-Chat	57.58	66.01	80.28	79.82	76.89	77.65	62.64	79.17	69.75
Baichuan2-7B-Chat	54.55	63.66	77.98	76.32	71.7	73.33	59.42	79.63	66.97
Internlm-7B-Chat	60.61	62.15	77.06	76.32	66.98	74.51	60.39	78.24	66.27
Baichuan2-7B-Base	56.06	62.45	75.69	70.61	74.06	69.8	61.67	75.93	66.21
Internlm-7B-Base	54.55	58.29	79.36	78.95	77.83	70.59	65.86	75.93	65.99

Five Shot

模型	plan	code	build	test	release	deploy	operate	monitor	平均分
DevOpsPal-14B-Chat	63.64	79.49	81.65	85.96	86.79	86.67	72.95	81.48	79.69
DevOpsPal-14B-Base	62.12	80.55	82.57	85.53	85.85	84.71	71.98	80.09	79.63
Qwen-14B-Chat	65.15	76	82.57	85.53	84.91	84.31	70.85	81.48	77.81
Qwen-14B-Base	66.67	76.15	84.4	85.53	86.32	80.39	72.46	80.56	77.56
Baichuan2-13B-Base	63.64	71.39	80.73	82.46	81.13	84.31	73.75	85.19	75.8
Qwen-7B-Base	75.76	72.52	78.9	81.14	83.96	81.18	70.37	81.94	75.36
Baichuan2-13B-Chat	62.12	69.95	76.61	84.21	83.49	79.61	71.98	80.56	74.12
DevOpsPal-7B-Chat	66.67	69.95	83.94	81.14	80.19	82.75	68.6	76.85	73.61
DevOpsPal-7B-Base	69.7	69.49	82.11	81.14	82.55	82.35	67.15	79.17	73.35
Qwen-7B-Chat	65.15	66.54	82.57	81.58	81.6	81.18	65.38	81.02	71.69
Baichuan2-7B-Base	60.61	67.22	76.61	75	77.83	78.43	67.31	79.63	70.8
Internlm-7B-Chat	60.61	63.06	79.82	80.26	67.92	75.69	60.06	77.31	69.21
Baichuan2-7B-Chat	60.61	64.95	81.19	75.88	71.23	75.69	64.9	79.17	69.05
Internlm-7B-Base	62.12	65.25	77.52	80.7	74.06	78.82	63.45	75.46	67.17

🔥 AIOps

Zero Shot

模型	日志解析	根因分析	时序异常检测	时序分类	时序预测	平均分
Qwen-14B-Base	66.29	58.8	25.33	43.5	62.5	52.25
DevOpsPal-14B—Base	63.14	53.6	23.33	43.5	64.06	50.49
Qwen-14B-Chat	64.57	51.6	22.67	36	62.5	48.94
DevOpsPal-14B—Chat	60	56	24	43	57.81	48.8
Qwen-7B-Base	50	39.2	22.67	54	43.75	41.48
DevOpsPal-7B—Chat	56.57	30.4	25.33	45	44.06	40.92
Baichuan2-13B-Chat	64	18	21.33	37.5	46.88	39.3
Qwen-7B-Chat	57.43	38.8	22.33	39.5	25.31	36.97
Internlm-7B—Chat	58.86	8.8	22.33	28.5	51.25	36.34
Baichuan2-7B-Chat	60.86	10	28	34.5	39.06	36.34
Baichuan2-7B-Base	53.43	12.8	27.67	36.5	40.31	35.49
Baichuan2-13B-Base	54	12.4	23	34.5	42.81	34.86
DevOpsPal-7B—Base	46.57	20.8	25	34	38.75	33.94
Internlm-7B—Base	48.57	18.8	23.33	37.5	33.75	33.1

One Shot

模型	日志解析	根因分析	时序异常检测	时序分类	时序预测	平均分
DevOpsPal-14B—Chat	66.29	80.8	23.33	44.5	56.25	54.44
DevOpsPal-14B—Base	60	74	25.33	43.5	52.5	51.13
Qwen-14B-Base	64.29	74.4	28	48.5	40.31	50.77
Qwen-7B-Base	56	60.8	27.67	44	57.19	49.44
Qwen-14B-Chat	49.71	65.6	28.67	48	42.19	46.13
Baichuan2-13B-Base	56	43.2	24.33	41	46.88	42.89
Baichuan2-7B-Chat	58.57	31.6	27	31.5	51.88	41.83
DevOpsPal-7B—Base	52.86	44.4	28	44.5	36.25	41.2
Baichuan2-7B-Base	48.29	40.4	27	42	40.94	39.86
Qwen-7B-Chat	54.57	52	29.67	26.5	27.19	38.73
Baichuan2-13B-Chat	57.43	44.4	25	25.5	30.63	37.75
DevOpsPal-7B—Chat	56.57	27.2	25.33	41.5	33.44	37.46
Internlm-7B—Chat	62.57	12.8	22.33	21	50.31	36.69
Internlm-7B—Base	48	33.2	29	35	31.56	35.85

🔧 ToolLearning

FuncCall-Filler	dataset_name	fccr	1-fcffr	1-fcfnr	1-fcfpr	1-fcfnir	aar
Qwen-14b-chat	luban	61	100	97.68	63.32	100	69.46
Qwen-7b-chat	luban	50.58	100	98.07	52.51	100	63.59
Baichuan-7b-chat	luban	60.23	100	97.3	62.93	99.61	61.12
Internlm-chat-7b	luban	47.88	100	96.14	51.74	99.61	61.85
Qwen-14b-chat	fc_data	98.37	99.73	99.86	98.78	100	81.58
Qwen-7b-chat	fc_data	99.46	99.86	100	99.59	100	79.25
Baichuan-7b-chat	fc_data	97.96	99.32	100	98.64	100	89.53
Internlm-chat-7b	fc_data	94.29	95.78	100	98.5	100	88.19
CodeLLaMa-7b	fc_data	98.78	99.73	100	99.05	100	94.7
CodeLLaMa-7b-16	fc_data	98.1	99.87	99.73	98.5	100	93.14
CodeFuse-7b-4k	fc_data	98.91	99.87	99.87	99.18	100	89.5

⏬ 数据

下载

方法一：下载zip压缩文件（你也可以直接用浏览器打开下面的链接）：

wget https://huggingface.co/datasets/codefuse-admin/devopseval-exam/resolve/main/devopseval-exam.zip

然后可以使用 pandas加载数据：

import os
import pandas as pd

File_Dir="devopseval-exam"
test_df=pd.read_csv(os.path.join(File_Dir,"test","UnitTesting.csv"))

方法二：使用Hugging Face datasets直接加载数据集。示例如下：

from datasets import load_dataset
dataset=load_dataset(r"DevOps-Eval/devopseval-exam",name="UnitTesting")

print(dataset['val'][0])
# {"id": 1, "question": "单元测试应该覆盖以下哪些方面？", "A": "正常路径", "B": "异常路径", "C": "边界值条件"，"D": 所有以上，"answer": "D", "explanation": ""}  ```

方法三：使用modelscope下载相关所有数据。示例如下：

from modelscope.msdatasets import MsDataset
MsDataset.clone_meta(dataset_work_dir='./xxx', dataset_id='codefuse-ai/devopseval-exam')

👀 说明

为了方便使用，我们已经整理出了 55 个细分类别以及它们的中英文名称。具体细节请查看 category_mapping.json 。格式如下：

{
  "UnitTesting.csv": [
    "unit testing",
    "单元测试",
    {"dev": 5, "test": 32}
    "TEST"
  ],
  ...
  "file_name":[
  "英文名称",
  "中文名称",
  "样本数量",
  "类别(PLAN,CODE,BUILD,TEST,RELEASE,DEPOLY,OPERATE,MONITOR八选一)"
  ]
}

每个细分类别由两个部分组成：dev 和 test。每个细分类别的 dev 集包含五个示范实例以及为 few-shot 评估提供的解释。而 test 集则用于模型评估，并且test数据已包含准确标签。

下面是 dev 数据的示例，来自"版本控制"细分类别：

id: 4
question: 如何找到Git特定提交中已更改的文件列表？
A: 使用命令 `git diff --name-only SHA`
B: 使用命令 `git log --name-only SHA`
C: 使用命令 `git commit --name-only SHA`
D: 使用命令 `git clone --name-only SHA`
answer: A
explanation: 
分析原因：
git diff --name-only SHA命令会显示与SHA参数对应的提交中已修改的文件列表。参数--name-only让命令只输出文件名，而忽略其他信息。其它选项中的命令并不能实现此功能。

🔥 AIOps样本示例

👀 👀 此处以日志解析和时序异常检测为例，对AIOps样本做一些简要的展示:

日志解析

id: 0
question:
下面是一些运行日志
 0 04:21:15,429 WARN Cannot open channel to 2 at election address /10.10.34.12:3888
 1 19:18:56,377 WARN ******* GOODBYE /10.10.34.11:52703 ********
 2 19:13:46,128 WARN ******* GOODBYE /10.10.34.11:52308 ********
 3 19:16:26,268 WARN ******* GOODBYE /10.10.34.11:52502 ********
 4 09:11:16,012 WARN Cannot open channel to 3 at election address /10.10.34.13:3888
 5 16:37:13,837 WARN Cannot open channel to 2 at election address /10.10.34.12:3888
 6 09:09:16,008 WARN Cannot open channel to 3 at election address /10.10.34.13:3888
 7 15:27:03,681 WARN Cannot open channel to 3 at election address /10.10.34.13:3888
日志最前面三部分别为序号、时间戳和日志Level，在不考虑这三部分内容的情况下，此处我们设定日志的变量用'<*>'代替，token与token之间用空格分隔，那么请问上述日志的日志模版具体是什么？
A: Notification time out: <*> 和 Connection broken for id <*>, my id = <*>, error =
B: Send worker leaving thread 和 Connection broken for id <*>, my id = <*>, error =
C: Received connection request /<*>:<*> 和 Interrupting SendWorker
D: Cannot open channel to <*> at election address /<*>:<*> 和 ******* GOODBYE /<*>:<*> ********
answer: D
explanation: 根据日志中的内容，选项D是最符合日志模板的。日志中包含了"Cannot open channel to &lt;*&gt; at election address /&lt;*&gt;:&lt;*&gt;"和"******* GOODBYE /&lt;*&gt;:&lt;*&gt; ********"这两个固定的模板片段，它们都在选项D中出现了。同时，其他选项中的模板片段与日志中的内容不匹配。因此，选项D是最符合日志模板的。

时序异常检测

id: 0
question:
分析如下时间序列
[50,62,74,84,92,97,99,98,94,87,77,65,265,40,28,17,8,3,0,0,4,10,20,31,43,56,68,79,89,95,99,99,96,91,82,71,59,46,34,22,12,5,1,0,2,7,15,25,37,49]
请找出其中明显异常点的下标。所谓的异常点一般指的是明显与数据整体趋势不符的点。
A: 46
B: 0
C: 37
D: 12
answer: D
explanation: 根据分析，题目中的时间序列在12点出的值265要明显大于周围数据，存在着突增现象，因此选择D是正确的。

🔧 ToolLearning样本示例

工具学习样本的数据格式与OpenAI的函数调用格式兼容。详情请参阅tool_learning_info_zh.md。工具学习评测过程，详情请参阅见 tool_learning_evalution.md。

🚀 如何进行测试

如果需要在自己的 HuggingFace 格式的模型上进行测试的话，总的步骤分为如下几步:

编写 Model 的 loader 函数
编写 Model 的 context_builder 函数
注册模型到配置文件中
执行测试脚本如果模型在加载进来后不需要特殊的处理，而且输入也不需要转换为特定的格式（e.g. chatml 格式或者其他的 human-bot 格式），请直接跳转到第四步直接发起测试。

1. 编写 loader 函数

模型加载时还需要做一些额外的处理（e.g. tokenizer 调整），需要继承 ModelAndTokenizerLoader 类来覆写对应的 load_model 和 load_tokenizer 函数，如下所示：

class QwenModelAndTokenizerLoader(ModelAndTokenizerLoader):
    def __init__(self):
        super().__init__()
        pass
    
    @override
    def load_model(self, model_path: str):
    # Implementation of the method
        pass
    
    @override
    def load_tokenizer(self, model_path: str):
    # Implementation of the method
        pass

2. 编写 Model 的 context_builder 函数

如果输入需要转换为特定的格式（e.g. chatml 格式或者其他的 human-bot 格式），则需要继承 ContextBuilder 类来覆写 make_context 函数，如下所示：

class QwenChatContextBuilder(ContextBuilder):
    def __init__(self):
        super().__init__()
        
    @override
    def make_context(self, model, tokenizer, query: str, system: str = "hello！"):
    # Implementation of the method
        pass

3. 注册模型到配置文件中

去 conf 中的 model_conf.json，注册对应的模型名和这个模型将要使用的 loader 和 context_builder，示例如下：

{
  "Qwen-Chat": {
  "loader": "QwenModelAndTokenizerLoader",
  "context_builder": "QwenChatContextBuilder"
  }
}

4. 执行测试脚本

直接运行以下代码发起测试

python src/run_eval.py \
--model_path path_to_model \
--model_name model_name_in_conf \
--model_conf_path path_to_model_conf \
--eval_dataset_list all \
--eval_dataset_fp_conf_path path_to_dataset_conf \
--eval_dataset_type test \
--data_path path_to_downloaded_devops_eval_data \
--k_shot 0

👀 👀 具体评测流程见📖 数据集评测教程

🧭 TODO

添加AIOps样本
添加AIOps场景，比如时间预测
增加 ToolLearning 样本
当前各类别样本量不平均，后续进一步增加样本数量
增加困难程度的样本集
增加样本的英文版本

🏁 Licenses

This project is licensed under the Apache License (Version 2.0).

😃 引用

如果您使用了我们的数据集，请引用我们的论文。 Coming soon...

🗂 Miscellaneous

✨ Star History

🤝 Friendship Links

Codefuse-ChatBot
- Codefuse-ChatBot is an open-source AI smart assistant designed to support the software development lifecycle with conversational access to tools, knowledge, and platform integration.
Awesome AIGC Tutorials
- Awesome AIGC Tutorials houses a curated collection of tutorials and resources spanning across Large Language Models, AI Painting, and related fields.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!