Skip to content

Latest commit

 

History

History

track5

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 

赛道五(语法纠错质量评估)数据集

本页面主要内容为:

1. 数据集下载

1.1 训练集

本赛道的训练数据基于赛道三提供的中文 Lang8 数据构建。本赛道使用 BART-large 训练了基于 seq2seq 结构的语法纠错模型,并将该模型在柱搜索解码过程中排名前 10(最多为10) 的结果作为待进行质量评估的语法纠错候选方案。同时评测数据给出了训练集和开发集中每个语法纠错方案的真实 F0.5 分值。

参赛者仅允许使用中文 Lang8 数据(与赛道三相同),以及本赛道提供的带有语法纠错候选方案的数据。

  • 中文 Lang8 数据下载:

下载地址:http://yunpan.blcu.edu.cn:80/link/EDBB933F1FCD49C054F9AB7F65B0A746

有效期限:2022-10-31 23:59

访问密码:eSPB

  • 带有语法纠错方案的数据下载:

下载地址:http://yunpan.blcu.edu.cn:80/link/5EE129B3CEA8C38CB46617007105809F

有效期限:2022-10-31 23:59

访问密码:p2av

带有语法纠错候选方案的数据格式为:

{
	"idx": 原始句子id,
	"src":原始句子,
	"hpys": 
	[
		{
			"idx": 修改句子id,
			"text":修改句子1,
			"p": 准确率,
			"r":召回率,
			"f05":f0.5分数
		},{
			"idx": 修改句子id,
			"text":修改句子2,
			"p": 准确率,
			"r":召回率,
			"f05":f0.5分数
		}
	]
}

其中,原始句子对应多条(<=10条)修改句子。

注意:参赛者仅允许使用上述数据进行训练。

1.2 开发集

本赛道开发集基于赛道三提供的YACLC-Minimal 和 YACLC-Fluency 进行构建 ,数据划分与赛道三相同,同时提供 minimal 和 fluency 两个维度上的开发集,开发集均为 .json 格式的文件。

.json 文件格式与训练数据相同。其中,一个原始句子对应10条修改句子,每条修改句子分别放入一个字典中,所有修改句子放入一个列表中。

注意:本赛道要求语法纠错结果重排序过程中只能对所提供的语法纠错候选进行重排序,不得混合其他语法纠错模型所提供的语法纠错结果

1.3 测试集

本赛道的评测分两阶段进行,两阶段的测试数据分别位于 testAtestB 文件夹。

每个阶段提供 minimal 和 fluency 维度上的原始句子和其对应的修改句子,文件格式为:

{
	"idx":原始句子id,
	"src":原始句子,
	"hpys": 
	[
		{
			"idx": 修改句子id,
			"text":修改句子1
		},{
			"idx": 修改句子id,
			"text":修改句子2
		}
	]
}

其中,原始句子对应多条(<=10条)修改句子

2. 结果提交格式

参赛者需要提供给定原始句子id对应的修改句子id,文件格式应为:

[原始句子id]    [修改句子id]    [质量评估分数]

每列之间使用 "\t" 分隔。

提交前,文件需依规范正确命名,并压缩成 .zip 格式文件的压缩包。

阶段一提交结果命名:

track5_testA.zip	#压缩包名字
    ├── yaclc-minimal_testA.para	# minimal 维度结果
    └── yaclc-fluency_testA.para	# fluency 维度结果

阶段二提交结果命名:

track5_testB.zip	#压缩包名字
    ├── yaclc-minimal_testB.para	# minimal 维度结果
    └── yaclc-fluency_testB.para	# fluency 维度结果