Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于SEMEVAL数据集复现的问题 #8

Open
rookieisme111 opened this issue Dec 9, 2021 · 8 comments
Open

关于SEMEVAL数据集复现的问题 #8

rookieisme111 opened this issue Dec 9, 2021 · 8 comments

Comments

@rookieisme111
Copy link

作者您好,我在复现AGCN模型在SEMEVAL数据集上的实验时,发现F1值在达到六、七十左右后,效果难以提升的问题。以下是我跑实验时的一些超参数:
lr_rate:3e-5
dep_type:local_global_graph
epochs:100
batch_size:16(硬件限制,无法设置为更高)
warmup_proportion:0.06
dropout_rate:0.1
是因为训练epochs、batch_size的问题,或者是其它的一些问题,希望作者可以根据自己的实验经验,给我一些指导。

非常感谢!!!

@yuanheTian
Copy link
Contributor

您好,

感谢您关注我们的工作。

您可以从以下几个方面看看是不是哪里出了问题

  1. 使用我们公布的代码和数据集
  2. 确保预训练的 bert 参数在训练模型前被准确加载(否则模型会随机初始化 bert 编码器的参数,使得模型性能显著下降)
  3. 可以尝试更多的 lr_rate,warmup,batch_size 甚至调整 seed (我们论文中汇报的参数设定是在我们的环境下表现相对较好的一组参数,您的环境下,表现较好的模型参数可能不同)

另外,关于 batch_size 的问题,可以通过同时增大 gradient_accumulation_steps (默认为1)来在不消耗额外内存的情况下,增大 batch_size。只需要保证 batch_size 可以被 gradient_accumulation_steps 整除即可。

希望以上能能够帮到您。

@rookieisme111
Copy link
Author

作者您好,
我参考了您给的意见。
1、代码和数据集部分我基本上都直接使用了github上所提供的(semeval数据集是通过preprocess_dependency.py处理得到的)。
2、bert模型则是从huggingface下载的bert_base_uncased的模型,加载时没有显示加载失败等提示,我是否可以默认已经加载成功
3、我也尝试了多种超参数的配合
但是训练结束的模型,在测试集上的F1值仍然为60出头。

在训练过程中我发现,模型的loss可以持续的下降,并下降到很小,但是其测试集的F1总是无法继续提升,甚至有突然的下滑,我猜想是否是由于SEMEVAL数据集过小,在训练集上出现了过拟合的现象。

还有一个疑问,我在阅读源代码的时候发现,re_agcn_model.py中第72行,pooled_output由第56行的pooled_output和两个实体嵌入拼接,但论文中的意思应该是需要使用经过图卷积后的sequence_output做最大池化,获得句子特征,再与两个实体嵌入进行拼接,不知道我理解的是否正确。

希望您能解答我的疑惑,非常感谢。

@yuanheTian
Copy link
Contributor

我们在近期更新了 github,现在可以直接使用我们已经处理好的 semeval 的数据集。

没能加载预训练的 bert 模型的参数,是不会报错的,代码会随机初始化bert部分的参数。可以看一下您使用的 bert 是不是 pytorch 版本的,目录下是否存在 pytorch_model.bin, vocab.txt, 以及 config.json 三个文件。

如果您的结果为60多,非常有可能是预训练的 bert 参数未被准确加载。

关于论文中的问题,您可以在 https://aclanthology.org/2021.acl-long.344/ 查看我们最新版的论文。

@rookieisme111
Copy link
Author

感谢作者大大,确实是bert模型没有被正确加载导致的问题,十分感谢您的细心指导。

@hhn0724
Copy link

hhn0724 commented Jul 14, 2022

请问您现在F1-score能达到多少,我现在大概到0.85就开始下降了

@HenryCai11
Copy link

@rookieisme111 楼主您好,请问您在复现的时候用多大的epoch能够达到和文章接近的效果呀,如果可以希望能够分享一下,十分感谢!!

@qxqxqxqxqxqxqxqx
Copy link

@rookieisme111 请问您是如何修改的,或者怎样让模型准确加载?

@AuroraZoer
Copy link

@rookieisme111 您好,我遇到了和您一样的问题,我的情况也和您完全一样,请问您是如何修正bert加载的呢?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

6 participants