-
Notifications
You must be signed in to change notification settings - Fork 18
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[开题框架]基于GitHub多模态数据的Issue多标签分类算法研究 #284
Comments
基于多模态数据的 Issue 多标签分类算法研究与应用 三个贡献点: 1、Issue 多标签基准数据集的制作
2、基于XXX的 Issue 多标签分类算法
3、Issue 多标签分类算法的应用
|
一、文本分类:
二、代码分类:
三、图片分类:
一个综合的GitHub Issue分类可能是这样的:
通过这样的分类体系,可以更加准确地识别和管理GitHub Issue,为开发者提供更有效的问题跟踪和解决方案。同时,结合多模态信息的分类体系能够更全面地反映问题的特点,提高了分类的精度和效率。 目前选取了GitHub上五个优质仓库(2024年1月到4月的数据)'microsoft/vscode', 'kubernetes/kubernetes', 'langchain-ai/langchain', 'nodejs/node', 'pytorch/pytorch'. 一共15816个issue,其中10169个有label 。处理issue的body,找出代码片段,以及图片。 目前想到的分类体系是这几个维度,希望各位同学和老师可以帮忙补充~ |
Description
本 issue 用于追踪@Zzzzzhuzhiwei的开题内容
研究方向:
毕业论文旨在探索如何利用多模态信息(文本、代码片段、屏幕截图等)提高GitHub Issue的多标签分类准确性,并设计相应的算法来实现自动标签。
贡献点:
(1)综合的Issue数据集构建:
构建一个综合的GitHub Issue数据集,包括文本描述、代码片段、屏幕截图等多模态信息,为后续研究提供充分的实验基础。
(2)多模态表示方法设计:
提出一个Issue的多模态表示方法,能够有效地融合不同模态的信息,并在语义上保持一致性,以更准确地表达GitHub Issue的语义特征。
(3)多标签分类算法研究:
提出一种高效的多标签分类算法,实现对GitHub Issue的自动多标签分类,提高分类准确性和效率。
The text was updated successfully, but these errors were encountered: