有需要为该开源项目贡献的小伙伴可以联系我哟。
探索认知智能系列---趋势:1. 数据融合知识;2. All in LLM。 包括知识获取、知识库构建、基于知识库的问答系统系列技术研究与应用。涉及到NLP领域的前沿技术和论文。
-
Repository to track the progress in Natural Language Processing (NLP), including the datasets and the current state-of-the-art for the most common NLP tasks.
-
提供了论文和代码。
-
个人日常技术和闲聊网站。
序号 | 文章 |
---|---|
1 | 为什么要将「知识图谱」追溯到 1956 年? |
- 知识图谱综述
- 知识图谱的挑战
- 深度学习与知识图谱
- CN-DBpedia: A Never-Ending Chinese Knowledge Extraction System
- KBQA
- 赵汀阳:人工智能的自我意识何以可能?1-3
- NLP University 开张大吉--李维老师,Simon Fraser University,博士
- ACL 2019 知识图谱的全方位总结
- The Illustrated Transformer
- An Attentive Survey of Attention Models
- BERT:Bidirectional Encoder Representations from Transformers
- ERNIE:Enhanced Representation through Knowledge Integration
- ERNIE: Enhanced Language Representation with Informative Entities
- Google T5: Text-To-Text Transfer Transformer
编号 | 名称 | 等级 | 类型 | 领域 |
---|---|---|---|---|
1 | ACL | A类 | 学术会议 | 人工智能 |
2 | CVPR | A类 | 学术会议 | 人工智能 |
3 | ICML | A类 | 学术会议 | 人工智能 |
4 | IJCAI | A类 | 学术会议 | 人工智能 |
5 | EMNLP | B类 | 学术会议 | 人工智能 |
6 | CIKM | B类 | 学术会议 | 数据库/数据挖掘/内容检索 |
7 | AAAI | A类 | 学术会议 | 人工智能 |
8 | SIGKDD | A类 | 学术会议 | 数据库/数据挖掘/内容检索 |
9 | TKDE | A类 | 学术期刊 | (数据库/数据挖掘/内容检索) |
10 | SIGIR | A类 | 学术会议 | 数据库/数据挖掘/内容检索 |
- 语音交互中的自然语言处理技术--xiaomi
- 精益知识图谱方法论--文因互联
- 小i机器人在中文语义开放平台的研究与进展--小i机器人
- 科大讯飞-从应用角度来看知识图谱的价值和挑战--科大讯飞
编号 | 名称 | 地址 |
---|---|---|
1 | questionAnsweringsystem | QuestionAnsweringSystem是一个Java实现的人机问答系统,能够自动分析问题并给出候选答案。 |
2 | QABasedOnMedicaKnowledgeGraph | 从无到有搭建一个以疾病为中心的一定规模医药领域知识图谱,并以该知识图谱完成自动问答与分析服务。python |
3 | DeepPavlov | An open source library for deep learning end-to-end dialog systems and chatbots. python |
编号 | 名称 |
---|---|
1 | 腾讯文智中文语义平台 |
2 | 科大讯飞开放语义平台 |
3 | 玻森中文语义开放平台 |
4 | 哈工大语言云 |
编号 | 名称 | 主要功能 |
---|---|---|
1 | THULAC | 中文词法分析工具,支持C++/JAVA/Python by清华 |
2 | LTP | 语言技术平台 pylyp LTP的Python封装 by 哈工大 |
3 | HanLP | 支持Java |
4 | 结巴分词 | 中文分词(仅支持分词),Java、python、C++ |
5 | jiagu | 提供中文分词、词性标注、命名实体识别、关键词抽取、文本摘要、新词发现等常用自然语言处理功能。Python |
6 | fudanNLP | 中文分词(分词、词性标注、命名实体识别), 支持Java |
7 | deepdive | 斯坦福大学的开源知识抽取工具(三元组抽取), 支持python |
8 | FudanDNN-NLP3.0 | 用于中文分词、命名识别、词性标注、句子分类、语义分析、知识库访问、对话问答,支持Java----复旦大学计算机学院机器人研究实验室所开发的基于深度学习的中文自然语言处理工具 |
9 | Stanford CoreNLP | 可进行多语言的词性标注器、命名实体的识别器、解析器(句子与语法结构)、指代消解器(就是在篇章中确定代词指向哪个名词短语的问题)、情感分析器、 引导模式学习器、开放信息提取器, Java/Python----- Stanford CoreNLP是斯坦福大学的自然语言处理工具包,工具包需要java的支持 |
编号 | 名称 | 主要功能 |
---|---|---|
1 | Neo4j | 开源图形数据库,由Java开发。 |
2 | OrientDB | 开源的noSQL数据库,可处理文档、图形、传统数据库组件。由Java编写,存储速度快。 |
3 | Virtuoso | 支持RDF与SPARQL查询。 |
4 | Titan | 可与Gremlin/Hbase进行集成,可实现分布式存储和计算的图数据处理。 |
5 | Apache Jena-IDB | 在JAVA下操作RDF。其中TDB是使用triple store的形式对RDF数据提供持久性存储(persistent store),TDB相比RDB、SDB更快且具有扩展性。 |
6 | Cypher | 声明式图查询语言,表达高效查询和更新图数据库。 |
7 | Gremlin | 一种函数式数据流语言,可以使得用户使用简洁的方式表述复杂的属性图(property graph)的遍历或查询。 |
8 | SPARQL | 为RDF开发的一种查询语言和数据获取协议。 |
9 | rdflib | 基于Python语言编写的,RDF / XML,N3,NTriples,N-Quads,Turtle,TriX,RDFa和Microdata的解析器和序列化器,支持SPARQL 1.1查询和更新语句。 |
编号 | 名称 | 主要功能 |
---|---|---|
1 | ECharts | 百度开源工具,API封装完善,简单好用,易上手,但不支持事件处理。 |
2 | Cytoscape.js | 针对图形和网络,事件交互性的支持不错,同样易上手。 |
3 | D3.js | 使用门槛较高,但支持事件处理器,D3的开销极小,支持大型数据集和交互动画的动态行为,支持图形丰富。 |
编号 | 名称 | 应用任务 |
---|---|---|
1 | OpenKG | 开放知识图谱 |
2 | CN-Probase | 大规模中文概念图谱 |
3 | SentiBridge | 中文实体情感知识库,刻画人们如何描述某个实体,包含新闻、旅游、餐饮,共计30万对 |
4 | 音乐知识图谱 | 中文音乐知识图谱,歌手、歌曲等信息 |
5 | 人物类RDF知识 | 采集自百科网站的人物类知识,共65万个RDF三元组 |
6 | 中国旅游景点知识图谱 | 中国旅游景点中文知识图谱是CASIA-KB知识图谱的一部分。抽取自百度百科和互动百科。旅游景点知识图谱可用于地理、生活、娱乐等应用。 |
7 | 200万条商品画像数据 | 本数据是百分点在7年运营过程中积累的产品画像数据的小结,百分点自建了丰富的电商品分类体系和媒体分类体系。 |
8 | 中文症状库 | 这是一个包含症状实体和症状相关三元组的数据集。中文症状库的数据来自8个主流的健康咨询网站、3个中文百科网站和电子病历。 |
9 | cnSchema机场知识图谱 | 基于cnSchema的机场知识图谱可查询世界各机场的属性,包含名称、时区、机场代码、地理位置(经纬度)等。 |
10 | 七律-通用知识图谱 | 本数据共包含8000万条百科三元组,为七律的一部分子集,后续将持续加大开放。七律-7Lore,是狗尾草科技精心打造的百科知识图谱,是人类世界海量知识的集合,它包含了事物、事实、概念、规则等等。 |
- ATEC蚂蚁开发者大赛之学习赛--NLP之问题相似度计算--2019-3
- 百度2019语言与智能技术竞赛之第二赛道--知识驱动对话--2019-4
- SMP2019中文人机对话技术评测(ECDT),子任务:领域分类、意图识别和语义槽填充--Task1:自然语言理解评测--2019-5
- 知识图谱的构建是一个体系化的工程项目,目前结合深度学习技术以及自然语言处理知识在一定程度上提升了构建的效率并降低了成本。知识图谱的地位在认知智能是一个基础资源设施,基于此可以进行问答、对话、、推荐系统、可解释性的增强等方面的应用。
- 目前对于垂直领域的知识图谱构建需求较多。应用方面在智能问答和主动式对话系统的实践是比较热点的方向。
- 个人觉得一套爬虫系统可以为知识库提供动态更新的知识来源。
- 结合知识/常识的对话系统,更具准确性和多样性,是一个值得研究的方向,可让机器引导用户进行话题的交流。如上面比赛2就是这一方向的应用。
- 自然语言处理/理解目前门槛已经高升到了BERT啦,在绝大数任务中基本都是必提的,基于Transformer做编码器!如何在模型训练中融入知识(可以是多模态)已是目前研究的热点方向,如百度最近提出的ERNIE表示模型就引入这一思想,也在下游任务中取得了不错的效果。
- 知识图谱的表示研究问题(Knowledge Graph Embedding, KGE)是当前的一个研究热点。
- 多模态数据知识融合应该是领域性机器智能走向通用知识智能的一个重要探索阶段。一是,由于多模态数据自身特点,结构化是非常重要的,结构化后可以极大丰富知识图谱的知识构成,更具丰富的表达。二是,CV、NLP组件化后的若能打通两者并协同工作感觉也比较有意思,比如问答场景的回复内容更丰富,和人们更加自然交流等。
<strong>
针对文本数据的结构化,除了选用机器学习方法外,也可以结合正则表达式进行数据的抽取、模型建模的中间处理环节等。如:正则表达式结合深度学习</strong>
- 20230226:NLP的发展从2022年的后半程到2023年又是一次范式的变化,随着ChatGPT问世,领域内外无人不晓,在各行各业引起了热列的讨论,国内外大厂纷纷跟进。譬如LLM(Large Language Model)、AIGC(AI Generated Content)、NLP部分细分任务因LLM走向大一统,LLM成为各行各业基础设施等话题层出不穷。ChatGPT的出现一是给人一种惊喜,二是给人新的探索可能,三是对于AI也算一是普及。
- 从体验chatgpt来看,基本上是我把前面的思考全部覆盖了,信息抽取,对话,观点生成,思维链--有推理,可加入新知识进行更新,写代码,最为惊喜的是能一本正经的胡说八道,对于逻辑性问题还能罗列步骤。
- 从论文中进一步了解原理。GPT-1到GPT3的发展,认识Transformer基础架构。
- 20230521:国内的LLM跟进速度非常快,发布了自研大语言模型,也有开源的,如清华的ChatGLM-6/130b等。围绕LLM的生态发展也很快,各类应用,如Chatpdf,插件等,最近OpenAI发布了ChatGpt IOS版本,更是将LLM的落地推进了一大步,可以畅想未来好多应用都会基于LLM的能力。针对如何基于LLM搭建一些应用,开源框架LangChain迭代速度非常快,基本几行代码就能让你快速体验如基于个人文档的问答, 向量的计算,存储等,方便快捷,推荐大家学习和使用。针对文本,其实大多数文本是非结构化的,如pdf,word,html等需要基于其他工具结构化,langchain也提供了开源方式。LLM私有化部署+本地化知识接入+插件化扩展LLM的能力是当前发展的方向。
- 以上内容均为个人在学习过程的相关整理(包含互联网内容、个人整理笔记等),希望对研究学习认知智能领域的小伙伴有帮助。
- CSDN
- 个人网站
- wiki-技术总结
- 邮箱:hanghangli@aliyun.co
- 更新时间:2023.5.21
- 李航航