Skip to content

精选了8K+项目,包括机器学习、深度学习、NLP、GNN、推荐系统、生物医药、机器视觉、前后端开发等内容。Selected more than 6000 projects, including machine learning, deep learning, NLP, GNN, recommendation system, biomedicine, machine vision, etc. Let more excellent projects be discovered by people. Continue to update! Welcome to star!

License

Notifications You must be signed in to change notification settings

wuwenjie1992/StarryDivineSky

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 

Repository files navigation

StarryDivineSky

GitHub issues GitHub stars GitHub forks GitHub license

精选了6K+项目,包括机器学习、深度学习、NLP、GNN、推荐系统、生物医药、机器视觉等内容。

Selected more than 6000 projects, including machine learning, deep learning, NLP, GNN, recommendation system, biomedicine, machine vision, etc.

让更多优秀的项目被人发现,让更多的人感受开源的魅力。

Let more excellent projects be discovered by people, let more people feel the charm of open source.

持续更新!欢迎🌟star!😀😀😀 Continue to update! Welcome to star! 😀😀😀

目录

Star🌟数变化

  • 关注者

加入社区

加入discord社区

A01_机器学习与深度学习

  • Coursera-ML-AndrewNg-Notes 吴恩达老师的机器学习课程个人笔记。Machine Learning(机器学习)是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演译。在过去的十年中,机器学习帮助我们自动驾驶汽车,有效的语音识别,有效的网络搜索,并极大地提高了人类基因组的认识。机器学习是当今非常普遍,你可能会使用这一天几十倍而不自知。很多研究者也认为这是最好的人工智能的取得方式。在本课中,您将学习最有效的机器学习技术,并获得实践,让它们为自己的工作。更重要的是,你会不仅得到理论基础的学习,而且获得那些需要快速和强大的应用技术解决问题的实用技术。最后,你会学到一些硅谷利用机器学习和人工智能的最佳实践创新。 本课程提供了一个广泛的介绍机器学习、数据挖掘、统计模式识别的课程。主题包括: (一)监督学习(参数/非参数算法,支持向量机,核函数,神经网络)。 (二)无监督学习(聚类,降维,推荐系统,深入学习推荐)。 (三)在机器学习的最佳实践(偏差/方差理论;在机器学习和人工智能创新过程)。本课程还将使用大量的案例研究,您还将学习如何运用学习算法构建智能机器人(感知,控制),文本的理解(Web搜索,反垃圾邮件),计算机视觉,医疗信息,音频,数据挖掘,和其他领域。 本课程需要10周共18节课,相对以前的机器学习视频,这个视频更加清晰,而且每课都有ppt课件,推荐学习。

  • TsingZ0/PFLlib PFLlib 是一个用户友好的个性化联邦学习(Personalized Federated Learning, pFL)算法库,旨在为初学者提供一个集成评估平台,以便他们能够开始学习和研究联邦学习(Federated Learning, FL)。该库专注于解决数据和模型的异构性问题,特别是统计异质性,这是由于用户的个性化行为导致的非独立同分布(Non-IID)和数据不平衡现象。PFLlib 包含了多种算法,其中传统联邦学习(Traditional Federated Learning, tFL)和个性化联邦学习(Personalized Federated Learning, pFL)是主要的两种类型。tFL 侧重于共同学习全局模型,而 pFL 则旨在为每个用户学习个性化的模型。PFLlib 提供了34个联邦学习算法,其中包含27个个性化联邦学习算法,涵盖了3大类数据异质场景和20个数据集。PFLlib 的主要目的是降低初学者研究联邦学习的门槛,通过简单的示范指南和代码示例,使新手用户能够快速上手。此外,PFLlib 还支持高效 GPU 内存使用及新增的隐私保护功能,进一步提升了其在实际应用中的可用性和安全性。PFLlib 是一个专门为初学者设计的个性化联邦学习算法库,通过提供多种算法和集成评估平台,帮助用户解决数据和模型的异构性问题,特别是统计异质性问题。

  • skypilot-org/skypilot SkyPilot:在任何基础设施(Kubernetes 或 12+ 云)上运行 AI 和批处理作业。通过简单的界面实现统一执行、成本节约和高可用性。SkyPilot 消除了基础设施负担:在任何基础设施上启动开发集群、作业和服务;轻松的作业管理:对许多作业进行排队、运行和自动恢复。SkyPilot 支持多个集群、云和硬件 (Sky):带上您的预留 GPU、Kubernetes 集群或 12+ 云,灵活预置 GPU、TPU、CPU,具有自动重试功能。SkyPilot降低您的云成本并最大化GPU可用性:Autostop:自动清理空闲资源;托管 Spot:使用 Spot 实例节省 3-6 倍的成本,并具有抢占自动恢复功能;优化器:通过自动选择最便宜和最可用的基础设施,节省2倍的成本。SkyPilot 支持您现有的 GPU、TPU 和 CPU 工作负载,无需更改代码。

  • xenova/transformers.js 最先进的 Web 机器学习。直接在浏览器中运行🤗Transformers,无需服务器! 被设计为在功能上等同于 Hugging Face 的 transformers python 库,这意味着您可以使用非常相似的 API 运行相同的预训练模型。这些模型支持不同模式的常见任务,例如:自然语言处理:文本分类、命名实体识别、问答、语言建模、摘要、翻译、多项选择和文本生成。计算机视觉:图像分类、物体检测和分割。音频:自动语音识别和音频分类。多模态:零样本图像分类。Transformers.js使用 ONNX 运行时在浏览器中运行模型。最好的部分是,您可以使用 🤗 Optimum 轻松地将预训练的 PyTorch、TensorFlow 或 JAX 模型转换为 ONNX。

  • tensorpack/tensorpack 基于图模式 TensorFlow 的神经网络训练接口。另一个 TF 高级 API,具有以下亮点:注重训练速度。Tensorpack 的速度是免费的——它以高效的方式使用 TensorFlow,没有额外的开销。在普通的 CNN 上,它的训练速度比等效的 Keras 代码快 1.2~5 倍。如果使用 Tensorpack 编写,您的训练可能会更快。可扩展的数据并行多 GPU/分布式训练策略是现成的。有关更多基准测试,请参阅 tensorpack/benchmarks。符号编程(例如 tf.data )不提供研究所需的数据处理灵活性。Tensorpack 通过各种自动并行化策略从纯 Python 中榨取最大的性能。

  • kelvins/awesome-mlops 精选的精彩 MLOps 工具列表。包括:AutoML 自动机器学习、用于机器学习的 CI/CD、Cron作业监控、数据目录、数据扩充、数据探索、数据管理、数据处理、数据验证、数据可视化、漂移检测、特征工程、功能商店、超参数调优、知识共享、机器学习平台、模型公平性和隐私性、模型可解释性、模型生命周期、模型服务、模型测试和验证、优化工具、简化工具、可视化分析与调试、工作流工具、资源、文章、书、事件、其他列表、播客、Slack、网站链接、贡献

  • fastai/fastai 一个深度学习库,它提供了高级组件,可以在标准深度学习领域快速轻松地提供最先进的结果,并为研究人员提供可以混合和匹配以构建新方法的低级组件。它旨在做到这两件事,而不会在易用性、灵活性或性能方面做出实质性妥协。这要归功于精心分层的架构,该架构以解耦抽象的形式表达了许多深度学习和数据处理技术的共同底层模式。这些抽象可以通过利用底层Python语言的动态性和PyTorch库的灵活性来简洁明了地表达。

  • terryyz/PyArmadillo Python 语言的线性代数库,强调易用性。该库旨在提供类似于 Matlab 或者 Octave 的高级语法和功能,使得用户以熟悉且自然的方式表达数学运算。提供了用于矩阵和多维数据集(cube)的对象,以及 200 多个用于处理对象中存储数据的相关函数。所有功能都可以在一个平面结构中访问,并且支持整数、浮点数和复数。通过集成 LAPACK 或者 Intel MKL、OpenBLAS 等高性能替代产品,该库可以提供各种矩阵分解。

  • bytedance/fedlearner 字节开源联邦机器学习平台,采用的是一套云原生的部署方案。数据存放在HDFS,用MySQL存储系统数据。通过Kubernetes管理和拉起任务。每个Fedlearner的训练任务需要参与双方同时拉起K8S任务,通过Master节点统一管理,Worker建实现通信。以推荐广告业务为例,联邦机器学习平台的广告主和平台方应该各自管理一套模型展示服务和模型训练服务。

  • Yorko/mlcourse.ai 由 OpenDataScience (ods.ai) 领导的开放式机器学习课程,由 Yury Kashnitsky(Yorko)领导。Yury拥有应用数学博士学位和Kaggle竞赛大师级学位,旨在设计一门在理论与实践之间取得完美平衡的ML课程。因此,该课程在讲座中为您提供数学公式,并以作业和 Kaggle 课堂竞赛的形式进行大量练习。目前,该课程处于自定进度模式。

  • microsoft/onnxruntime 跨平台深度学习训练和推理机加速器,与深度学习框架,可以兼容TensorFlow、Keras和PyTorch等多种深度学习框架。Open Neural Network Exchange 是用于表示深度学习模型的开放格式,定义了通用运算符、机器学习和深度学习模型的构建块以及通用文件格式,可与各种框架工具和编译器一起使用。

  • raminmh/liquid_time_constant_networks 一种能适应实时世界系统的变化的神经网络。神经网络的设计灵感来自生物大脑,设计灵感直接来自秀丽隐杆线虫(C. elegans)。他说:「它的神经系统仅有 302 个神经元,但却可以产生超出预期的复杂动态。」 Liquid 网络的流动性使其能更弹性地应对意料之外的数据或噪声数据。

  • Vay-keen/Machine-learning-learning-notes 周志华《机器学习》又称西瓜书是一本较为全面的书籍,书中详细介绍了机器学习领域不同类型的算法(例如:监督学习、无监督学习、半监督学习、强化学习、集成降维、特征选择等),记录了本人在学习过程中的理解思路与扩展知识点,希望对新人阅读西瓜书有所帮助!

  • KaiyuYue/torchshard 马里兰大学帕克分校计算机科学系的研究者开源了一个轻量级的引擎,用于将 PyTorch 张量切片成并行的 shard。当模型拥有大量的线性层(例如 BERT、GPT)或者很多类(数百万)时,TorchShard 可以减少 GPU 内存并扩展训练规模,它具有与 PyTorch 相同的 API 设计。

  • thuml/Transfer-Learning-Library 用于迁移学习的开源且文档齐全的库。它基于具有高性能和友好API的纯PyTorch。当前支持的算法包括:领域对抗神经网络(DANN)深度适应网络(DAN)联合适应网络(JAN)条件域对抗网络(CDAN)最大分类器差异(MCD)Margin Disparity Discrepancy 保证金差异(MDD)

  • wandb/client Weights and Biases 组织和分析机器学习实验 它与框架无关,并且比TensorBoard轻巧。每次您运行带有的脚本时wandb,都会保存您的超参数和输出指标。在训练过程中可视化模型,并轻松比较模型的版本。我们还将自动跟踪您的代码状态,系统指标和配置参数。

  • Jittor/jittor 基于 JIT 编译和元运算符的高性能深度学习框架。整个框架和元运算符是及时编译的。它使我们能够生成专门针对您的模型的高性能代码。Jittor 还包含丰富的高性能模型库,包括:图像识别、检测、分割、生成、可微渲染、几何学习、强化学习等。

  • fuzzylabs/awesome-open-mlops MLOps(机器学习操作)是一门帮助人们在生产环境中成功训练、部署和运行机器学习模型的学科。因为这是一个快速发展的新领域,所以有很多工具,而且新的工具一直在出现。这是 Fuzzy Labs 指南,介绍了免费和开源 MLOps 工具的世界。

  • PytorchLightning/metrics PyTorch原生的函数和度量模块的集合,用于简单的性能评估。可以使用常见的指标,如准确性,召回率,精度,AUROC, RMSE, R²等,或者创建你自己的指标。支持超过25个指标,并不断增加更多通用任务和特定领域的标准(目标检测,NLP等)。

  • microsoft/ai-edu 微软人工智能教育与学习共建社区。由基础教程实践案例实践项目三大模块构成,通过系统化的理论教程和丰富多样的实践案例,帮助学习者学习并掌握人工智能的知识,并锻炼在实际项目中的开发能力。

  • google/model_search 帮助研究者自动、高效地开发最佳机器学习模型,谷歌开源了一个不针对特定领域的 AutoML 平台。该平台基于 TensorFlow 构建,非常灵活,既可以找出最适合给定数据集和问题的架构,也能够最小化编程时间和计算资源。

  • aladdinpersson/Machine-Learning-Collection 在此存储库中,您将找到与机器学习相关的教程和项目。我尝试使代码尽可能清晰,目标是用作学习资源和查找问题以解决特定问题的方法。对于大多数人,如果您想要代码的演练,我还在YouTube上做了视频解释。

  • RAPIDS Open GPU Data Science RAPIDS 开放 GPU 数据科学库。cuDF - GPU DataFrame Library GPU数据表库。cuML - RAPIDS Machine Learning Library RAPIDS 机器学习库。cuGraph - RAPIDS Graph Analytics Library RAPIDS 图分析库。cuSignal - RAPIDS Signal Processing Library RAPIDS信号处理库

  • GokuMohandas/Made-With-ML 了解如何设计、开发、部署和迭代生产级 ML 应用程序。在本课程中,将从实验(设计 + 开发)到生产(部署 + 迭代)。我们将通过激励组件来迭代地做到这一点,这些组件将使我们能够构建可靠的生产系统。

  • ahmedbahaaeldin/From-0-to-Research-Scientist-resources-guide 为本科生或任何想在扎实基础上深入研究人工智能领域的任何人提供详细和量身定制的指南。本指南适用于任何具有基本编程知识或计算机科学背景的人,有兴趣成为深度学习和 NLP 研究科学家。

  • tangyudi/Ai-Learn 人工智能学习路线图,整理近200个实战案例与项目,免费提供配套教材,零基础入门,就业实战!包括:Python,数学,机器学习,数据分析,深度学习,计算机视觉,自然语言处理,等热门领域

  • tensorlayer/TensorLayerX 跨平台开发框架,支持TensorFlow, Pytorch, MindSpore, PaddlePaddle, OneFlow和Jittor,用户不需要修改任何代码即可以运行在各类操作系统和AI硬件上(如Nvidia-GPU 和 Huawei-Ascend),并支持混合框架的开发。

  • virgili0/Virgilio 开源计划,旨在指导和指导数据科学领域的任何人。我们的愿景是让每个人都有机会参与这个领域,从实践者开始,获得新技能,并学会在无限的资源网络中导航,并找到对您有用的资源。

  • apache/incubator-tvm 用于深度学习系统的编译器堆栈。它旨在缩小以生产力为中心的深度学习框架与以性能和效率为重点的硬件后端之间的差距。TVM与深度学习框架一起使用,以提供对不同后端的端到端编译

  • donnemartin/data-science-ipython-notebooks 数据科学Python笔记本:深度学习(TensorFlow,Theano,Caffe,Keras),scikit-learn,Kaggle,大数据(Spark,Hadoop MapReduce,HDFS),matplotlib,pandas,NumPy,SciPy,Python essentials,AWS和各种命令行。

  • numpy/numpy 使用 Python 进行科学计算的基础包。它提供:一个强大的 N 维数组对象、复杂的(广播)功能、用于集成 C/C++ 和 Fortran 代码的工具、有用的线性代数、傅里叶变换和随机数功能。

  • scutan90/DeepLearning-500-questions 深度学习500问,以问答形式对常用的概率知识、线性代数、机器学习、深度学习、计算机视觉等热点问题进行阐述,以帮助自己及有需要的读者。 分为18个章节,50余万字。

  • mlech26l/keras-ncp 设计灵感直接来自秀丽隐杆线虫 由感官神经元接收环境信息、而后经过中间神经元,传递给指令神经元进而形成决策信息,最后由动作神经元完成决策的执行并完成动作。

  • scipy/scipy SciPy(发音为“Sigh Pie”)是一款用于数学、科学和工程的开源软件。它包括用于统计、优化、积分、线性代数、傅里叶变换、信号和图像处理、常微分方程求解器等模块。

  • google-research/tuning_playbook 系统地最大化深度学习模型性能的手册。重点是超参数调优的过程。我们涉及深度学习训练的其他方面,例如管道实现和优化,但我们对这些方面的处理并不打算完整。

  • OpenMined/PySyft 用于安全和私有深度学习的Python库。PySyft使用联合学习,差分隐私和加密计算(例如PyTorch和TF中的多方计算 (MPC) 和同态加密 (HE) 将模型训练中的私人数据进行解耦。

  • zergtant/pytorch-handbook pytorch handbook是一本开源的书籍,目标是帮助那些希望和使用PyTorch进行深度学习开发和研究的朋友快速入门,其中包含的Pytorch教程全部通过测试保证可以成功运行

  • dropreg/R-Drop 填补Dropout缺陷,简单又有效的正则方法。在每个 mini-batch 中,每个数据样本过两次带有 Dropout 的同一个模型,R-Drop 再使用 KL-divergence 约束两次的输出一致。

  • yzhao062/combo 用于机器学习模型组合的 Python 工具箱。模型组合可以被认为是整体学习的子任务,并且已被广泛用于诸如Kaggle [3]之类的现实任务和数据科学竞赛中。

  • ELS-RD/kernl 第一个使用 OpenAI Triton 编写的 OSS 推理引擎,这是一种由 OpenAI 设计的新语言,可以更轻松地编写 GPU 内核。每个内核不到200行代码,易于理解和修改。

  • zml/zml 在 ZML,我们正在高性能 AI 推理堆栈之上创建令人兴奋的 AI 产品。我们的堆栈专为生产而构建,使用令人惊叹的 Zig 语言、MLIR 和 Bazel 的强大功能。

  • sfu-db/dataprep Python 库,有助于自动化探索性数据分析过程。它在创建数据分析报告时很有用,它还具有 3 个用于绘制图形、绘制缺失数字和数据相关性的功能。

  • ucbrise/actnn PyTorch的激活压缩训练框架。在同样内存限制下,通过使用 2 bit 激活压缩,可将 batch size 扩大 6-14 倍,将模型尺寸或者输入图片扩大 6-10 倍。

  • haifengl/smile Java和Scala中的快速而全面的机器学习,NLP,线性代数,图形,插值和可视化系统。凭借先进的数据结构和算法,Smile 可提供最先进的性能。

  • d2l-ai/d2l-en 交互式深度学习书籍,包含多框架代码、数学和讨论。被斯坦福大学、麻省理工学院、哈佛大学和剑桥大学等 60 个国家的 400 所大学采用。

  • cbamls/AI_Tutorial 精选机器学习,NLP,图像识别, 深度学习等人工智能领域学习资料,搜索,推荐,广告系统架构及算法技术资料整理。算法大牛笔记汇总

  • mrdbourke/machine-learning-roadmap 2020 年机器学习路线图(2023 年仍有 90% 有效),连接机器学习中许多最重要概念的路线图,如何学习它们以及使用哪些工具来执行它们。

  • NLP-LOVE/ML-NLP 机器学习(Machine Learning)、深度学习(Deep Learning)、NLP面试中常考到的知识点和代码实现,也是作为一个算法工程师必会的理论基础知识。

  • scikit-learn-contrib/hdbscan 用无监督学习来查找数据集的集群聚类或密集区域的工具。主要算法是HDBSCAN。该算法的高性能实现,以及用于分析结果聚类的工具。

  • Tencent/WeChat-TFCC C++深入学习推理框架。提供以下工具包,便于您开发和部署训练 DL 模型:TFCC深度学习推理库的核心、TFCC 代码生成器、TFCC 运行时。

  • abmlai/annotated_deep_learning_paper_implementations 神经网络和相关算法的简单 PyTorch 实现的集合。将这些呈现为并排格式化的笔记。我们相信这些将帮助您更好地理解这些算法。

  • VowpalWabbit/vowpal_wabbit 机器学习系统,它通过在线、哈希、allreduce、reductions、learning2search、active 和交互式学习、Bandit等技术推动了机器学习的前沿。

  • eriklindernoren/ML-From-Scratch 从头开始机器学习。机器学习模型和算法的裸骨 NumPy 实现,重点关注可访问性。旨在涵盖从线性回归到深度学习的所有内容。

  • BayesWitnesses/m2cgen 将 ML 模型转换为零依赖的本机代码(Java、C、Python、Go、JavaScript、Visual Basic、C#、R、PowerShell、PHP、Dart、Haskell、Ruby、F#、Rust)

  • dragen1860/TensorFlow-2.x-Tutorials TensorFlow 2.x版本的教程和示例,包括CNN,RNN,GAN,Auto-Encoders,FasterRCNN,GPT,BERT示例等。 TF 2.0版入门实例代码,实战教程。

  • cbamls/AI_Tutorial 精选机器学习,NLP,图像识别, 深度学习等人工智能领域学习资料,搜索,推荐,广告系统架构及算法技术资料整理。

  • christianversloot/machine-learning-articles 关于机器学习的文章,存档自 MachineCurve.com。在 2019 年 5 月至 2022 年 2 月期间撰写了这些关于 peroid 机器学习的文章。

  • microsoft/hummingbird 将训练有素的机器学习模型编译为张量计算,以加快推理速度。 用于将经过训练的传统ML模型编译为张量计算的库。

  • louisfb01/best_AI_papers_2021 按发布日期列出的人工智能最新突破(2021 年)的精选列表,附有清晰的视频说明、更深入文章的链接和代码。

  • rasbt/deeplearning-models 各种深度学习架构、模型和技巧的集合。Jupyter Notebooks中TensorFlow和PyTorch的深度学习架构、模型和技巧的集合。

  • louisfb01/start-machine-learning 机器学习 (ML)、人工智能 (AI) 的完整指南,无需任何该领域背景,并随时了解最新消息和最先进的技术!

  • girls-in-ai/Girls-In-AI 免费学代码系列:小白python入门、数据分析data analyst、机器学习machine learning、深度学习deep learning、kaggle实战

  • ageron/handson-ml2 一系列Jupyter笔记本,引导您使用Scikit-Learn,Keras和TensorFlow 2了解Python中的机器学习和深度学习的基础知识。

  • ageron/handson-ml3 一系列Jupyter笔记本,引导您使用Scikit-Learn,Keras和TensorFlow 2了解Python中的机器学习和深度学习的基础知识。

  • d2l-ai/d2l-zh 《动手学深度学习》:面向中文读者、能运行、可讨论。中英文版被60多个国家的400多所大学用于教学。

  • kmario23/deep-learning-drizzle 通过从这些令人兴奋的讲座中学习,让自己沉浸在深度学习、强化学习、机器学习、计算机视觉和 NLP

  • arogozhnikov/Einops 深度学习操作被彻底改造(用于 pytorch、tensorflow、jax 等). einops(爱因斯坦标记法),让代码可读性更强.

  • Mohitkr95/Best-Data-Science-Resources 该存储库包含最好的数据科学免费精选资源,可为您提供所有行业驱动的技能和面试准备工具包。

  • Tencent/TNN 移动端高性能、轻量级推理框架,同时拥有跨平台、高性能、模型压缩、代码裁剪等众多突出优势

  • ShusenTang/Deep-Learning-with-PyTorch-Chinese 将PyTorch官方书籍《Deep learning with PyTorch》(基本摘录版)翻译成中文版并给出可运行的相关代码。

  • janishar/mit-deep-learning-book-pdf 麻省理工学院深度学习书 PDF 格式(完整和部分),作者:Ian Goodfellow、Yoshua Bengio 和 Aaron Courville

  • ritchieng/the-incredible-pytorch 一个精选的教程、项目、库、视频、论文、书籍以及与令人难以置信的 PyTorch 相关的任何内容。

  • guofei9987/scikit-opt 强大的启发式算法Python模块 遗传算法 粒子群优化 模拟退火 蚁群算法 免疫算法 人工鱼群算法

  • amusi/Deep-Learning-Interview-Book 深度学习面试宝典(含数学、机器学习、深度学习、计算机视觉、自然语言处理和SLAM等方向)

  • apachecn/pytorch-doc-zh Pytorch 中文文档,PyTorch 是一个针对深度学习, 并且使用 GPU 和 CPU 来优化的 tensor library (张量库)

  • geohot/tinygrad 不到1000行的深度学习框架,麻雀虽小,但五脏俱全,这个深度学习框架使用起来和PyTorch类似

  • ContrastiveSR/Contrastive_Learning_Papers 对比学习的相关论文列表。内容包括:计算机视觉、NLP、推荐系统、图模型等方面的应用。

  • serge-sans-paille/pythran 将 Python 代码转成 C++ 代码执行 一个 AOT (Ahead-Of-Time - 预先编译) 编译器,大幅度提升性能。

  • jxhe/unify-parameter-efficient-tuning 参数高效迁移学习 (PETL) 方法仅调整少量(额外)参数以使大型预训练模型适应下游任务。

  • datawhalechina/pumpkin-book 本书旨在对西瓜书里比较难理解的公式加以解析,以及对部分公式补充具体的推导细节。

  • AtsushiSakai/PythonRobotics 包括了机器人设计中常用的定位算法、测绘算法、路径规划算法、SLAM 、路径跟踪算法。

  • microsoft/nnfusion 灵活高效的深度神经网络(DNN)编译器,可从DNN模型描述生成高性能的可执行文件。

  • visenger/awesome-mlops 机器学习操作 (MLOps),可自动执行并加速机器学习生命周期。精选的参考文献列表。

  • ShusenTang/Dive-into-DL-PyTorch 本项目将《动手学深度学习》(Dive into Deep Learning)原书中的MXNet实现改为PyTorch实现。

  • bharathgs/Awesome-pytorch-list github上pytorch相关内容的完整列表,例如不同的模型,实现,帮助程序库,教程等。

  • Jack-Cherish/Machine-Learning 机器学习实战(Python3):kNN、决策树、贝叶斯、逻辑回归、SVM、线性回归、树回归

  • apachecn/AiLearning AiLearning: 机器学习 - MachineLearning - ML、深度学习 - DeepLearning - DL、自然语言处理 NLP

  • PaddlePaddle/Paddle 『飞桨』核心框架,深度学习&机器学习高性能单机、分布式训练和跨平台部署

  • yuanming-hu/taichi_mpm 带有切割和耦合(CPIC)的高性能MLS-MPM(基于移动最小二乘法的物质点法)求解器

  • fastai/fastbook 这些笔记本介绍了深度学习、fastai 和 PyTorch。fastai 是用于深度学习的分层 API。

  • BoltzmannEntropy/interviews.ai 深度学习面试书:数百个完全解决的工作面试问题,来自 AI 的广泛关键主题。

  • vaexio/vaex 适用于Python的核外DataFrame,以每秒十亿行的速度可视化和探索大型表格数据

  • bojone/keras_recompute 通过重计算来节省显存,参考论文《Training Deep Nets with Sublinear Memory Cost》。

  • wesm/pydata-book Wes McKinney的“Python for Data Analysis”材料和IPython笔记本,由O‘Reilly Media出版

  • microsoft/AI-For-Beginners Microsoft的 Azure 云倡导者很高兴提供为期 12 周、每节课的人工智能课程。

  • roboticcam/machine-learning-notes 不间断更新的机器学习,概率模型和深度学习的讲义(2000+页)和视频链接

  • BinRoot/TensorFlow-Book 随附的 Machine Learning with TensorFlow 源代码。请参阅本书以获取分步说明。

  • skorch-dev/skorch 综合scikit-learn和PyTorch的机器学习库,可以实现sklearn和PyTorch高效兼容。

  • EthicalML/awesome-production-machine-learning 精选的开源库列表,用于部署、监控、版本控制和扩展您的机器学习

  • MingchaoZhu/DeepLearning 该书为《深度学习》(花书) 数学推导、原理剖析与源码级别代码实现

  • jakevdp/PythonDataScienceHandbook 包含完整的 Python 数据科学手册,其形式为 (免费!Jupyter 笔记本。

  • FedML-AI/FedML 面向研究的联邦学习库。支持分布式计算,移动/IoT设备训练和模拟

  • floodsung/Deep-Learning-Papers-Reading-Roadmap 深度学习论文阅读路线图,适合任何渴望学习这项惊人技术的人!

  • marcotcr/lime LIMELocal Interpretable Model-agnostic Explanations被用作解释机器学习模型。

  • PKUFlyingPig/cs-self-learning 计算机自学指南深度学习入门开源书,基于TensorFlow 2.0案例实战。

  • Visualize-ML/Book4_Power-of-Matrix Book_4_《矩阵力量》 | 鸢尾花书:从加减乘除到机器学习;上架!

  • rougier/scientific-visualization-book 一本关于使用 python 和 matplotlib 进行科学可视化的开放获取书籍

  • academic/awesome-datascience 很棒的数据科学存储库,用于学习和应用现实世界的问题。

  • awslabs/autogluon 为文本、图像、表格数据开发的自动机器学习库(AutoML)。

  • nvidia/TensorRT C++库,用于对 NVIDIA GPU 和深度学习加速器进行高性能推论。

  • eugeneyan/applied-ml 生产中的数据科学和机器学习的精选论文、文章和博客。

  • pytorch/examples 一组关于 pytorch 在视觉、文本、强化学习等方面的示例。

  • borgwang/tinynn 用 Python3 编写的轻量级深度学习框架(用于学习目的)。

  • microsoft/EdgeML Microsoft Research India开发的边缘设备提供了机器学习算法。

  • evidentlyai/evidently 在验证或生产监控期间分析机器学习模型的交互式报告。

  • Visualize-ML/Book3_Elements-of-Mathematics Book_3_《数学要素》 | 鸢尾花书:从加减乘除到机器学习

  • fengdu78/deeplearning_ai_books deeplearning.ai(吴恩达老师的深度学习课程笔记及资源)

  • mrdbourke/pytorch-deep-learning 学习用于深度学习的 PyTorch:从零到精通课程的材料。

  • esa/pagmo2 大规模并行优化的科学库 生物启发式算法和进化算法

  • pytorch/opacus Opacus是一个库,可以使用不同的隐私训练PyTorch模型。

  • mit-han-lab/mcunet IoT硬件上精简的深度学习库 Tiny Deep Learning on IoT Devices

  • NirantK/awesome-project-ideas 机器学习、NLP、视觉、推荐系统项目创意的精选列表

  • XuezheMax/apollo Apollo:用于非凸随机优化的自适应参数对角拟牛顿法

  • karpathy/micrograd 微型标量自动求导引擎,类似PyTorch API的神经网络库

  • apple/coremltools 包含用于 Core ML模型转换、编辑和验证的支持工具。

  • MorvanZhou/PyTorch-Tutorial 轻松快速地构建您的神经网络, 莫烦Python中文教学

  • mli/paper-reading 深度学习经典、新论文逐段精读。包括视频讲解。

  • ashishpatel26/500-AI-Machine-learning-Deep-learning-Computer-vision-NLP-Projects-with-code 500个AI机器学习 深度学习 计算机视觉 NLP 代码项目

  • PyTorchLightning/PyTorch-lightning 基于Pytorch的轻量高级计算框架,相当于Keras框架。

  • teddykoker/torchsort 快速可微分排序算法PyTorch包,配有自定义C ++和CUDA

  • ml-tooling/best-of-ml-python 一个令人赞叹的python机器学习排名表,每周更新。

  • dragen1860/Deep-Learning-with-TensorFlow-book 深度学习入门开源书,基于TensorFlow 2.0案例实战。

  • dair-ai/ML-YouTube-Courses 在 YouTube 上发现最新的机器学习/人工智能课程。

  • Oneflow-Inc/oneflow OneFlow是一个以性能为中心的开源深度学习框架。

  • jonasrauber/eagerpy 编写与PyTorch,TensorFlow,JAX和NumPy本地兼容的代码

  • sgrvinod/Deep-Tutorials-for-PyTorch 使用 PyTorch 自行实现深度学习模型的深入教程。

  • statsmodels/statsmodels Statsmodels:Python 中的统计建模和计量经济学库。

  • Aimhubio/Aim 一个超级简单的记录、查找、比较AI实验的库。

  • pyro-ppl/pyro 基于PyTorch作为后端的通用概率编程语言 (PPL)。

  • interpretml/interpret 训练可解释的机器学习模型和解释黑匣子系统

  • luwill/Machine_Learning_Code_Implementation 机器学习算法的数学推导和纯Python代码实现。

  • sql-machine-learning/sqlflow 连接 SQL 引擎的桥接,与机器学习工具包连接

  • ZuzooVn/machine-learning-for-software-engineers 学习成为机器学习工程师的完整日常计划。

  • ukas/ml-class 专为工程师设计的机器学习课程和教学项目

  • idrl-lab/idrlnet 基于内嵌物理知识神经网络的开源求解框架

  • ZuzooVn/machine-learning-for-software-engineers 学习成为机器学习工程师的完整日常计划。

  • bangoc123/learn-machine-learning-in-two-months 在 2 个月内学习好机器学习所需的知识。

  • kailashahirwar/cheatsheets-ai 深度学习和机器学习工程师的基本备忘单

  • microsoft/ML-For-Beginners 微软给初学者开源了一份机器学习课程。

  • softsys4ai/FlexiBO 基于成本感知的多目标优化深度神经网络

  • jindongwang/MachineLearning 一些关于机器学习的学习资料与研究介绍

  • openmlsys/openmlsys-zh 《机器学习系统:设计与实现》- 中文版

  • afshinea/stanford-cs-229-machine-learning 斯坦福大学 CS 229 机器学习的 VIP 备忘单

  • terryum/awesome-deep-learning-papers 被引用最多的深度学习论文 on Oct 19, 2018

  • Dod-o/Statistical-Learning-Method_Code 实现李航《统计学习方法》中全部算法

  • ChristosChristofidis/awesome-deep-learning 精选深度学习教程、项目和社区列表。

  • doccano/doccano 面向机器学习从业者的开源注释工具。

  • alexmojaki/heartrate 调试 Python程序执行的简单实时可视化

  • e-tony/best-of-ml-rust 一个令人赞叹的Rust机器学习排名表。

  • DataCanvasIO/DeepTables DeepTables:表格数据的深度学习工具包

  • josephmisiti/awesome-machine-learning 机器学习框架、库和软件的精选列表

  • fengdu78/lihang-code 《统计学习方法》第二版的代码实现

  • ml-tooling/best-of-ml-python 很棒的机器学习Python库的排名列表。

  • matazure/mtensor 一个tensor计算库, 支持cuda的延迟计算

  • thuwyh/InferLight 提高模型的线上推理吞吐量近2.5倍。

  • dotnet/machinelearning .NET 的开源和跨平台机器学习框架。

  • nndl/nndl.github.io 《神经网络与深度学习》 邱锡鹏著

  • datawhalechina/leedl-tutorial 《李宏毅深度学习教程》,PDF下载

  • mml-book/mml-book.github.io 《机器学习数学》一书的配套网页

  • modin-project/modin 通过更改一行代码来扩展加速pandas

  • pycaret/pycaret Python中的开源,低代码机器学习库

  • roatienza/Deep-Learning-Experiments 了解深度学习的视频、笔记和实验

  • AMAI-GmbH/AI-Expert-Roadmap 2022年成为人工智能专家的路线图

  • neuronika/neuronika 纯Rust的张量和动态神经网络库。

  • FavioVazquez/ds-cheatsheets 统治世界的数据科学备忘单列表

  • yunjey/pytorch-tutorial 深度学习研究人员的 PyTorch 教程

  • alibaba/MNN 轻量级的深度神经网络推理引擎

  • NUAA-AL/ALiPy 基于Python实现的主动学习工具包

  • ShichenXie/scorecardpy Scorecard Development in python, 评分卡

  • MAIF/shapash 非常炫酷的模型解释性工具包。

  • microsoft/Data-Science-For-Beginners 10 周20 节课,全民数据科学!

  • google/trax 代码更清晰的神经网络代码库

  • Mikoto10032/DeepLearning 深度学习入门教程, 优秀文章

  • geekinglcq/CDCS CDCS 中国数据竞赛优胜解集锦

  • cupy/cupy 使用 CUDA 加速类似 NumPy 的 API

  • mlpack/mlpack C++ 快速、灵活的机器学习库

  • chefyuan/algorithm-base 用动画将算法说的通俗易懂

  • luwill/machine-learning-code-writing luwill/machine-learning-code-writing

  • geatpy-dev/geatpy 高性能遗传进化算法工具箱

  • man-group/dtale pandas数据结构的可视化工具

  • dustinvtran/ml-videos 机器学习视频资源的集合

  • lawlite19/MachineLearning_Python 机器学习算法python实现

  • MLEveryday/100-Days-Of-ML-Code 100-Days-Of-ML-Code中文版

  • tensorflow/ranking TensorFlow中的排名学习

  • lavender28/Credit-Card-Score 申请信用评分卡模型

  • MorvanZhou/tutorials 机器学习相关教程

  • csuldw/MachineLearning csuldw/MachineLearning

  • facebookresearch/nevergrad 无梯度优化平台

  • bfortuner/ml-glossary 机器学习术语表

  • apachecn/pytorch-doc-zh Pytorch 中文文档

  • rushter/MLAlgorithms 机器学习算法

  • andkret/Cookbook 数据工程手册

  • scikit-survival 生存分析

其他_机器学习与深度学习

  • HIPS/autograd Autograd 可以自动区分原生 Python 和 Numpy 代码。它可以处理 Python 的大部分功能,包括循环、ifs、递归和闭包,甚至可以采用导数的导数的导数。它支持反向模式微分(又名反向传播),这意味着它可以有效地采用关于数组值参数的标量值函数的梯度,以及正向模式微分,并且两者可以任意组合。Autograd 的主要预期应用是基于梯度的优化。假设您想为您的数据测试一个新的机器学习模型。这通常意味着提出一些损失函数来捕捉模型与数据的拟合程度,并根据模型参数优化该损失。如果有很多模型参数(神经网络可以有数百万个),那么你需要梯度。然后,您有两个选择:自己派生和编码它们,或者使用 Theano 或 TensorFlow 等系统的语法和语义约束来实现您的模型。我们想提供第三种方法:只需使用像 Numpy 这样的标准数值库写下损失函数,Autograd 就会给你它的梯度。如何使用 Autograd?Autograd 的 grad 函数接受一个函数,并为您提供一个计算其导数的函数。您的函数必须具有标量值输出(即 float)。这涵盖了您想要使用渐变来优化某些内容时的常见情况。Autograd 适用于包含所有常用控制结构的普通 Python 和 Numpy 代码,包括 while 循环、if 语句和闭包。幕后发生了什么?要计算梯度,Autograd 首先必须记录在转换为函数输出时应用于输入的每个转换。为此,Autograd 包装函数(使用函数原语),以便在调用它们时,它们会将自己添加到执行的操作列表中。Autograd 的核心有一个表,将这些包装的基元映射到它们相应的渐变函数(或者更准确地说,它们的向量雅可比乘积函数)。为了标记我们采用梯度的变量,我们使用 Box 类包装它们。您永远不必考虑 Box 类,但在打印调试信息时可能会注意到它。评估函数后,Autograd 有一个图表,指定了对我们要区分的输入执行的所有操作。这是函数计算的计算图。为了计算导数,我们只需将微分规则应用于图中的每个节点。反向模式微分:给定一个由多个嵌套函数调用组成的函数,有几种方法可以计算其导数。例如,给定 L(x) = F(G(H(x))),链式规则表示其梯度为 dL/dx = dF/dG * dG/dH * dH/dx。如果我们从右到左评估这个乘积:(dF/dG * (dG/dH * dH/dx)),则执行与计算本身相同的顺序,这称为前向模式微分。如果我们从左到右评估这个乘积:((dF/dG * dG/dH) * dH/dx),则计算本身的相反顺序,这称为逆模微分。与有限差分或正向模式相比,反向模式微分是迄今为止更实用的微分方法,用于区分采用大向量并输出单个数字的函数。在机器学习社区中,逆模微分被称为“反向传播”,因为梯度通过函数向后传播。这特别好,因为您不需要显式实例化中间雅可比矩阵,而只依赖于应用一系列无矩阵向量雅可比乘积函数 (VJP)。由于 Autograd 也支持高等导数,因此也可以使用 Hessian 向量积(二阶导数的一种形式)并高效计算。如何支持 ifs、while 循环和递归?某些 autodiff 软件包(例如 TensorFlow)的工作原理是让您指定函数执行的计算图,包括所有控制流(例如 if 和 for 循环),然后将该图转换为另一个计算梯度的图。这有一些好处(例如允许编译时优化),但它需要你用这些包知道如何处理的有限迷你语言来表达控制流。(例如,TensorFlow 中的 tf.while 和 tf.cond 操作)。相比之下,Autograd 不必知道用于决定调用哪些操作的任何 if、分支、循环或递归。要计算特定输入的梯度,只需知道哪些连续转换应用于该特定输入,而不需要知道可能已应用了哪些其他转换。由于 Autograd 会单独跟踪每个函数调用的相关操作,因此所有 Python 控制流操作对 Autograd 不可见都不是问题。事实上,它大大简化了实现。

  • facebookexperimental/Robyn Robyn 是来自 Meta Marketing Science 的一个实验性的、由 AI/ML 支持的开源营销组合建模 (MMM) 包。我们的使命是使建模知识民主化,通过创新激励行业,减少建模过程中的人为偏见并建立强大的开源营销科学社区。罗宾是什么? :Robyn 是来自 Meta Marketing Science 的实验性、半自动化和开源营销组合建模 (MMM) 软件包。它使用各种机器学习技术(岭回归、用于超参数优化的多目标进化算法、趋势和季节的时间序列分解、基于梯度的预算分配优化、聚类等)来定义媒体渠道效率和有效性,探索adstock 费率和饱和曲线。它是为具有许多自变量的精细数据集而构建的,因此特别适合具有丰富数据源的数字和直接响应广告商。我们为什么要这样做? :MMM曾经是一种资源密集型技术,只有“大玩家”才能负担得起。随着测量领域隐私需求的发展,对现代 MMM 作为隐私安全解决方案的需求明显增加。在 Meta Marketing Science,我们的使命是通过转变基于数据和科学的营销实践来帮助所有企业发展。它与我们的使命高度一致,即使 MMM 民主化并让各种规模的广告商都可以使用它。通过 Robyn 项目,我们希望为测量领域做出贡献,激励行业,并围绕 MMM 和营销科学的未来建立一个交流和创新的社区。

  • zenml-io/zenml 构建可移植、生产就绪的 MLOps 管道。ZenML 是一个 MLOps 框架,适用于希望标准化机器学习实践的数据科学家或 ML 工程师。只需将@step和@pipeline添加到现有的 Python 函数中即可开始使用。轻松预配 MLOps 堆栈或重用现有基础架构:该框架是从业者构建复杂 ML 管道的温和切入点,几乎不需要了解底层基础设施的复杂性。ZenML 管道可以在 AWS、GCP、Azure、Airflow、Kubeflow 甚至 Kubernetes 上运行,而无需更改任何代码或了解底层内部结构。ZenML提供了不同的功能,可以帮助人们在远程环境中快速上手。如果要在所选云提供商上从头开始部署远程堆栈,可以通过仪表板使用一键式部署功能。在生产基础架构上轻松运行工作负载:配置 MLOps 堆栈后,可以轻松地在其上运行工作负载;跟踪模型、管道和工件:创建生成人员、地点以及生成数据和模型的完整谱系,您将能够找出谁在什么时间生成了哪个模型,使用哪些数据以及代码的哪个版本。这保证了完全的可重复性和可审计性。专为机器学习而构建,可集成到您喜爱的工具中:虽然 ZenML 带来了很多盒子的价值,但它也可以集成到您现有的工具和基础设施中,而您不必被锁定。

  • replicate/cog Cog 是一个开源工具,可让您将机器学习模型打包到标准的生产就绪容器中。特色:Docker 容器没有痛苦,编写自己的 Dockerfile 可能是一个令人困惑的过程,使用 Cog,您可以使用一个简单的配置文件来定义您的环境,它会生成一个包含所有最佳实践的 Docker 镜像:Nvidia 基础镜像、依赖项的高效缓存、安装特定的 Python 版本、合理的环境变量默认值等。不再有 CUDA 地狱,Cog 知道哪些 CUDA/cuDNN/PyTorch/Tensorflow/Python 组合是兼容的,并会为您正确设置。使用标准 Python 定义模型的输入和输出,Cog 生成一个 OpenAPI 架构,并使用 Pydantic 验证输入和输出。自动 HTTP 预测服务器:您的模型类型用于使用 FastAPI 动态生成 RESTful HTTP API。自动队列工作程序,长时间运行的深度学习模型或批处理最好使用队列进行架构,Cog 模型开箱即用。Redis 目前受支持,更多支持正在开发中。云存储,文件可以直接读取和写入 Amazon S3 和 Google Cloud Storage。为生产做好准备,将模型部署到运行 Docker 映像的任何位置。您自己的基础设施或 Replicate。

  • modelscope/modelscope ModelScope 建立在“模型即服务”(MaaS) 的概念之上。它旨在汇集来自人工智能社区的最先进的机器学习模型,并简化在实际应用中利用人工智能模型的过程。此存储库中开源的核心 ModelScope 库提供了允许开发人员执行模型推理、训练和评估的接口和实现。特别是,ModelScope 库具有丰富的 API 抽象层,可提供统一的体验,以探索跨 CV、NLP、语音、多模态和科学计算等领域的最先进模型。不同领域的模型贡献者可以通过分层 API 将模型集成到 ModelScope 生态系统中,从而轻松统一地访问他们的模型。集成后,只需几行代码即可完成模型推理、微调和评估。同时,还提供了灵活性,以便在必要时可以定制模型应用程序中的不同组件。除了包含各种不同模型的实现外,ModelScope 库还支持与 ModelScope 后端服务进行必要的交互,尤其是与 Model-Hub 和 Dataset-Hub 的交互。这种交互有助于在后台无缝执行各种实体(模型和数据集)的管理,包括实体查找、版本控制、缓存管理等。

  • deepchecks/deepchecks Deepchecks:用于持续验证ML模型和数据的测试。Deepchecks 是一个整体的开源解决方案,可满足您所有的 AI 和 ML 验证需求,能够彻底测试您的数据和模型,从研究到生产。Deepchecks 是一个全面的开源解决方案,可满足您所有的 AI 和 ML 验证需求,使您能够彻底测试从研究到生产的数据和模型。Deepchecks的核心包括各种内置检查,用于测试所有类型的数据和模型相关问题。这些检查针对各种模型和数据类型(表格、NLP、视觉)实现,并且可以轻松自定义和扩展。检查结果可用于自动对模型的生产准备情况做出明智的决策,并在生产中随时间推移对其进行监控。检查结果可以通过可视化报告进行检查(通过将它们保存到 HTML 文件,或在 Jupyter 中查看它们),使用代码进行处理(使用其 pythonic / json 输出),并使用 Deepchecks 的动态 UI 进行检查和协作(用于检查测试结果和生产监控)。

  • ml-explore/mlx Apple 机器学习研究团队推出的基于 Apple 芯片的机器学习阵列框架。主要功能包括:熟悉的 API:MLX 有一个紧跟 NumPy 的 Python API。MLX 还有一个功能齐全的 C++ API,它与 Python API 非常相似。MLX 具有更高级别的包,例如 API mlx.optimizers ,这些包与 PyTorch 密切相关, mlx.nn 以简化构建更复杂的模型。可组合函数变换:MLX支持可组合函数变换,实现自动微分、自动矢量化、计算图优化等功能。延迟计算:MLX 中的计算是延迟的。数组仅在需要时具体化。动态图构建:MLX中的计算图是动态构建的。更改函数参数的形状不会触发缓慢的编译,并且调试简单直观。多设备:操作可以在任何受支持的设备(当前为 CPU 和 GPU)上运行。统一内存:与 MLX 和其他框架的显着区别是统一内存模型。MLX 中的数组位于共享内存中。可以在任何受支持的设备类型上执行对 MLX 阵列的操作,而无需传输数据。

  • feast-dev/feast 用于机器学习的开源功能存储。Feast 是管理现有基础设施的最快途径,用于生产用于模型训练和在线推理的分析数据。通过管理离线存储(用于处理用于横向扩展批量评分或模型训练的历史数据)、低延迟在线存储(支持实时预测)和经过实战测试的功能服务器(用于在线提供预先计算的功能),使功能始终可用于训练和服务。通过生成时间点正确的特征集来避免数据泄露,以便数据科学家可以专注于特征工程,而不是调试容易出错的数据集连接逻辑,这可确保将来的特征值不会在训练期间泄漏到模型中。通过提供单个数据访问层将特征存储从特征检索中抽象出来,将 ML 与数据基础架构分离,确保模型在从训练模型迁移到服务模型、从批处理模型迁移到实时模型以及从一个数据基础设施系统迁移到另一个数据基础设施时保持可移植性。

  • IDSIA/sacred Sacred 是一个帮助您配置、组织、记录和重现实验的工具。它旨在完成您在实际实验中需要完成的所有繁琐的日常工作,以便:跟踪实验的所有参数,轻松运行不同设置的实验,将各个运行的配置保存在数据库中。重现你的结果,Sacred 通过以下主要机制实现这一目标:配置范围函数中局部变量的一种非常方便的方法来定义实验使用的参数;配置注入:您可以从每个函数访问配置的所有参数。它们是按名称自动注入的;命令行界面:每个实验都有一个强大的命令行界面,可用于更改参数并运行不同的变体;观察者:Sacred 提供了观察者来记录有关您的实验、其依赖项、您使用的配置、运行的机器,当然还有结果的各种信息;这些可以保存到 MongoDB,以便以后轻松访问;自动播种有助于控制实验中的随机性,从而使结果保持可重复性。

  • adap/flower Flower ( flwr ) 是构建联邦学习系统的框架。 Flower 的设计基于一些指导原则:可定制:联邦学习系统从一个用例到另一个用例都有很大差异,Flower 允许根据每个单独用例的需求进行各种不同的配置。可扩展:Flower 源自牛津大学的一个研究项目,因此它是在人工智能研究的基础上构建的,许多组件可以扩展和覆盖以构建新的最先进的系统。与框架无关:不同的机器学习框架具有不同的优势, Flower 可以与任何机器学习框架一起使用,例如PyTorch 、 TensorFlow 、 Hugging Face Transformers 、 PyTorch Lightning 、 scikit-learn 、 JAX 、 TFLite 、 MONAI 、 fastai 、 MLX 、 XGBoost 、 Pandas进行联合分析,甚至原始NumPy进行联合分析喜欢手动计算梯度的用户。可以理解:Flower 的编写考虑到了可维护性。鼓励社区阅读代码库并为代码库做出贡献。

  • Thinklab-SJTU/awesome-ml4co 用于组合优化论文的出色机器学习资源。包括图论问题: 图形匹配、旅行商问题、最大独立集、哈密顿循环问题、图着色、最大公共子图等。这类问题通常涉及到图的结构和性质,寻找图中的最优解。组合优化问题: 背包问题、车辆路径问题、作业车间调度问题、设施位置问题等。这类问题主要涉及到离散变量的优化,寻找满足约束条件下的最优组合。整数规划问题: 混合整数规划问题。这类问题是组合优化问题的一种特殊形式,变量取值为整数。其他问题: 投资组合优化、影响力最大化、因果发现、博弈论语义、可微优化、电子设计自动化、虚拟网络嵌入、预测+优化、最佳功率流、排序和排名、组合药物推荐、随机组合优化等。这些问题涉及到更广泛的领域,如机器学习、人工智能、经济学等。

  • MegEngine/MegEngine MegEngine 是一个快速、可拓展、易于使用且支持自动求导的深度学习框架。MegEngine 是一个快速、可扩展且用户友好的深度学习框架,具有 3 个关键功能。训练和推理的统一框架;量化、动态形状/图像预处理,甚至使用单个模型进行推导;训练后,将所有内容放入模型中,以便在任何平台上快速、精确地进行推理。最低的硬件要求,启用DTR算法后,GPU的内存使用量可以减少到原来内存使用量的三分之一,利用我们的下推内存规划器实现内存使用率最低的推理模型。在所有平台上高效推理,在 x86、Arm、CUDA 和 RoCM 上进行快速且高精度的推理。支持Linux、Windows、iOS、Android、TEE等。利用我们的高级功能优化性能和内存使用。

  • pytorch/serve 在生产环境中提供、优化和扩展 PyTorch 模型。特色:模型管理 API:通过优化从角色到模型的分配进行多模型管理、推理 API:对批量推理的 REST 和 gRPC 支持、TorchServe 工作流:使用多个相互依赖的模型部署复杂的 DAG、导出模型以进行优化推理:开箱即用的Torchscript,ORT和ONNX,IPEX,TensorRT,FasterTransformer、性能指南:内置支持优化、基准测试和分析 PyTorch 和 TorchServe 性能、富有表现力的处理程序:一种富有表现力的处理程序体系结构,通过开箱即用的支持,支持对用例的推理变得微不足道、指标 API:通过 Prometheus 导出、自定义指标和 PyTorch 分析器支持对系统级指标的开箱即用支持

  • finos/perspective 数据可视化和分析组件,特别适用于大型和/或流数据集。使用它来创建用户可配置的报告、仪表板、笔记本和应用程序,然后在浏览器中独立部署,或与 Python 和/或 Jupyterlab 协同部署。一个快速、内存高效的流式查询引擎,用 C++ 编写并针对 WebAssembly 和 Python 编译,具有用于 Apache Arrow 的读/写/流式处理,以及基于 ExprTK 的高性能列式表达式语言。一个与框架无关的用户界面,打包为自定义元素,通过 WebAssembly 在浏览器内提供支持,或通过 WebSocket 服务器 (Python/Node) 虚拟提供支持。JupyterLab 小部件和 Python 客户端库,用于笔记本中的交互式数据分析,以及可扩展的生产 Voila 应用程序。

  • kedro-org/kedro 用于生产就绪型数据科学的工具箱。它使用软件工程最佳实践来帮助你创建可重现、可维护和模块化的数据工程和数据科学管道。基于Cookiecutter数据科学的标准、可修改且易于使用的项目模板。一系列轻量级数据连接器,用于跨多种不同的文件格式和文件系统(包括本地和网络文件系统、云对象存储和 HDFS)保存和加载数据。数据目录还包括基于文件的系统的数据和模型版本控制。使用 Kedro-Viz 自动解析纯 Python 函数和数据管道可视化之间的依赖关系。部署策略,包括单机或分布式计算机部署,以及对在 Argo、Prefect、Kubeflow、AWS Batch 和 Databricks 上部署的额外支持。

  • HigherOrderCO/HVM 基于Rust的一个大规模并行交互的高阶虚拟机。通过将高级语言(如 Python 和 Haskell)的程序编译为 HVM,可以直接在大规模并行硬件(如 GPU)上运行这些语言,并具有近乎理想的加速。HVM2 是 HVM1 的继任者,HVM1 是该概念的 2022 年原型。与其前身相比,HVM2 更简单、更快,最重要的是更正确。HOC为其PAPER上列出的所有功能提供长期支持。该存储库提供了用于指定 HVM2 网络的低级 IR 语言,以及从该语言到 C 和 CUDA 的编译器。它不适合直接供人类使用。如果您正在寻找一种与 HVM2 交互的高级语言,请选Bend。

  • KindXiaoming/pykan Kolmogorov-Arnold 网络 (KAN) 是多层感知器 (MLP) 的有前途的替代品。KAN 与 MLP 一样具有强大的数学基础:MLP 基于通用近似定理,而 KAN 基于 Kolmogorov-Arnold 表示定理。KAN 和 MLP 是双重的:KAN 在边缘具有激活函数,而 MLP 在节点上具有激活函数。这个简单的变化使KAN在模型准确性和可解释性方面都比MLP更好。KAN 比 MLP 具有更快的扩展速度,KAN 比参数较少的 MLP 具有更好的准确性。KAN可以直观地可视化。KAN 提供 MLP 无法提供的可解释性和交互性。我们可以使用KAN来潜在地发现新的科学定律。

  • spring-projects/spring-ai Spring AI是一个面向 AI 应用开发的 Spring 友好型框架,旨在将 Spring生态系统的可移植性和模块化设计理念应用于 AI 领域,并推广使用 POJO 作为 AI 应用的构建块。它通过提供 Spring 友好的 API 和抽象,连接企业数据和 API 与 AI 模型,并支持所有主要 AI 模型提供商(如 Anthropic、OpenAI、Microsoft、Amazon、Google 和 Ollama)和向量数据库提供商,提供可移植的 API、结构化输出、工具/函数调用、可观察性、ETL 框架、AI 模型评估和 ChatClient API 等功能,帮助开发者构建下一代生成式 AI 应用。

  • tencentmusic/cube-studio 开源云原生一站式机器学习/深度学习AI平台,支持sso登录,多租户/多项目组,数据资产对接,notebook在线开发,拖拉拽任务流pipeline编排,多机多卡分布式算法训练,超参搜索,推理服务VGPU,多集群调度,边缘计算,serverless,标注平台,自动化标注,数据集管理,大模型一键微调,llmops,私有知识库,AI应用商店,支持模型一键开发/推理/微调,私有化部署,支持国产cpu/gpu/npu芯片,支持RDMA,支持pytorch/ tf/ mxnet/ deepspeed/ paddle/ colossalai/ horovod/ spark/ ray/ volcano分布式

  • slundberg/shap 一种博弈论方法,用于解释任何机器学习模型的输出。SHAP(SHapley Additive exPlanations)是一种博弈论方法,用于解释任何机器学习模型的输出。它将最优信用分配与局部解释联系起来,使用博弈论中的经典Shapley值及其相关扩展(有关详细信息和引用,请参阅论文)。虽然SHAP可以解释任何机器学习模型的输出,但我们已经为树集成方法开发了一种高速精确算法(请参阅我们的Nature MI论文)。XGBoost,LightGBM,CatBoost,scikit-learn和pyspark tree模型支持快速C++实现。

  • polyaxon/polyaxon 用于构建、训练和监控大规模深度学习应用程序的平台。我们正在制作一个系统来解决机器学习应用程序的可重复性、自动化和可扩展性问题。Polyaxon 可部署到任何数据中心、云提供商中,也可以由 Polyaxon 托管和管理,并且它支持所有主要的深度学习框架,如 Tensorflow、MXNet、Caffe、Torch 等。Polyaxon 通过智能容器和节点管理管理工作负载,使开发深度学习应用程序变得更快、更轻松、更高效。它将 GPU 服务器转变为您的团队或组织的共享自助服务资源。

  • lowRISC/opentitan OpenTitan是一个开源硅信任根 (RoT) 项目。使企业、平台提供商和芯片制造商的硅 RoT 设计和实现更加透明、可信和安全,以生产高质量的开放 IP 以作为全功能产品的实例化。制造商越来越多地开始关注防篡改处理器(或其中一部分),通常被称为“安全区域(Secure Enclave)”,以阻止各种攻击。芯片中使用“信任根(Root of Trust)”,在系统每次启动时进行加密检查,确保没有任何内容被恶意篡改。如果发现问题,安全区域会阻止计算机启动。

  • srush/GPU-Puzzles GPUPuzzles 项目是一个通过解决一系列 GPU 编程谜题来学习 CUDA 的交互式教程。它使用 NUMBA 将 Python 代码直接映射到 CUDA 内核,让用户能够在无需深入了解底层 CUDA 代码的情况下学习 GPU 编程。项目提供一系列谜题,从简单的向量加法开始,逐步引导用户学习更复杂的 GPU 编程概念,最终能够理解深度学习中常用的算法。项目还提供 Colab 笔记本,方便用户快速上手。此外,项目还提供一个 YouTube 视频教程,详细讲解项目内容。

  • kubeflow/pipelines 机器学习 (ML) 工具包,致力于使 Kubernetes 上的 ML 工作流部署变得简单、可移植和可扩展。Kubeflow 流水线是使用 Kubeflow Pipelines SDK 构建的可重用的端到端 ML 工作流。Kubeflow 流水线服务具有以下目标:端到端编排,启用和简化端到端机器学习管道的编排;轻松实验,让您轻松尝试众多想法和技术,并管理您的各种试验/实验;易于重用,使您能够重用组件和管道,以快速拼凑端到端解决方案,而无需每次都重新构建。

  • alibaba/Curvature-Learning-Framework 基于Tensorflow的非欧深度学习框架。实现了多种非欧流形、非欧算子和黎曼优化器,基于与Tensorflow相似的底层接口,可以便捷的迁移模型空间而不改变模型细节。背景:欧氏空间不可能无损表征树、环结构,然而双曲(负曲率)、球面(正曲率)空间无损表征。由于对结构性强的如无尺度网络、层次数据、环状数据等的优良表征能力,非欧深度学习逐渐应用到各个领域并展示出优越性,包括链接预测、推荐系统等。

  • Guang000/Awesome-Dataset-Distillation 数据集蒸馏是合成一个小数据集的任务,使得在其上训练的模型在原始大数据集上实现高性能。 数据集蒸馏算法将要蒸馏的大型真实数据集(训练集)作为输入,并输出一个小的合成蒸馏数据集,该数据集通过在单独的真实数据集(验证/测试集)上在该蒸馏数据集上训练的测试模型进行评估。 一个好的小型蒸馏数据集不仅对数据集理解有用,而且具有各种应用(例如,持续学习、隐私、神经架构搜索等)。

  • lmcinnes/umap 均匀流形近似和投影 (UMAP ,Uniform Manifold Approximation and Projection) 是一种降维技术,可用于类似于 t-SNE 的可视化,但也可用于一般的非线性降维。该算法建立在关于数据的三个假设之上:数据均匀分布在黎曼流形上;黎曼度量是局部常数(或可以近似);流形是本地连接的。根据这些假设,可以对具有模糊拓扑结构的流形进行建模。通过搜索具有最接近的等效模糊拓扑结构的数据的低维投影来找到嵌入。

  • selfteaching/the-craft-of-selfteaching 这是一个名为 "the-craft-of-selfteaching" 的 GitHub 项目,旨在帮助人们掌握自学技巧。项目作者认为自学能力是未来成功的关键,并通过一系列 Jupyter Notebook 文件,提供了一套完整的自学方法论。该项目以编程学习为切入点,强调阅读、练习和实践的重要性,并提供 JupyterLab 安装和使用指南,方便读者学习和实践。项目还包含了如何使用 Pull Request 贡献内容的说明,鼓励读者参与其中。

  • unifyai/ivy Ivy 是一个开源机器学习框架,使您能够:自动调整模型:使用 ivy. autotune 自动查找适合您特定用例的最佳框架、编译器基础结构和硬件。将代码转换为任何框架:通过使用 ivy.transpile 将任何代码从一个框架转换为另一个框架,在任何模型、库或设备的基础上使用和构建。编写与框架无关的代码:在 ivy 中编写一次代码,然后选择最合适的 ML 框架作为后端,以利用所有优势和工具。

  • zetane/viewer 免费的 Zetane Viewer 是一款帮助理解和加速机器学习和人工神经网络发现的工具。它可以通过可视化和理解模型的架构和内部数据(特征图、权重、偏差和层输出张量)来打开 AI 黑匣子。它可以被认为是一种工具,用于对人工神经网络和机器学习算法进行神经成像或脑成像。您还可以使用 Zetane Python API 通过几个命令直接从现有脚本或笔记本启动您自己的 Zetane 工作区。

  • microsoft/CNTK 统一的深度学习工具包,它通过有向图将神经网络描述为一系列计算步骤。在此有向图中,叶节点表示输入值或网络参数,而其他节点表示输入的矩阵运算。CNTK允许用户轻松实现和组合常用模型类型,例如前馈 DNN、卷积网络 (CNN) 和循环网络 (RNN/LSTM) 。它实现了随机梯度下降(SGD,误差反向传播)学习,并在多个 GPU 和服务器之间实现了自动微分和并行化。

  • karpathy/nn-zero-to-hero 这是一个从零开始学习神经网络的课程,包含一系列 YouTube 视频,通过代码和训练神经网络来学习。课程内容涵盖基础知识,如反向传播、语言建模等,并提供 Jupyter 笔记本和练习。该项目特色是使用微型梯度库 (micrograd) 和 makemore项目来演示神经网络的构建和训练过程,并深入探讨了反向传播、语言建模、多层感知器 (MLP)、激活函数、批量归一化等关键概念。

  • mirage-project/mirage Mirage 是一个通过超级优化技术自动为 PyTorch 程序生成快速 GPU 内核的工具。例如,要获得用于注意力的快速 GPU 内核,用户只需编写几行 Python 代码来描述注意力的计算。对于给定的 PyTorch 程序,Mirage 会自动搜索功能上与输入程序等效的潜在 GPU 内核空间,并发现高度优化的候选内核。这种方法使 Mirage 能够找到优于现有专家设计内核的新定制内核。

  • SeldonIO/seldon-core MLOps 框架,用于打包、部署、监视和管理数千个生产机器学习模型。Seldon core 将您的 ML 模型(Tensorflow、Pytorch、H2o 等)或语言包装器(Python、Java 等)转换为生产 REST/GRPC 微服务。Seldon 可处理扩展到数千个生产机器学习模型,并提供开箱即用的高级机器学习功能,包括高级指标、请求日志记录、解释器、异常值检测器、A/B 测试、金丝雀等。

  • personqianduixue/Math_Model 数学建模、美赛、美国大学生数学建模竞赛、全国大学生数学建模竞赛、华为杯研究生数学建模、国赛LaTeX模板、美赛LaTeX模板、mathorcup、电工杯、华中赛、APMCM、深圳杯、中青杯、华东杯、数维杯、东三省数学建模、认证杯、数学建模书籍、常用matlab算法、国赛评阅要点、软件模型算法汇总、智能算法、优化算法、现代的算法

  • DataCanvasIO/Hypernets 通用自动化机器学习框架,用于简化特定领域中端到端 AutoML 工具包的开发。包括 tensorflow、keras、pytorch 等深度学习框架,以及 sklearn、lightgbm、xgboost 等机器学习库。引入了抽象的搜索空间表示,同时兼顾了超参数优化和神经架构搜索(NAS)的要求,使 Hypernets 成为能够适应各种自动化机器学习需求的通用框架。

  • yassouali/awesome-semi-supervised-learning 最新和精选的令人敬畏的半监督学习论文,方法和资源列表。未标记的数据可能相对容易收集,但很少有方法可以使用它们。半监督学习通过使用大量未标记的数据以及标记的数据来构建更好的分类器来解决此问题。由于半监督学习需要更少的人力并且具有更高的准确性,因此它在理论和实践中都非常有趣。

  • tensorflow/serving 灵活、高性能的机器学习模型服务系统,专为生产环境而设计。它涉及机器学习的推理方面,在训练后获取模型并管理其生命周期,通过高性能、引用计数的查找表为客户提供版本化访问。TensorFlow Serving 提供与 TensorFlow 模型的开箱即用集成,但可以轻松扩展以服务其他类型的模型和数据。

  • nebuly-ai/nebullvm 易于使用的库,可利用最先进的优化技术促进 AI 推理。利用多种优化技术(深度学习编译器、量化、稀疏性、蒸馏等),以确定在特定硬件上执行 AI 模型的最佳方式。可以在不损失性能的情况下将您的模型加速 2 到 10 倍,如果为超低延迟和更轻的模型牺牲准确度/精度,则可加速至 30 倍.

  • yinsn/ParaDance ParaDance 是一个专为大规模数据分析而定制的综合性 Python 工具包。它提供数据加载、处理、评估指标、采样和可视化功能。 ParaDance 的独特之处在于,它具有多目标贝叶斯优化功能,支持各种聚合公式和计算器。这种多目标设置的灵活性使 ParaDance 成为数据科学家和研究人员的宝贵工具。

  • conda/conda Conda 是一个跨平台、与语言无关的二进制包管理器。它是一个在Miniforge和Anaconda Distribution等 conda 发行版中使用的包管理器,但它也可以用于其他系统。 Conda 使环境成为一等公民,甚至可以轻松地为 C 库创建独立的环境。 conda 命令行界面完全用 Python 编写,并且是 BSD 许可的开源软件。

  • vosen/ZLUDA ZLUDA 允许您在 Intel AMD GPU 上以近乎原生的性能运行未经修改的 CUDA 应用程序。ZLUDA 目前是 alpha 质量,但已被确认可以与各种原生 CUDA 应用程序一起使用:Geekbench、3DF Zephyr、Blender、Reality Capture、LAMMPS、NAMD、waifu2x、OpenFOAM、Arnold(概念验证)等。ZLUDA完全建立在ROCm/HIP之上。

  • numba/numba 开源的、NumPy 感知的 Python 优化编译器,由 Anaconda, Inc. 赞助。它使用 LLVM 编译器项目从 Python 语法生成机器代码。Numba 可以编译一个以数字为中心的 Python 子集,包括许多 NumPy 函数。此外,Numba 还支持循环的自动并行化、GPU 加速代码的生成以及 ufuncs 和 C 回调的创建。

  • PaddlePaddle/Paddle-Lite 飞桨多端多平台高性能深度学习推理引擎.支持多平台:涵盖 Android、iOS、嵌入式 Linux 设备、Windows、macOS 和 Linux 主机。支持多种语言:包括 Java、Python、C++。轻量化和高性能:针对移动端设备的机器学习进行优化,压缩模型和二进制文件体积,高效推理,降低内存消耗

  • TimDettmers/bitsandbytes PyTorch 的 8 位 CUDA 函数。具有混合精度分解的 8 位矩阵乘法;LLM.int8 推理;8 位优化器:Adam、AdamW、RMSProp、LARS、LAMB(节省 75% 的内存);稳定嵌入层:通过更好的初始化和规范化;提高稳定性 8 位量化:分位数、线性和动态量化;快速分位数估计:比其他算法快 100 倍

  • TimDettmers/bitsandbytes 用于 PyTorch 的 8 位 CUDA 函数。具有混合精度分解的 8 位矩阵乘法;8位优化器:Adam,AdamW,RMSProp,LARS,LAMB,Lion(节省75%的内存);稳定嵌入层:通过更好的初始化和规范化提高稳定性;8 位量化:分位数、线性和动态量化、快速分位数估计:比其他算法快 100 倍。

  • ggerganov/ggml 用于机器学习的张量库,用 C 语言编写、16 位浮点支持、整数量化支持(4 位、5 位、8 位等)、自动区分、ADAM和L-BFGS优化器、针对苹果芯片进行了优化、在x86架构上利用AVX / AVX2内部函数、在 ppc64 架构上利用 VSX 内部函数、无第三方依赖关系、运行时内存分配为零

  • udlbook/udlbook Understanding Deep Learning(UDL) 是由 Simon J.D. Prince 编写的深度学习入门书籍,其 GitHub 项目 udlbook/udlbook 提供了该书的代码和示例,涵盖了深度学习的基础知识、神经网络架构、训练方法、应用案例等内容,并使用 Python 和 TensorFlow 库进行演示,适合初学者学习和实践。

  • determined-ai/determined Determined 是一个开源机器学习平台,可简化分布式训练、超参数优化、实验跟踪和资源管理。适用于 PyTorch 和 TensorFlow。它负责:分布式训练可更快获得结果。用于获得最佳模型的超参数优化。用于降低云 GPU 成本的资源管理。用于分析和重现性的实验跟踪。

  • Baiyuetribe/paper2gui 让每个人都简单方便的使用前沿人工智能技术。一款面向普通人的 AI 桌面 APP 工具箱,免安装即开即用,已支持 40+AI 模型,内容涵盖 AI 绘画、语音合成、视频补帧、视频超分、目标检测、图片风格化、OCR 识别等领域。支持 Windows、Mac、Linux 系统。

  • xorbitsai/xorbits 一个开源计算框架,可以轻松扩展数据科学和机器学习工作负载 - 从数据预处理到调优、训练和模型服务。Xorbits 可以利用多核或 GPU 来加速单台机器上的计算,或者横向扩展到数千台机器,以支持处理数 TB 的数据以及训练或为大型模型提供服务。

  • openvinotoolkit/openvino 用于优化和部署 AI 推理的开源工具包,提高计算机视觉、自动语音识别、自然语言处理和其他常见任务中的深度学习性能。使用通过 TensorFlow、PyTorch 等流行框架训练的模型。减少资源需求,并在从边缘到云的一系列英特尔®平台上高效部署。

  • D-X-Y/Awesome-AutoDL 自动化深度学习:神经架构搜索不是终点(AutoDL 资源精选列表和深入分析)。自动化深度学习相关资源的精选列表。灵感来自令人敬畏的深度愿景、令人敬畏的对抗性机器学习、令人敬畏的深度学习论文和令人敬畏的架构搜索。

  • amusi/AI-Job-Notes AI算法岗求职攻略:涵盖校招时间表、准备攻略、刷题指南、内推、AI公司清单和答疑等资料。AI算法岗方向涉及:AIGC、大模型、深度学习、机器学习、计算机视觉、自然语言处理、图像处理、自动驾驶、元宇宙、AIGC、SLAM等。

  • saulpw/visidata 用于表格数据的交互式多功能工具。它将电子表格的清晰度、终端的效率和 Python 的强大功能结合到一个轻量级实用程序中,可以轻松处理数百万行。VisiData 支持 tsv、csv、sqlite、json、xlsx (Excel)、hdf5 和许多其他格式。

  • instill-ai/instill-core Inthrow Core 是一款用于数据、模型和管道编排的全栈 AI 基础设施工具,旨在简化构建多功能 AI 优先应用程序的各个方面。访问 Instill Core 很简单,无论您是选择 ☁️ Instill、Cloud 还是通过 instill-core 存储库进行自托管。

  • kserve/kserve 提供了一个 Kubernetes 自定义资源定义,用于在任意框架上提供机器学习 (ML) 模型。它旨在通过为 Tensorflow、XGBoost、ScikitLearn、PyTorch 和 ONNX 等常见 ML 框架提供高性能、高抽象的接口来解决生产模型服务用例。

  • chenzomi12/DeepLearningSystem 跟大家一起探讨和学习人工智能、深度学习的系统设计,而整个系统是围绕着 ZOMI 在工作当中所积累、梳理、构建 AI 系统全栈的内容。希望跟所有关注 AI 开源项目的好朋友一起探讨研究,共同促进学习讨论。

  • bleedline/aimoneyhunter ai副业赚钱资讯信息的大合集,将在全网搜索并整理ai副业赚钱的相关方法、技术、工具、以及一些可以赚钱的平台和渠道。 期望能在AI时代,打破信息茧房,利用AI智能化做副业,赚取工作之余的额外收益。

  • openxla/xla 适用于 GPU、CPU 和 ML 加速器的机器学习编译器。XLA 编译器从 PyTorch、TensorFlow 和 JAX 等流行的 ML 框架中获取模型,并对其进行优化,以便在不同的硬件平台(包括 GPU、CPU 和 ML 加速器)上实现高性能执行。

  • cleanlab/cleanlab 通过自动检测 ML 数据集中的问题来帮助您清理数据和标签。为了促进对混乱的真实数据进行机器学习,这个以数据为中心的 AI 包使用现有模型来估计数据集问题,这些问题可以修复以训练更好的模型。

  • alibaba/Elastic-Federated-Learning-Solution 经过百亿规模工业级场景实战验证的跨互联网企业信息合作的联邦学习框架。EFLS有以下核心特性:云原生支持自定义特征工程——大规模高可用;首开水平聚合,层次聚合双模型——更强大更便捷。

  • lancedb/lance 用于 ML 的现代列式数据格式,并在 LLMs Rust 中实现。只需 2 行代码即可从 parquet 转换,随机访问、矢量索引和数据版本控制速度提高 100 倍。兼容 Pandas、DuckDB、Polars、Pyarrow,还有更多集成即将推出。

  • openai/triton OpenAI的Triton是一种类 Python 的开源编程语言。能够高效编写 GPU 代码。它可以用不到 25 行代码写出与 cuBLAS 性能相匹配的 FP16 矩阵乘法内核。此外,使用 Triton 成功生成比同类实现效率高 2 倍的内核。

  • hibayesian/awesome-automl-papers 自动化机器学习论文、文章、教程、幻灯片和项目的精选列表,自动化机器学习 (AutoML) 提供了使机器学习可供非机器学习专家使用的方法和流程,以提高机器学习的效率并加速机器学习的研究。

  • dataease/dataease 开源的数据可视化分析工具,帮助用户快速分析数据并洞察业务趋势,从而实现业务的改进与优化。DataEase 支持丰富的数据源连接,能够通过拖拉拽方式快速制作图表,并可以方便的与他人分享。

  • mosaicml/composer 将神经网络训练速度提高 7 倍 更低的成本和更高的准确度更快地训练神经网络。我们已经实现了两打以上的加速方法,只需几行代码即可应用于您的训练循环,或与我们的内置 Trainer 一起使用。

  • nvdla/hw NVIDIA 深度学习加速器 (NVDLA) 是一种免费的开放式架构,它促进了设计深度学习推理加速器的标准方法。凭借其模块化架构,NVDLA 具有可扩展性、高度可配置性,并且旨在简化集成和可移植性。

  • tensorflow/tensorboard TensorBoard 是一套 Web 应用程序,用于检查和了解 TensorFlow 运行和图表。TensorBoard 设计为完全离线运行,无需访问互联网。例如,这可能位于您的本地计算机上、公司防火墙后面或数据中心中。

  • PAIR-code/facets 包含两个用于理解和分析机器学习数据集的可视化效果:Facets Overview 和 Facets Dive。可视化作为 Polymer Web 组件实现,由 Typescript 代码提供支持,可以轻松嵌入到 Jupyter 笔记本或网页中。

  • OpenRefine/OpenRefine 基于 Java 的强大工具,它允许您加载数据、理解数据、清理数据、协调数据,并使用来自 Web 的数据进行扩充。所有这些都来自网络浏览器以及您自己计算机的舒适性和隐私性。

  • guipsamora/pandas_exercises 练习python Pandas库, 名字衍生自术语 ”panel data”(面板数据)和 ”Python data analysis”(Python 数据分析),提供高性能、易于使用的数据结构和数据分析工具。

  • whylabs/whylogs 用于机器学习模型和数据管道的开源数据记录库。提供对数据质量和模型性能随时间变化的可见性。支持隐私保护数据收集,确保安全性和稳健性。

  • great-expectations/great_expectations 由数据工程师设计并为数据工程师设计的数据质量平台。它可以帮助您快速、清晰地发现问题,同时还可以更轻松地与非技术利益相关者协作。

  • China-UK-ZSL/Resources_for_KZSL KZSL:对知识驱动的零样本学习进行基准测试.用于零样本图像分类 ( ZS-IMGC)、零样本关系提取 ( ZS-RE) 和零样本知识图 (KG) 完成 ( ZS-KGC )

  • Jianf-Wang/RSG 可以在训练过程中生成稀有类样本,并且可以与任何骨干网络相结合。RSG 仅用于训练阶段,因此在测试阶段不会给骨干网带来额外的负担。

  • baifanxxx/awesome-active-learning 很棒的主动学习精选列表。主动学习是机器学习的特殊情况,它可以与专家进行交互(或其他信息源),再使用输出的新样本进行学习。

  • salesforce/OmniXAI 用于可解释 AI (XAI) 的 Python 机器学习库,提供全向可解释 AI 和可解释机器学习功能,以解决实践中解释模型做出的决策时的许多痛点。

  • NVIDIA/nvidia-container-toolkit NVIDIA 容器工具包允许用户构建和运行 GPU 加速容器。该工具包包括一个容器运行时库和实用程序,用于自动配置容器以利用 NVIDIA GPU。

  • huggingface/optimum 性能优化工具,AI 生态发展迅速,越来越多的专用硬件及其优化每天都在涌现,可实现在目标硬件上训练和运行模型的最高效率。

  • allegroai/clearml ClearML - 自动神奇的 CI/CD,可简化您的 AI 工作负载。实验管理、数据管理、管道、编排、调度和服务在一个 MLOps/LLMOps 解决方案中

  • swyxio/ai-notes 软件工程师了解新 AI 开发速度的说明。用latent.space 编写和产品头脑风暴的数据存储,但已清理 /Resources 文件夹下的规范引用。

  • NVIDIA/DeepLearningExamples 按模型组织的最先进的深度学习脚本 - 易于训练和部署,在企业级基础架构上具有可重现的准确性和性能。最新 NVIDIA 示例。

  • YyzHarry/imbalanced-regression 深度不平衡回归(DIR)旨在从具有连续目标的不平衡数据中学习,解决某些区域的潜在缺失数据,并推广到整个目标范围。

  • facebookincubator/AITemplate Python 框架,可将神经网络渲染为高性能 CUDA/HIP C++ 代码。 专门用于 FP16 TensorCore(NVIDIA GPU)和 MatrixCore(AMD GPU)推理。

  • activeloopai/Hub AI的数据集格式。为深度学习构建、管理和可视化数据集。将数据实时流式传输到PyTorch/TensorFlow并对其进行版本控制。

  • pytorch/tutorials PyTorch 教程。熟悉 PyTorch 概念和模块。在本快速入门指南中了解如何加载数据、构建深度神经网络、训练和保存模型。

  • chenyuntc/pytorch-book 书籍《深度学习框架PyTorch:入门与实践(第2版)》的对应代码,但是也可以作为一个独立的PyTorch入门指南和教程。

  • vikasverma1077/manifold_mixup 数据增强⽅法,目标是通过插入示例的隐藏状态来学习鲁棒的特征。 我们的方法学习到的表征更具判别性和紧凑性。

  • heheda12345/MagPy MagPy 是 PyTorch 程序的 JIT 编译器。它可以从 PyTorch 程序中提取运算符图,并使用各种深度学习图编译器来优化图。

  • CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers 又名“黑客的贝叶斯方法”:介绍贝叶斯方法+概率编程,以计算/理解为先,数学为第二的观点。一切都在纯python

  • PaddlePaddle/PaddleHub 基于PaddlePaddle的真棒预训练模型工具包。(400+模型,包括图像,文本,音频,视频和跨模态,易于推理和服务)

  • vespa-engine/vespa 开放的大数据服务引擎。开放的大数据服务引擎 - 在服务时存储、搜索、组织和对大数据进行机器学习推理。

  • PKU-DAIR/mindware 一个高效的开源 AutoML 系统,用于自动化机器学习生命周期,包括特征工程、神经架构搜索和超参数调整。

  • ujjwalkarn/Machine-Learning-Tutorials 包含机器学习和深度学习教程、文章和其他资源的主题精选列表。其他很棒的列表可以在此列表中找到。

  • rayon-rs/rayon Rust 的数据并行库。它非常轻巧,可以轻松地将顺序计算转换为并行计算。它还保证了数据竞争的自由。

  • wuba/dl_inference 通用深度学习推理工具,可在生产环境中快速上线由TensorFlow、PyTorch、Caffe框架训练出的深度学习模型。

  • tracel-ai/burn 使用 Rust 构建的新的综合动态深度学习框架,其主要目标是极高的灵活性、计算效率和可移植性。

  • lexfridman/mit-deep-learning 麻省理工学院深度学习相关课程的教程、作业和竞赛。deeplearning.mit.edu

  • dusty-nv/jetson-inference Hello AI World 指南,介绍如何使用 TensorRT 和 NVIDIA Jetson 部署深度学习推理网络和深度视觉基元。

  • PaddlePaddle/models 飞桨产业级开源模型库,官方维护,PaddlePaddle支持,包括CV、NLP、Speech、Rec、TS、大模型等。

  • mars-project/mars 基于张量的统一框架,用于大规模数据计算,可扩展numpy,pandas,scikit-learn和Python函数。

  • 4paradigm/OpenMLDB 一个开源机器学习数据库,它提供了一个计算一致特征的特征平台,用于训练和推理。

  • lanpa/tensorboardX PyTorch的张量板(以及Chainer,MXNET,Numpy等)。使用简单的函数调用编写张量板事件。

  • Unstructured-IO/unstructured 开源库和 API,用于构建用于标记、训练或生产机器学习管道的自定义预处理管道。

  • pola-rs/polars 速度极快的 DataFrames 库,使用 Apache Arrow Columnar Format 作为内存模型在 Rust 中实现。

  • aws/amazon-sagemaker-examples 示例 Jupyter 笔记本,演示如何使用 Amazon SageMaker 构建、训练和部署机器学习模型

  • mljar/mljar-supervised 用于表格数据 AutoML 的 Python 包,具有特征工程、超参数优化、解释和自动文档

  • plotly/dash 下载量最大,最值得信赖的Python框架,用于构建ML和数据科学Web应用程序。

  • google-deepmind/sonnet 基于 TensorFlow 2 构建的库,旨在为机器学习研究提供简单、可组合的抽象。

  • polyaxon/traceml 用于机器学习/数据跟踪、可视化、可解释性、漂移检测和仪表板的引擎。

  • huggingface/datasets 最大的 ML 模型即用型数据集中心,提供快速、易用和高效的数据处理工具

  • flyteorg/flyte 可扩展且灵活的工作流编排平台,可无缝统一数据、ML 和分析堆栈。

  • trekhleb/homemade-machine-learning 流行的机器学习算法的Python示例,并解释了交互式Jupyter演示和数学

  • microsoft/Semi-supervised-learning 统一的半监督学习基准,可应用于人脸识别、语音识别和音频分类

  • huggingface/candle Rust 的极简主义 ML 框架,专注于性能(包括 GPU 支持)和易用性。

  • davisking/dlib 用于在 C++ 中制作真实世界机器学习和数据分析应用程序的工具包

  • ctgk/PRML 实现Bishop的书“模式识别和机器学习”中描述的算法的Python代码

  • rasbt/python-machine-learning-book “Python Machine Learning (1st edition)” 一书代码存储库和信息资源

  • metabase/metabase 以最简单、快捷的方式为公司中的每个人提供商业智能和分析

  • fastai/numerical-linear-algebra 用于计算线性代数课程 fast.ai Jupyter 笔记本的免费在线教科书

  • owainlewis/awesome-artificial-intelligence 人工智能 (AI) 课程、书籍、视频讲座和论文的精选列表。

  • probml/pml-book “概率机器学习”——凯文·墨菲 (Kevin Murphy) 的系列丛书

  • dair-ai/ml-visuals 包含图形和模板,重复使用和自定义以改进您的科学写作。

  • ahkarami/Deep-Learning-in-Production 有关在生产中部署基于深度学习的模型的有用说明和参考。

  • MegEngine/MegCC 一个运行时超轻量,高效,移植简单的深度学习模型编译器

  • dabl/dabl 数据分析基线库,当前主要侧重于探索性可视化和预处理。

  • mindsdb/mindsdb 使用 SQL语法,在数据库和数据仓库启用机器学习工作流。

  • BrainJS/brain.js GPU 加速了适用于浏览器和 Node.js 的 JavaScript 中的神经网络

  • bentoml/BentoML ML模型服务框架.创建部署和扩展机器学习服务变得容易。

  • iterative/dvc Data 版本控制、用于数据和模型的 Git、机器学习实验管理

  • 4paradigm/AutoX 高效的 automl 工具,针对具有表格数据的数据挖掘任务。

  • ashleve/lightning-hydra-template PyTorch Lightning + Hydra。一个非常用户友好的 ML 实验模板。

  • aws/sagemaker-python-sdk 用于在 Amazon SageMaker 上训练和部署机器学习模型的库

  • Netflix/metaflow 轻松构建和管理现实生活中的 ML、AI 和数据科学项目

  • merrymercy/awesome-tensor-compilers 张量计算和深度学习的出色编译器项目和论文列表。

  • tensorflow/tfjs WebGL 加速的 JavaScript 库,用于训练和部署 ML 模型。

  • fbdesignpro/sweetviz 用一行代码可视化和比较数据集、目标值和关联。

  • AutoViML/AutoViz 使用一行代码自动可视化任何大小的任何数据集。

  • Kanaries/pygwalker 将 pandas 数据帧转换为交互式 UI 以进行可视化分析

  • HumanSignal/label-studio 具有标准化输出格式的多类型数据标注和标注工具

  • gradio-app/gradio 在 3 分钟内使用 Python 为您的机器学习模型创建 UI

  • aamini/introtodeeplearning 麻省理工学院 6.S191 实验室资料:深度学习简介

  • scikit-hep/awkward-1.0 使用类似 NumPy 的习语来处理类似 JSON 的数据。

  • paperswithcode/ai-deadlines 倒数计时,用于跟踪CV/NLP/ML/RO 会议截止日期。

  • kaidic/LDAM-DRW 使用标签分布感知边际损失学习不平衡数据集

  • ZhiningLiu1998/mesa 设计元知识驱动的采样器解决类别不平衡问题

  • probml/pyprobml Kevin Murphy的“概率机器学习”一书的Python代码

  • RadeonOpenCompute/ROCm ROCm - 用于 HPC 和超大规模 GPU 计算的开源平台

  • Speedml/speedml 一个Python包,用于加速启动机器学习项目。

  • zjhellofss/KuiperInfer 带你从零实现一个高性能的深度学习推理库

  • scikit-learn-contrib/MAPIE 用于估计预测间隔的 scikit-learn 兼容模块。

  • bokeh/bokeh 浏览器中的交互式数据可视化,来自 Python

  • nterpretml/interpret 适合可解释的模型。 解释黑盒机器学习。

  • JuliaLang/julia 用于科学计算的高级、高性能动态语言。

  • ydataai/ydata-profiling 从 pandas DataFrame 对象创建 HTML 分析报告

  • poloclub/cnn-explainer 使用交互式可视化学习卷积神经网络。

  • streamlit/streamlit 用 Python 构建数据应用程序的最快方法

  • google/tensorstore 用于读取和写入大型多维数组的库。

  • automl/auto-sklearn 使用 scikit-learn 进行自动化机器学习

  • NVIDIA-AI-IOT/torch2trt 易于使用的 PyTorch 到 TensorRT 转换器

  • facebookresearch/bitsandbytes 用于 8 位优化器和量化例程的库。

  • Hvass-Labs/TensorFlow-Tutorials 带有 YouTube 视频的 TensorFlow 教程

  • rougier/numpy-100 100 个 numpy 练习(含解决方案)

  • datastacktv/data-engineer-roadmap 2021 年成为数据工程师的路线图

  • lazyprogrammer/machine_learning_examples 机器学习示例和教程的集合。

  • MorvanZhou/tutorials 莫烦Python 机器学习相关教程

  • tensorflow/rust TensorFlow 的 Rust 语言绑定。

  • dair-ai/ML-Papers-Explained ML 中关键概念的解释

分布式机器学习

  • kubeflow/katib Katib 是一个用于自动化机器学习 (AutoML) 的 Kubernetes 原生项目。 Katib 支持超参数调优、提前停止和神经架构搜索。Katib 是一个与机器学习 (ML) 框架无关的项目。它可以调整以用户选择的任何语言编写的应用程序的超参数,并且本机支持许多机器学习框架,例如TensorFlow 、 Apache MXNet 、 PyTorch 、 XGBoost等。Katib 可以使用任何 Kubernetes自定义资源执行训练作业,并为Kubeflow Training Operator 、 Argo Workflows 、 Tekton Pipelines等提供开箱即用的支持。

  • FederatedAI/FATE FATE(Federated AI Technology Enabler)是全球首个工业级联邦学习开源框架,使企业和机构能够在保护数据安全和隐私的同时进行数据协作。它实现了基于同态加密和多方计算(MPC)的安全计算协议。FATE支持各种联邦学习场景,现在提供了大量的联邦学习算法,包括逻辑回归、基于树的算法、深度学习和迁移学习。

  • huggingface/accelerate 一个简单的API,将与多GPUTPU、fp16相关的样板代码抽离了出来,保持其余代码不变。PyTorch 用户无须使用不便控制和调整的抽象类或编写、维护样板代码,就可以直接上手多 GPU 或 TPU。Accelerate 支持的集成包括:CPU 单 GPU 单一节点多 GPU 多节点多 GPU TPU 带有本地 AMP 的 FP16.

  • alibaba/FederatedScope 综合性的联邦学习平台,为学术界和工业界的各种联邦学习任务提供方便的使用和灵活的定制。FederatedScope基于事件驱动的架构,集成了丰富的功能集合,以满足联邦学习日益增长的需求,旨在构建一个易于使用的平台,以安全有效地促进学习。

  • Oneflow-Inc/libai 基于OneFlow的大规模模型训练开源工具箱。支持丰富的并行训练配置,包括但不限于分布式训练、混合精度训练、后向重计算、ZeRO,多样化的训练技巧,同时支持视觉与自然语言处理任务、简单易用,便于上手。

  • hpcaitech/ColossalAI 用于大规模并行训练的统一深度学习系统,具有高效并行化技术的集成大规模模型训练系统。可以让您在几行代码内快速开始分布式训练,通过并行化策略、异构内存管理为深度学习任务加速或者节省显存。

  • BaguaSys/bagua 八卦是由快手科技和DS3 Lab共同开发的PyTorch深度学习训练加速框架。目前支持:高级分布式训练算法:用户只需添加几行代码(可选择弹性模式)即可将单个 GPU 上的训练扩展到多 GPU(可能跨多台机器)。

  • Xtra-Computing/FedTree 基于树的模型的联合学习系统。它的设计目的是高效、有效和安全。目前具有以下特点:梯度提升决策树的联合训练。多核 CPU 和 GPU 上的并行计算。支持同态加密、安全聚合和差分隐私。支持分类和回归。

  • Qihoo360/XLearning 支持多种机器学习、深度学习框架调度系统。基于Hadoop Yarn完成了对TensorFlow、MXNet、Caffe、Theano、PyTorch、Keras、XGBoost等常用框架的集成,同时具备良好的扩展性和兼容性。

  • microsoft/SynapseML 简单和分布式机器学习。基于 Apache Spark 分布式计算框架构建,与 SparkML/MLLib 库共享相同的 API,允许您将 SynapseML 模型无缝嵌入到现有的 Apache Spark 工作流程中。

  • horovod/horovod Uber开源的分布式训练框架。它的发展吸取了Facebook ”Training ImageNet In 1 Hour” 与百度 ”Ring Allreduce” 的优点,可为用户实现分布式训练提供帮助。

  • FMInference/FlexGen 高吞吐量的生成引擎,用于在GPU内存有限的情况下运行大型语言模型。FlexGen允许通过IO高效分载、压缩和大有效批处理大小生成高吞吐量。

  • alibaba/euler 大规模分布式的图学习框架,配合TensorFlow或者阿里内部的XDL等深度学习工具,可以支持数十亿点数百亿边的复杂异构图上进行模型训练。

  • ray-project/ray 提供用于构建分布式应用程序的简单通用API的开源框架。Ray与RLlib(可扩展的强化学习库和Tune(可扩展的超参数调优库)打包在一起。

  • petuum/adaptdl 一个能动态调整并行度的深度神经网络训练框架。它支持多租户集群管理,可以平衡模型训练等待及完成时间,能够提高资源利用率。

  • NousResearch/DisTrO 这是 DisTrO(互联网上的分布式训练)的存储库,这是一系列低延迟分布式优化器,可将 GPU 间通信要求降低三到四个数量级。

  • petuum/adaptdl 资源自适应深度学习(DL)训练和调度框架。AdaptDL的目标是使分布式DL在动态资源环境(如共享集群和云)中变得轻松高效。

  • Angel-ML/angel 用于大规模机器学习的灵活而强大的参数服务器。基于参数服务器理念的高性能分布式机器学习和图计算平台。

  • microsoft/DeepSpeedExamples 此存储库包含各种示例,包括训练、推理、压缩、基准测试和使用 DeepSpeed 的应用程序。

  • dask/dask 用Python编写的,是一个灵活的、开源的并行计算库,提供大规模性能 高级并行性。

  • sql-machine-learning/elasticdl Kubernetes原生的深度学习框架,支持容错和弹性调度,支持TensorFlow和PyTorch。

  • alibaba/Alink Alink是基于Flink的机器学习算法平台,由阿里巴巴计算平台的PAI团队开发。

  • kakaobrain/torchgpipe pytorch的可扩展管道并行性库,可有效地训练大型的,消耗内存的模型。

  • PKU-DAIR/Hetu 针对大规模和自动化分布式训练的高性能分布式深度学习系统。

  • microsoft/DeepSpeed 深度学习优化库,它使分布式训练变得容易,高效和有效。

  • kubeflow/kubeflow 用于机器学习操作的云原生平台 - 管道、训练和部署。

  • youngfish42/Awesome-Federated-Learning-on-Graph-and-Tabular-Data 图形和表格数据相关论文、框架和数据集的联邦学习。

  • uber/fiber 简化AI的分布式计算 该项目是实验性的,API不稳定。

  • tensorflow/mesh 简化模型并行化 Mesh TensorFlow: Model Parallelism Made Easier

  • learning-at-home/hivemind 一个用于在互联网上训练大型神经网络的库

  • facebookresearch/fairscale 用于高性能和大规模训练的 PyTorch 扩展。

  • microsoft/PersonalizedFL 面向研究的个性化联邦学习代码库

参数优化

异常检测

梯度提升和树模型

  • parrt/dtreeviz 用于决策树可视化和模型解释的 python 库。决策树是梯度提升机和随机森林 (tm) 的基本构建块,这可能是结构化数据中两种最流行的机器学习模型。在了解这些模型的工作原理和解释模型时,可视化决策树是一个巨大的帮助。可视化效果的灵感来自 R2D3 的教育动画;机器学习的视觉介绍。请参阅如何可视化决策树,以更深入地讨论我们的决策树可视化库和我们所做的可视化设计决策。目前 dtreeviz 支持:scikit-learn、XGBoost、Spark MLlib、LightGBM 和 Tensorflow。作者:特伦斯·帕尔 (Terence Parr) 是谷歌的技术主管,直到 2022 年,他是旧金山大学的数据科学/计算机科学教授,并于 2012 年担任旧金山大学数据科学硕士课程的创始主任。Tudor Lapusan ;Prince Grover。主要代码和可视化清理由 Matthew Epland (@mepland) 完成。

  • Microstrong0305/WeChat-zhihu-csdnblog-code Regression Tree 回归树 深入理解提升树(Boosting tree)算法 深入理解GBDT回归 GBDT二分类算法 GBDT多分类算法 XGBoost LightGBM CatBoost 深入浅出Word2Vec原理解析 Doc2vec原理解析及代码实践

  • catboost/catboost 一个快速、可扩展、高性能的决策树梯度提升库,用于 Python、R、Java、C++ 的排名、分类、回归和其他机器学习任务。 支持在 CPU 和 GPU 上进行计算。

  • dmlc/xgboost 可扩展、可移植和分布式梯度提升(GBDT、GBRT 或 GBM)库,适用于 Python、R、Java、Scala、C++ 等。 在单机、Hadoop、Spark、Dask、Flink 和 DataFlow 上运行。

  • microsoft/LightGBM 基于决策树算法的快速、分布式、高性能梯度提升(GBT、GBDT、GBRT、GBM 或 MART)框架,用于排名、分类和许多其他机器学习任务。

  • antmachineintelligence/mtgbmcode 提出了多任务梯度提升机 (MT-GBM),这是一种基于 GBDT 的多任务学习方法。MT-GBM 可以根据多任务损失找到共享树结构和拆分分支。

  • DataCanvasIO/HyperGBM 用于表格数据的完整管道 AutoML 工具, 涉及多个梯度提升树模型(GBM),即XGBoost、LightGBM和Catboost。

  • mesalock-linux/gbdt-rs MesaTEE GBDT-RS:一个快速且安全的 GBDT 库,支持 Intel SGX 和 ARM TrustZone 等 TEE

  • kingfengji/gcForest 这是论文“深度森林:走向深度神经网络的替代方案”的官方实现

  • tensorflow/decision-forests 一组最先进的算法,用于训练、服务和解释 Keras 决策森林模型。

  • motefly/DeepGBM 为在线预测任务提炼的深度学习GBDT框架

  • Xtra-Computing/thundergbm ThunderGBM:GPU 上的快速 GBDT 和随机森林

  • GBDT-PL/GBDT-PL 使用分段线性树进行梯度提升

  • augboost-anon/augboost 逐步特征增强的梯度提升。

  • LAMDA-NJU/Deep-Forest Deep Forest 2021.2.1的实现

  • hlamotte/decision-tree 在C++的决策树

特征工程

  • haifengl/smile Smile(统计机器智能和学习引擎)是Java和Scala中的快速而全面的机器学习,NLP,线性代数,图形,插值和可视化系统。凭借先进的数据结构和算法,Smile 可提供最先进的性能。

  • RUCAIBox/Negative-Sampling-Paper 该知识库收录了与负采样方法相关的 100 篇论文,涵盖推荐系统(RS)、计算机视觉(CV)、自然语言处理(NLP)和对比学习(CL)等多个研究领域。

  • aerdem4/lofo-importance LOFO(Leave One Feature Out)重要性基于选择的度量计算一组特征的重要性,对于选择的模型,通过迭代地从集合中删除每个特征,并评估模型的性能。

  • ResidentMario/missingno 灵活且易于使用的缺失数据可视化和实用程序,可让您快速直观地了解数据集的完整性(或缺乏完整性)。

  • imbalanced-learn 解决机器学习中不平衡数据集

  • FeatureLabs/featuretools 特征工程工具箱

  • ScienceKot/kydavra 特征筛选工具

神经网络结构搜索_Neural_Architecture_Search

A02_NLP自然语言处理

BERT优化

  • alexa/bort 论文 Optimal Subarchitecture Extraction for BERT. “ BERT的最佳子体系结构提取”的代码。Bort是用于BERT架构的最佳子集,它是通过对神经架构搜索应用完全多项式时间近似方案(FPTAS)提取的。 Bort的有效(即不计算嵌入层)大小是原始BERT大型体系结构的5.5%,是净大小的16%。它在CPU上也比基于BERT的速度快7.9倍,并且比体系结构的其他压缩变体和某些非压缩变体性能更好。与多个公共自然语言理解(NLU)基准上的BERT-large相比,它的平均性能提高了0.3%至31%。

  • ymcui/MacBERT MacBERT是一种改进的BERT,具有新颖的M LM校正预训练任务,它减轻了预训练和微调的差异。我们建议使用类似的词来进行掩蔽,而不是使用在微调阶段从未出现过的 [MASK] 令牌进行掩蔽。通过使用基于 word2vec (Mikolov et al., 2013) 相似度计算的Synonyms 工具包 (Wang and Hu, 2017)获得相似词。如果选择 N-gram 进行掩码,我们将单独找到相似的单词。在极少数情况下,当没有相似词时,我们会降级为使用随机词替换。

  • Sleepychord/CogLTX 可将当前类似BERT的预训练语言模型应用于长文本。使用动态规划算法将长文本划分为文本块集合;使用MemRecall对原长句中的子句进行打分:从而选择出分数最高的子句组成 再进行训练,这样一来的话,COGLTX相当于使用了了两个bert,MemRecall中bert就是负责打分,另一个bert执行原本的NLP任务。

  • bojone/bert-of-theseus BERT 模型压缩方法 ,theseus(忒修斯之船 如果忒修斯的船上的木头被 逐渐替换,直到所有的木头都不是原来的木头,那这艘船还是原来的那艘船吗?),将原始大模型切分为多个大模块,固定大模型权重,训练时随机替换为小模块,充分训练后,将小模型继续微调。

  • codertimo/BERT-pytorch 谷歌AI 2018 BERT pytorch实现。Google AI的BERT论文显示了各种NLP任务(新的17个NLP任务SOTA)的惊人结果,包括在SQuAD v1.1 QA任务上优于人类F1分数。本文证明了基于Transformer(自注意力)的编码器可以作为先前语言模型的替代方法,并采用适当的语言模型训练方法。

  • wtma/CharBERT 字符敏感的预训练语言模型 通过结合字符级别和词级别的信息实现了更为全面的输入编码,同时,结合 RNN 和 CNN 的优势,基本上 CNN,RNN,Transformer 都使用上了,体现了新老研究成果的结合在一定程度上能进一步提升方法的性能。

  • yitu-opensource/ConvBert ConvBERT,通过全新的注意力模块,仅用 1/10 的训练时间和 1/6 的参数就获得了跟 BERT 模型一样的精度。依图研发团队从模型结构本身的冗余出发,提出了一种基于跨度的动态卷积操作,并基于此提出了 ConvBERT 模型。

  • huawei-noah/Pretrained-Language-Model 华为诺亚方舟实验室开发的预训练语言模型及其相关优化技术NEZHA是一种经过预训练的中文语言模型,可以在多项中文NLP任务上实现最先进的性能TinyBERT是一种压缩的BERT模型,推理时可缩小7.5倍,加快9.4倍

  • Sleepychord/CogLTX 将BERT应用于长文本CogLTX遵循一种特别简单直观的范式,即抽取关键的句子=>通过BERT得到答案的两步流程。

  • Lisennlp/TinyBert 基于华为的TinyBert进行修改的,简化了数据读取的过程,方便我们利用自己的数据进行读取操作。

  • google-research/bert Bidirectional Encoder Representations from Transformers 来自Transformers的双向编码器表示法

  • brightmart/albert_zh 使用TensorFlow 进行自我监督学习语言表示的Lite Bert的实现预训练的汉语模型

  • epfml/collaborative-attention 整合多头注意力,任何经过预训练的注意力层重新配置为协作注意力层。

  • bojone/BERT-whitening 简单的线性变换(白化)操作,就可以达到BERT-flow的效果。

  • bojone/bert4keras 更清晰、更轻量级的keras版bert,提供丰富的应用例子。

  • ShannonAI/service-streamer 服务流媒体BERT服务,每秒处理1400个句子的BERT服务.

  • autoliuweijie/FastBERT 具有自适应推断时间的自蒸馏BERT pip install fastbert

  • ZhuiyiTechnology/WoBERT 以词为基本单位的中文BERT(Word-based BERT)

  • valuesimplex/FinBERT 基于 BERT 架构的金融领域预训练语言模型

  • google-research/ALBERT 用于语言表达自我监督学习的Lite BERT

  • thunlp/ERNIE 用知识图谱增强 BERT 的预训练效果

NLP语料和数据集

  • nyu-mll/glue GLUE,通用语言理解评估基准 (https://gluebenchmark.com/) 是用于训练、评估和分析自然语言理解系统的资源集合。GLUE 基准测试的排行榜可以在这个地址找到。它包括以下任务:ax:一个手动策划的评估数据集,用于对各种语言现象的系统性能进行细粒度分析。该数据集通过自然语言推理 (NLI) 问题评估句子理解。使用在 MulitNLI 上训练的模型来生成此数据集的预测。cola:语言可接受性语料库由来自语言学理论书籍和期刊文章的英语可接受性判断组成。每个示例都是一个单词序列,注释它是否是语法英语句子。mnli:多体裁自然语言推理语料库是一个带有文本蕴涵注释的句子对的众包集合。给定一个前提句和一个假设句,任务是预测前提是否包含假设(蕴涵),是否与假设相矛盾(矛盾),或者两者都不是(中性)。前提句子是从十个不同的来源收集的,包括转录的演讲、小说和政府报告。基准测试的作者使用标准测试集,他们从RTE作者那里获得了自有标签,并在匹配(域内)和不匹配(跨域)部分进行评估。他们还使用并推荐 SNLI 语料库作为辅助训练数据的 550k 示例。mnli_matched:匹配的验证和测试从 MNLI 拆分。mnli_mismatched:不匹配的验证和测试从 MNLI 拆分。mrpc:Microsoft研究释义语料库(Dolan&Brockett,2005)是一个从在线新闻来源自动提取的句子对语料库,并带有人工注释,用于确定该对中的句子在语义上是否等价。qnli:斯坦福问答数据集是一个由问题-段落对组成的问答数据集,其中段落中的一个句子(来自维基百科)包含相应问题的答案(由注释者编写)。基准测试的作者通过在相应上下文中的每个问题和每个句子之间形成一对,并过滤掉问题和上下文句子之间词汇重叠程度低的对,将任务转换为句对分类。任务是确定上下文句子是否包含问题的答案。原始任务的修改版本删除了模型选择确切答案的要求,但也删除了简化的假设,即答案始终存在于输入中,并且词汇重叠是可靠的提示。qqp:Quora Question Pairs2 数据集是来自社区问答网站 Quora 的问题对集合。任务是确定一对问题在语义上是否等价。rte:识别文本蕴涵 (RTE) 数据集来自一系列年度文本蕴涵挑战。基准测试的作者结合了来自RTE1(Dagan等人,2006),RTE2(Bar Haim等人,2006),RTE3(Giampiccolo等人,2007)和RTE5(Bentivogli等人,2009)的数据。示例是根据新闻和维基百科文本构建的。基准测试的作者将所有数据集转换为两类拆分,对于三类数据集,为了保持一致性,他们将中立和矛盾折叠为非蕴涵。sst2:斯坦福情感树库由电影评论中的句子和他们情感的人类注释组成。任务是预测给定句子的情绪。它使用双向(正/负)类拆分,仅带有句子级标签。stsb:语义文本相似性基准(Cer et al., 2017)是从新闻标题、视频和图像标题以及自然语言推理数据中提取的句子对的集合。每对都经过人工注释,相似度分数从 1 到 5。wnli:Winograd Schema Challenge (Levesque et al., 2011) 是一项阅读理解任务,其中系统必须阅读带有代词的句子,并从选项列表中选择该代词的指称。这些示例是手动构建的,以挫败简单的统计方法:每个示例都取决于句子中单个单词或短语提供的上下文信息。为了将问题转换为句子对分类,基准测试的作者通过将模棱两可的代词替换为每个可能的指称来构造句子对。任务是预测替换代词的句子是否由原始句子引起。他们使用一个小型评估集,该评估集由源自小说书籍的新示例组成,这些示例由原始语料库的作者私下共享。虽然包含的训练集在两个类之间是平衡的,但测试集在它们之间是不平衡的(65% 不是蕴涵)。此外,由于数据怪癖,开发集是对抗性的:假设有时在训练和开发示例之间共享,因此如果模型记住了训练示例,它们将预测相应开发集示例上的错误标签。与 QNLI 一样,每个示例都是单独评估的,因此模型在此任务上的分数与其在未转换的原始任务上的分数之间没有系统的对应关系。基准测试的作者调用转换数据集 WNLI (Winograd NLI)。GLUE中的语言数据为英语 (BCP-47 en )。

  • THUIR/T2Ranking 中国的大型排名基准。在信息检索(IR)领域,对于学术界和工业界来说,段落排名都是重要且具有挑战性的话题。段落排名的目标是编译一个搜索结果列表,根据与大型段落集合中的查询的相关性排序。通常,段落排名包括两个阶段:段落检索和段落重新排名。为了支持段落排名研究,构建了各种基准数据集。然而,用于段落排名的常用数据集通常集中在英语上。对于非英语场景,例如中文,现有数据集在数据规模、细粒度相关性标注和漏报问题等方面存在局限性。为了解决这个问题,我们引入了 T 2 Ranking,这是一个大规模的中国通过排名基准。T 2 Ranking 包括超过 300K 个查询和超过 2M 个来自真实世界搜索引擎的独特段落。具体来说,我们从搜狗搜索引擎的用户日志中抽取基于问题的搜索查询,搜狗搜索引擎是中国流行的搜索系统。对于每个查询,我们从不同的搜索引擎中提取相应文档的内容。经过基于模型的段落分割和基于聚类的段落重复数据消除,得到大规模的段落语料库。对于给定的查询及其相应的段落,我们聘请专家注释员为每个查询-段落对提供 4 级相关性判断。与现有数据集相比,T 2 Ranking数据集具有以下特点和优势:该数据集聚焦于中文搜索场景,与现有的中文段落排名数据集相比,在数据尺度上具有优势,可以更好地支持深度学习算法的设计;该数据集具有大量的细粒度相关标注,有助于挖掘查询和段落之间的细粒度关系,构建更准确的排序算法;通过从多个商业搜索引擎中检索段落结果并提供完整的注释,在一定程度上缓解了假阴性问题,有利于提供更准确的评估;我们设计了多种策略来保证数据集的高质量,例如使用段落段模型和段落聚类模型来增强段落的语义完整性和多样性,并采用主动学习的注释方法来提高数据注释的效率和质量。

  • defunct-datasets/amazon_us_reviews 亚马逊买家评论(又名产品评论)是亚马逊的标志性产品之一。自 1995 年首次评论以来的二十多年里,数百万亚马逊客户贡献了超过 1 条评论,以表达意见并描述他们对 Amazon.com 网站上产品的体验。这使得亚马逊买家评论成为自然语言处理 (NLP)、信息检索 (IR) 和机器学习 (ML) 等领域的学术研究人员的丰富信息来源。因此,我们将发布这些数据,以进一步研究与了解客户产品体验相关的多个学科。具体来说,该数据集的构建是为了表示客户评估和意见的样本、不同地理区域对产品的看法变化以及评论中的促销意图或偏见。作为此版本的一部分,研究人员可以获得超过 130+ 百万条客户评论。这些数据以 AWS 美国东部区域的 amazon-reviews-pds S3 存储桶中的 TSV 文件形式提供。数据文件中的每一行对应于一个单独的审阅(制表符分隔,没有引号和转义字符)。每个数据集都包含以下列: marketplace - 撰写评论的商城的 2 个字母的国家/地区代码。customer_id - 随机标识符,可用于汇总单个作者撰写的评论。review_id - 审阅的唯一 ID。product_id - 与评价相关的唯一商品编号。在多语言数据集中,同一产品在不同国家/地区的评论可以按同一product_id分组。 product_parent - 可用于汇总同一产品评论的随机标识符。product_title - 产品的标题。 product_category - 可用于对评论进行分组的广泛产品类别(也用于将数据集分组为连贯的部分)。star_rating - 评论的 1-5 星评级。helpful_votes - 有用的票数。total_votes - 评论收到的总票数。vine - 评论是作为 Vine 程序的一部分编写的。verified_purchase - 评论是针对已验证的购买。review_headline - 评论的标题。review_body - 评论文本。review_date - 撰写评论的日期。

  • shareAI/ShareGPT-Chinese-English-90k 高质量的中英并行双语人机QA数据集,覆盖真实复杂场景下的用户问题。它用于训练高质量的对话模型(在指令分发方面比那些通过反复调用 API 接口来模拟机器生成的问答生成的数据集更健壮,如 Moss) 特征:提供语义完全等效的中英并行语料库,方便双语对话模型训练。所有问题都是来自用户的真实询问,而不是通过人工想象或 API 轮询(如 Moss)捏造的,更贴近用户场景的真实分布及其问题表达。ShareGPT 数据集是通过网民自愿分享收集的,充当自然过滤器(通过人类感知),筛选出大多数体验不佳的对话。注意:此数据集是在 ChatGPT 出现认知能力显着下降迹象之前收集的。(据推测,这可能部分是因为官方将 150B gpt3.5 替换为大约 10B 的蒸馏版本以减少开支,部分原因是引入更多拒绝响应导致模型连接知识和逻辑的能力下降。中英文平行双语优质人机问答数据集,覆盖真实复杂场景下的用户提问。用于训练高质量的对话模型 (比那些通过反复调用api接口生成机器模拟问答的数据在指令分布上更鲁棒) 特点:1.同时提供意义表达完全相同的中英文平行对照语料,可进行双语对话模型训练。2.所有问题均非人为臆想加上api轮询拟造的假数据(如Moss),更加符合真实用户场景的指令分布和提问表达。3.sharegpt数据集是由网友自发分享而收集到的,相当于有一层非常天然的过滤(通过人类感觉),筛除了大部分体验不好的对话。

  • BAAI/COIG-PC COIG-PC数据集是一个精心策划和全面的中文任务和数据集合,旨在促进中文自然语言处理(NLP)语言模型的微调和优化。该数据集旨在为研究人员和开发人员提供一套丰富的资源,以提高语言模型处理中文文本的能力,可用于文本生成、信息提取、情感分析、机器翻译等各个领域。COIG-PC 数据集是自然语言处理 (NLP) 领域的宝贵资源,原因有很多:解决语言复杂性:汉语以其错综复杂、字符种类繁多和语法结构多样而闻名。像 COIG-PC 这样专为中文量身定制的专用数据集对于在模型训练期间充分解决这些复杂性至关重要。全面的数据聚合:COIG-PC数据集是整合市场上几乎所有可用的中文数据集的广泛努力的结果。这种全面的聚合使其成为中国 NLP 最详尽的集合之一。重复数据删除和规范化:COIG-PC 数据集经过严格的手动处理,以消除重复数据并执行规范化。这确保了数据集没有冗余,数据一致且结构良好,使其对模型训练更加用户友好和高效。微调和优化:数据集基于指令的措辞有助于更好地微调和优化语言模型。这种结构使模型能够更好地理解和执行任务,这对于提高看不见或新任务的性能特别有益。COIG-PC数据集具有全面的汇总、细致的选择、重复数据删除和规范化功能,是训练和优化针对中国语言和文化量身定制的语言模型的无与伦比的资源。它解决了中文语言处理的独特挑战,并成为中文NLP进步的催化剂。

  • yahma/alpaca-cleaned 这是斯坦福大学发布的原始羊驼数据集的清理版本。Alpaca 是一个由 OpenAI text-davinci-003 引擎生成的 52,000 条指令和演示的数据集。此指令数据可用于对语言模型进行指令调整,并使语言模型更好地遵循指令。以下问题已在原始版本中发现,并在此数据集中修复:幻觉:原始数据集中的许多指令都有引用互联网数据的指令,这只会导致 GPT3 产生幻觉答案。合并指令:由于某种原因,在原始数据集中有许多指令被合并在一起。空输出:原始数据集中的某些条目的输出为空。空代码示例:原始数据集中的某些描述缺少代码示例,因此难以理解代码的预期行为。生成图像的说明:原始数据集中的一些描述包括生成图像的说明,这显然是不可能的。N/A 输出:原始数据集中的某些代码片段具有 N/A 输出。输入字段不一致:原始数据集在输入字段本应为空时,其输入字段的使用不一致。错误答案:原始数据集中的某些说明/问题有不正确的答案。据估计,大约 80% 的数学问题都有不正确的答案。无意义/不清楚的指令:许多指令不清楚,如果指令不明确,我们会尝试澄清(或重写)指令。稍微不清楚但可以推断出含义的说明不会改变。无关的转义和控制字符:原始数据集具有多个具有无关转义和控制字符的条目。Alpaca 中的数据是英文的 (BCP-47 en)。

  • BAAI/CCI-Data 随着大型语言模型的快速发展,工业界和学术界对高质量数据集的需求也在不断增长。这些数据集不仅需要包含海量信息,还需要严格的筛选和清理,以确保其准确性以及下游模型和应用程序的安全性。然而,目前业内流行的公共数据集存在一定的质量和安全风险,尤其是在中国领域,优质数据集尤其缺乏。此外,构建一个安全的中文数据集也面临着许多挑战。因此,构建一个经过严格筛选和标准化处理的数据集,对于公司的LLMs创新发展尤为重要。我们的CCI(中国语料库互联网)数据集由来自中国大陆互联网站点的高质量,值得信赖的来源组成。它经过了严格的数据清理和重复数据删除,在内容质量方面进行了有针对性的检测和过滤。数据处理的规则包括:基于规则的过滤:基于密度的提取、关键词过滤、垃圾信息过滤、简体中文和繁体中文的转换等。基于模型的过滤:通过训练分类模型过滤低质量内容。重复数据删除:数据集内和数据集之间的重复数据删除。此外,针对预训练数据规模大、容易导致评价数据泄露的问题,在数据处理阶段,我们特意对当前几个主流的中国评价数据集进行了严格的筛选和过滤。发布的 CCI 语料库 (CCI v1.0.0) 大小为 104GB。数据集的总时间跨度为 2001 年 1 月至 2023 年 11 月。

  • lupantech/ScienceQA 科学问答,这是一个新的基准,由 ~21k 多模态多项选择题组成,具有多种科学主题及其答案的注释以及相应的讲座和解释。我们进一步设计语言模型,以学习生成讲座和解释作为思维链 (CoT),以在回答 ScienceQA 问题时模仿多跳推理过程。ScienceQA 展示了 CoT 在语言模型中的实用性,因为 CoT 在少样本 GPT-3 中将问答性能提高了 1.20%,在微调的统一 QA 中提高了 3.99%。ScienceQA 是从小学和高中科学课程中收集的,包含 21,208 个多模态多项选择科学问题。在ScienceQA的问题中,10,332个(48.7%)有图像上下文,10,220个(48.2%)有文本上下文,6,532个(30.8%)两者兼而有之。大多数问题都附有扎实的讲座(83.9%)和详细的解释(90.5%)。讲座和讲解分别提供了一般的外部知识和得出正确答案的具体原因。据我们所知,ScienceQA是第一个对讲座和答案解释进行注释的大规模多模态数据集。与以前的数据集相比,ScienceQA 具有更丰富的领域多样性,来自自然科学、语言科学和社会科学三个学科。每个科目的问题首先按主题(生物、物理、化学等)分类,然后按类别(植物、细胞、动物等)分类,最后按技能(将水果和蔬菜分类为植物部分,识别非洲国家等)。ScienceQA 具有 26 个主题、127 个类别和 379 项技能,涵盖广泛的领域。

  • togethercomputer/RedPajama-Data-1T RedPajama 是 LLaMa 数据集的洁净室、完全开源的实现。主要是英语,尽管维基百科切片包含多种语言。创建此数据集是为了尽可能密切地跟踪 LLaMa 论文,以尝试重现其配方。我们从 Commoncrawl 下载了 5 个转储,并通过官方 cc_net 管道运行这些转储。然后,我们在段落级别进行重复数据删除,并使用经过训练的线性分类器过滤掉低质量的文本,该分类器将段落分类为维基百科参考文献或随机 Commoncrawl 样本。C4 是从 Huggingface 下载的。唯一的预处理步骤是将数据转换为我们自己的格式。原始 GitHub 数据是从 Google BigQuery 下载的。我们在文件级别进行重复数据删除并过滤掉低质量的文件,并且只保留在 MIT、BSD 或 Apache 许可下分发的项目。我们使用 Huggingface 上提供的维基百科数据集,该数据集基于 2023-03-20 的维基百科转储,包含 20 种不同语言的文本。数据集采用预处理格式,因此删除了超链接、注释和其他格式样板。ArXiv 数据从 arxiv 请求方付款存储桶中的 Amazon S3 下载。我们只保留源文件,并删除序言、注释、宏和参考书目。数据集的 Stack Exchange 拆分可从 Internet Archive 下载。在这里,我们只保留来自 28 个最大网站的帖子,删除 html 标签,将帖子分组为问答对,并按分数对答案排序。

  • b-mc2/sql-create-context 有 78,577 个自然语言查询、SQL CREATE TABLE 语句和 SQL 查询示例,这些示例使用 CREATE 语句作为上下文来回答问题。此数据集在构建时LLMs考虑了文本到 sql,旨在防止在文本到 sql 数据集上训练时经常出现列名和表名的幻觉。CREATE TABLE 语句通常可以从不同的 DBMS 复制和粘贴,并提供表名、列名及其数据类型。通过仅提供 CREATE TABLE 语句作为上下文,我们有望为模型提供更好的基础,而无需提供实际的数据行,从而限制令牌的使用和对私有、敏感或专有数据的暴露。对WikiSQL和Spider的合并数据进行了清理和数据增强。我在 Spider 和 WikiSQL 的查询中使用了 SQLGlot,并将它们解析为不同的表和列,然后根据 > < 运算符的使用以及 SUM on 列的使用 MIN MAX AVG 来推断列数据类型。虽然这并不完美,但它增加了推断列的正确数据类型的可能性,否则列默认为 VARCHAR 类型。然后,这些表和列用于使用推断类型的 CREATE TABLE 语句。再次使用 SQLGlot 来确保 SQL 查询和 CREATE TABLE 语句都分析没有错误。某些没有列名的查询(例如 SELECT * FROM 表)在 CREATE TABLE 语句中添加了默认的 Id 列。其他一些使用泛型 table 作为 FROM 表的查询已更改为 的 table_name_1 变体或其他数字,这也反映在 CREATE TABLE 语句中。

  • BAAI/Infinity-Instruct 指令数据的质量和规模对于模型性能至关重要。最近,开源模型越来越依赖于包含数百万个实例的微调数据集,因此需要高质量和大规模。然而,开源社区长期以来一直受到构建如此广泛和高质量的指令微调数据集的高成本的制约,这限制了相关的研究和应用。为了弥补这一差距,我们推出了 Infinity Instruct 项目,旨在开发一个大规模、高质量的指令数据集。为了构建一个千万级的高质量指令数据集,我们收集了大量的开源数据作为种子,并使用指令选择和指令演化两种策略对数据集进行迭代。我们建议应用基础数据集,其中包含从开源数据集中选择的数百万条指令,以提高模型在具有挑战性的下游任务(例如,代码、数学)上的性能。我们建议应用聊天数据集,其中包含从一小部分高质量种子数据演变而来的大约 1M 条指令,以进一步提高模型在真实对话场景中的指令跟随能力。我们的数据集版本信息如下:从开源社区收集大规模的指导数据。数据源如下所示:OpenHermes-2.5、UltraInteract_sft、CodeBagel、CodeFeedback-Filtered-Instruction、self-oss-instruct-sc2-exec-filter-50k、CodeExercise-Python-27k、Evol-Instruct-Code-80k-v1、MathInstruct、orca-math-word-problems-200k、MetaMathQa。

  • 中文成语语义推理数据集(CINLID) ](https://www.luge.ai/#/luge/dataDetail?id=39) 收集了106832条由人工撰写的成语对(含少量歇后语、俗语等短文本),通过人工标注的方式进行平衡分类,标签为entailment、contradiction和neutral,支持自然语言推理(NLI)的任务。entailment:表示含义很接近,前者涵盖了后者或者语义完全相同,即近义词或者同义词/等义词。如开心、快乐;美丽、漂亮。它对应于上述提及的同一关系、包含关系。neutral:表示语义上无明显关联性、不属于同一语义范畴的词汇。它对应于上述提及的分离关系。contradiction:表示两个含义相反的词,包括绝对反义词和相对反义词2类,即分为成对的意义相反、互相对立的词。如:真——假,动——静,拥护——反对。这类反义词所表达的概念意义互相排斥。或成对的经常处于并举、对立位置的词。如:黑——白,高山——平地。这类反义词没有矛盾对立关系,但对比鲜明。这种情况较复杂,它对应于上述提及的分离关系和重叠关系。比如,黑、白虽是反义,但都同属颜色这个大类,有一定的主题重叠关系;但它们的方向相反,有一定的分离倾向,对应上述提及的重叠关系。注:训练集80124 条,测试集26708条。

  • UNCorpus 联合国平行语料库 联合国平行语料库 v1.0 由公有领域的联合国正式记录和其他会议文件组成。这些文件大多以联合国六种正式语文提供。该语料库的当前版本包含 1990 年至 2014 年间生成和手动翻译的内容,包括句子级别的对齐方式。该语料库的创建是联合国对使用多种语文的承诺的一部分,也是对统计机器翻译(SMT)在大会和会议管理部(DGACM)翻译服务和联合国SMT系统(Tapta4UN)中日益增长的重要性的反应。语料库的目的是允许访问多语言语言资源,并促进各种自然语言处理任务(包括机器翻译)的研究和进展。为方便起见,该语料库还预先打包为特定语言的双文本和六种语言的平行语料库子集。联合国平行语料库不作任何明示或暗示的保证。联合国对联合国语料库所载资料的准确性或完整性不作任何具体保证或陈述。在任何情况下,联合国均不对声称因使用联合国语料库而招致或遭受的任何损失、责任、伤害或损害负责。使用联合国语料库的风险由用户自行承担。用户明确承认并同意,联合国不对任何用户的行为负责。如果用户对联合国语料库中提供的任何材料不满意,用户的唯一和排他性补救措施是停止使用联合国语料库。

  • liwu/MNBVC 中文互联网上最古老最神秘(没有之一)的里屋社区于2023.1.1庄重宣布:在英明神武的里屋管子带领下,决心发挥社区所长(哪都长),帮助开源社区长期更新一份最大的中文互联网语料集。Huggingface上的MNBVC数据集在逐渐更新中,请到https://github.com/esbatmop/MNBVC 获取未完成清洗的更多数据。MNBVC数据集包含数个子集:law_judgement: 来自法律文书的文本。gov_xuexiqiangguo: 来自学习强国的文本。gov_report: 来自政府工作报告的文本。co_ann_report: 企业年报文本。code_metadata: 代码元数据。qa_zhihu: 来自知乎的问答数据。qa_wikihow: 来自wikihow的问答数据。qa_mfa: 外交部问答数据。news_peoples_daily: 来自人民日报的文本数据。wikipedia: 来自维基百科的文本数据。qa_stackexchange: 来自StackExchange的问答数据。qa_chatgpt: 使用ChatGPT构造的问答语料,感谢genggui001贡献语料。math_qa : 和数学领域有关的问答数据。emath :中国数学爱好者论坛语料数据。math_chat: 和数学领域有关的对话数据数据,可以提升模型Chain of Thought的能力。crawler_oscar: 从CommonCrawl中清洗出来的通用文本数据。一些游戏的平行语料数据。Hogwarts_legacy : 霍格沃茨指遗。The_Wither_3 : 巫师三。

  • cerebras/SlimPajama-627B 数据集由 59166 个 jsonl 文件组成,压缩为 ~895GB。它是 Together 的 RedPajama 的清洁和重复数据删除版本。今天,我们发布了 SlimPajama,这是最大的广泛重复数据删除、多语料库、开源数据集,用于训练大型语言模型。SlimPajama 是通过清理和删除 Together 中的 1.2T 词元 RedPajama 数据集而创建的。通过过滤掉低质量的数据和重复项,我们能够删除 49.6% 的字节,将数据集从 1210B 缩减到 627B 令牌。我们相信 SlimPajama 提供最高质量和计算效率最高的数据来训练高达 627B 词元的运行。当上采样时,我们预计 SlimPajama 在万亿词元规模的训练中表现等于或优于 RedPajama-1T。除了数据之外,我们还发布了我们为创建 SlimPajama 而构建的工具。将 MinHashLSH 重复数据删除应用于像 RedPajama 这样的万亿个令牌数据集是无法使用现成的开源代码实现的。我们对现有解决方案进行了多项改进,以生成一个基础架构,该基础架构可以以分布式、多线程和内存高效的方式对万亿个令牌数据集执行 MinHashLSH 重复数据删除。今天,我们正在开源这个基础设施,使社区能够在未来轻松创建更高质量、广泛去重的数据集。

  • skylion007/OpenWebTextCorpus 旨在重现 OpenAI 的 WebText 数据集,详见此处。此发行版由布朗大学的 Aaron Gokaslan 和 Vanya Cohen 创建。以下文章概述了重现数据集所采取的步骤,并为那些寻求为其进一步发展做出贡献的人提供了信息。我们首先从 Reddit 提交数据集中提取所有 Reddit 帖子 URL。这些链接经过重复数据删除,过滤以排除非 html 内容,然后随机洗牌。然后,这些链接被并行分发到几台机器上供下载,并使用报纸python包提取所有网页。使用Facebook FastText,过滤掉了非英语网页。随后,使用局部敏感度哈希 (LSH) 识别近乎重复的文档。文档被散列成 5 克的集合,所有相似性阈值大于 0.5 的文档都被删除。其余文档被标记化,标记少于 128 的文档被删除。这从 8,013,769 个文档中留下了 38GB 的文本数据(使用 SI 单位为 40GB)。鉴于 OpenAI 发布的有关 WebText 和 GPT-2 的信息有限,我们承认数据集可能还有进一步改进的空间。因此,我们欢迎您的贡献和改进建议。我们希望这个数据集的可用性能够鼓励进一步复制 GPT-2 的工作,并被证明对其他项目有用。我们将很快在 master 分支上发布更多代码。

  • community-datasets/tapaco 从 Tatoeba 数据库中提取的 73 种语言的免费释义语料库。Tatoeba是一个主要面向语言学习者的众包项目。其目的是为特定的语言结构和单词提供例句和翻译。释义语料库是通过用 Tatoeba 句子和句子之间的等价链接填充图形来创建的,“意思是同一事物”。然后遍历此图以提取释义集。应用了几个与语言无关的过滤器和修剪步骤来删除无趣的句子。对三种语言进行的人工评估表明,推断出的释义中有一半到四分之三是正确的,剩下的大多数释义要么是正确的,要么是微不足道的,要么是中和形态学区别的近乎释义。该语料库共包含190万个句子,每种语言有200-25万个句子。它涵盖了一系列语言,据我们所知,没有其他释义数据集存在。释义检测和生成已成为 NLP 中的热门任务,并越来越多地集成到各种常见的下游任务中,例如机器翻译、信息检索、问答和语义解析。大多数现有数据集仅涵盖一种语言(在大多数情况下为英语)或少数语言。此外,一些释义数据集侧重于词汇和短语,而不是句子释义,而其他释义数据集则使用机器翻译(半)自动创建。

  • Skywork/SkyPile-150B 综合性的大规模中文数据集,专门用于大型语言模型的预训练。它源自广泛的可公开访问的中文互联网网页。为了确保其质量,采用了严格的过滤、广泛的重复数据删除和彻底的敏感数据过滤。此外,我们还利用 fastText 和 BERT 等高级工具过滤掉低质量的数据。SkyPile-150B数据集的可公开访问部分包含大约2.33亿个独特的网页,每个网页平均包含1000多个汉字。该数据集总共包括大约 1500 亿个令牌和 620 GB 的纯文本数据。SkyPile-150B数据集完全由中国数据组成。我们利用超过 200w 的规则和 BERT 基础模型来确定数据集中存在的敏感数据,并随后删除了我们检测到的任何有害条目。尽管我们尽了最大努力,但SkyPile-150B,鉴于其从公开可用的网页构建,可能包含敏感信息,例如电子邮件地址,电话号码或IP地址。我们已努力通过重复数据删除和低质量过滤来最大程度地减少这种情况,但 SkyPile-150B 的用户应保持警惕。互联网上充斥着潜在的有毒或有偏见的数据。我们已尝试使用特定的 URL 过滤方法来缓解此问题,但我们鼓励用户保持对这一潜在问题的意识。

  • CLUEbenchmark/DataCLUE 数据为中心的NLP基准和工具包。以数据为中心(Data-centric)的AI,是一种新型的AI探索方向。它的核心问题是如何通过系统化的改造你的数据(无论是输入或者标签)来提高最终效果。 传统的AI是以模型为中心(Model-centric)的,主要考虑的问题是如何通过改造或优化模型来提高最终效果,它通常建立在一个比较固定的数据集上。 最新的数据显示超过90%的论文都是以模型为中心的,通过模型创新或学习方法改进提高效果,即使不少改进影响可能效果并不是特别明显。有些人认为当前的人工智能领域, 无论是自然语言处理(如BERT) 或计算机视觉(ResNet), 已经存在很多成熟高效模型,并且模型可以很容易从开源网站如github获得;而与此同时,工业界实际落地 过程中可能有80%的时间用于 清洗数据、构建高质量数据集,或在迭代过程中获得更多数据,从而提升模型效果。正是看到了这种巨大的差别,在吴恩达等人的推动下这种 以数据为中心 (Data-centric)的AI进一步的系统化,并成为一个有具有巨大实用价值方法论。

  • uonlp/CulturaX 庞大的多语言数据集,拥有 167 种语言的 6.3 万亿个词元,专为大型语言模型 (LLM) 开发量身定制。我们的数据集通过严格的多阶段流水线进行细致的清理和重复数据删除,以实现模型训练的最佳质量,包括语言识别、基于 URL 的过滤、基于指标的清洗、文档细化和重复数据删除。我们在文档级别使用 MinHash 来实现不同语言数据集的模糊重复数据删除。我们的数据清理框架包括多种标准和阈值选择,以大量数据样本为指导,确保在各个方面进行全面的噪声过滤。CulturaX 在 HuggingFace 中完全向公众发布,以促进多语言的研究和进步LLMs。我们的数据集结合了 mC4(3.1.0 版)[1] 的最新版本和截至今年的所有可访问的 OSCAR 语料库,包括 20.19、21.09、22.01 和 23.01 [2]。经过深度清理和重复数据删除后,CulturaX 涉及 16TB 的镶木地板格式数据(解压缩后可扩展至 27TB)。我们数据集的一半以上专门用于非英语语言,以显着增加数据量并增强训练模型在多语言场景中的可行性。

  • HuggingFaceH4/no_robots 高质量的数据集,其中包含 10,000 条指令和演示,由熟练的人类注释者创建。此数据可用于监督微调 (SFT),以使语言模型更好地遵循指令。No Robots 是根据 OpenAI 的 InstructGPT 论文中描述的指令数据集建模的,主要由以下类别的单轮指令组成:No Robots 数据集专为指令微调预训练语言模型而设计,我们建议根据以下内容进行基准测试:MT-Bench:一个跨越 80 个对话和 10 个领域的多回合基准测试。AlpacaEval:一个单轮基准测试,用于评估聊天和指导 text-davinci-003 模型的性能。请注意,MT-Bench 和 AlpacaEval 依靠 LLMs GPT-4 来判断模型响应的质量,因此排名表现出各种偏差,包括对从 GPT 中提取的模型的偏好。因此,您可能会发现,从使用 No Robots 训练的模型中获得的分数低于其他合成数据集。因此,我们还建议在以下位置提交您的模型以供人工评估:Chatbot Arena:在头对头比较中对聊天模型进行实时、人工评估。No Robots 中的数据是英文的 (BCP-47 en)。

  • stingning/ultrachat 由 Turbo API 提供支持的开源、大规模和多轮对话数据。考虑到保护隐私等因素,我们不会直接使用互联网上的任何数据作为提示。为了保证生成质量,在生成过程中采用了两个独立的ChatGPT Turbo API,一个扮演用户生成查询的角色,另一个扮演响应的角色。我们通过精心设计的提示来指导用户模型,以模仿人类用户行为并迭代调用这两个 API。生成的对话经过进一步的后处理和过滤。ULtraChat由三个部分组成:关于世界的问题:该领域的对话数据来自与现实世界中的概念、实体和对象相关的广泛调查。涵盖的主题非常广泛,涵盖技术、艺术和创业等领域。写作和创作:该领域的对话数据是由从头开始写作/创作的需求驱动的,包括 AI 助手在创作过程中可能帮助的任何任务,从电子邮件撰写到制作叙事和戏剧等等。对现有材料的援助:该领域的对话数据是根据现有材料生成的,包括但不限于重写、延续、总结和推理,涵盖各种主题。

  • data.baai.ac.cn/ArabicText-2022 北京智源人工智能研究院认知模型与数据研究团队与埃及阿拉伯科技与海运学院(AASTMT)、亚历山大图书馆(BA)、阿布扎比阿联酋起源人工智能研究院(IIAI)等阿拉伯语国家和地区优势高校院所和科研机构合作,构建了目前全球数据量最大的开源阿拉伯语预训练数据集ArabicText 2022,可用于阿拉伯语语言模型的训练。通过对现有可用的阿拉伯语网络文本数据进行收集、整理、扩充和清洗,我们最终获得了200GB+的高质量预训练文本。在数据清洗过程中,我们基于支撑WuDaoCorpora的网页文本深度清洗工具WudaoCleaner,针对阿语进行了高度适配和优化,同时我们将开源的阿语文本清洗库ArabertPreprocessor融入清洗流程中,保证了清洗后的文本质量。相较于现有开源阿语文本数据集,我们此次开源的数据集的体量为全球最大,且新闻、资讯、百科等文字与知识富集类数据占比超过65%,有利于模型从数据中学习到更多的先验知识。

  • tatsu-lab/alpaca 由 OpenAI text-davinci-003 引擎生成的 52,000 条指令和演示的数据集。此指令数据可用于对语言模型进行指令调整,并使语言模型更好地遵循指令。作者基于 Self-Instruct 框架的数据生成管道进行构建,并进行了以下修改:生成指令数据的 text-davinci-003 引擎,而不是 davinci .编写了一个新的提示,明确要求text-davinci-003生成指令。使用了更激进的批量解码,即一次生成 20 条指令,这大大降低了数据生成的成本。通过摒弃分类指令和非分类指令之间的差异,简化了数据生成管道。每条指令只生成一个实例,而不是像 Self-Instructed 那样生成 2 到 3 个实例。这生成了一个指令跟踪数据集,其中包含以低得多的成本(不到 500 美元)获得的 52K 示例。在一项初步研究中,作者还发现,52K生成的数据比Self-Instruct发布的数据要多样化得多。Alpaca 数据集专为指令训练预训练语言模型而设计。Alpaca 中的数据是英文的 (BCP-47 en)。

  • allenai/prosocial-dialog 大规模的多轮英语对话数据集,用于教导会话代理按照社会规范对有问题的内容做出反应。ProsocialDialog 涵盖了各种不道德、有问题、有偏见和有毒的情况,包含鼓励亲社会行为的响应,这些响应基于常识性社会规则(即经验法则,RoT)。ProsocialDialog 通过人类与 AI 协作框架创建,由 58K 个对话组成,其中包含 331K 个话语、160K 个独特的 RoT 和 497K 个对话安全标签,并附有自由格式的理由。为了创建 ProsocialDialog,我们建立了一个人类与 AI 协作的数据创建框架,其中 GPT-3 生成潜在的不安全话语,众包工作者为它们提供亲社会响应。这种方法使我们能够规避两个实质性的挑战:(1)人类之间没有可用的大规模亲社会对话语料库,以及(2)要求人类写出不道德、有毒或有问题的话语可能会导致心理伤害(Roberts,2017;Steiger 等人,2021 年)。

  • 中文语言理解和生成评测基准-cuge CUGE包含高质量中文自然语言处理数据集、排行榜与在线评测平台,旨在构建全面系统的中文机器语言能力评测体系,形成多层次维度的评测方案,力求更加科学、规范、高质量地推进中文自然语言处理技术的标准评测。数据集包括:语言理解能力-词句级、语言理解能力-篇章级、信息获取及问答能力、语言生成能力、对话交互能力、多语言能力、数学推理能力。CUGE由北京智源人工智能研究院支持于2021年12月30日建成,委员单位由15个国内优势科研单位组成,旨在构建全面系统的中文机器语言能力评测体系,形成多层次维度的评测方案,力求更加科学、规范、高质量地推进中文自然语言处理技术的标准评测。自2023年1月开始,CUGE的研发及建设由清华大学人工智能研究院、中文中文信息学会计算语言学专业委员会共同支持。

  • m-a-p/Matrix 一个包含46900亿个词元的开源预训练数据集,这个包含中英文文本的双语数据集用于训练neo模型。数据集由多个组件组成,每个组件来自不同的来源,并在语言建模和处理中用于各种目的。以下是每个组件的简要概述:摘自 Common Crawl 项目,具有丰富多样的互联网文本,包括网站、博客、新闻文章等。编码相关数据的集合。由涵盖广泛学科的学术和研究论文组成,提供技术和特定领域的语言。包括一系列已出版书籍的文本,包括文学、非小说类、教科书等。主要以 Q&A 格式提供文本集合。包含学术考试中使用的各种教材和评估。来自各种新闻来源的文本集合,报道时事和新闻报道。来自各种百科全书来源的文章,不限于维基百科,涵盖了广泛的主题和信息。包括专利文件中的文本,提供发明及其应用的详细说明。

  • EleutherAI/lichess-puzzles 这是来自 Lichess 数据库的 ~1.5M 国际象棋谜题的集合,该数据库包含 ~3.9M 谜题(截至 2024-05-09)。《你能学会算法吗?从简单到困难的问题与循环网络的泛化“被包括在内,除了 26,079 个谜题,这些谜题不再出现在 Lichess 数据库中(假设它们可能出于充分的理由被删除)。对于每个谜题, ctx 都是一个实际的 Lichess 游戏的 SAN 成绩单(每个半步都有编号),直到谜题位置。请注意,这包括 Lichess 和 Easy-to-Hard 数据集中 Moves 列的第一次移动。target 是最好的下一步,在SAN中,具有领先的空间。此移动(列中 Moves 的第二步)通常与实际的 Lichess 游戏不同,后者可能包含错误。不包括拼图解决方案的其他动作。这种格式与“弱到强泛化”中使用的格式相匹配,并且这组谜题也旨在尽可能相似(除了 Lichess 删除的 26k)。

  • HuggingFaceTB/cosmopedia 由 Mixtral-8x7B-Instruct-v0.1 生成的合成教科书、博客文章、故事、帖子和 WikiHow 文章的数据集,该数据集包含超过 3000 万个文件和 250 亿个令牌,使其成为迄今为止最大的开放合成数据集。它涵盖了各种主题;我们试图映射 RefinedWeb 和 RedPajama 等 Web 数据集中存在的世界知识,并生成涵盖它们的合成内容。数据集由 8 个拆分组成,具体取决于拆分中使用的种子数据的来源。当我们要求不同的风格(例如学术教科书与博客文章)或受众(例如幼儿与大学生)时,一些种子样本可能会出现不止一次。例如,每个 stanford 示例都与 4 种不同的提示样式和受众一起使用,请查看 format 和 audience 列了解更多详细信息。我们观察到,相应地调整受众和提示风格可以显着增强多样性;通过MinHash消除重复的比例低于1%。

  • CohereForAI/aya_evaluation_suite 总共包含 26,750 个开放式对话式提示,用于评估多语言开放式生成质量。为了在语言覆盖率和人工策展的质量之间取得平衡,我们创建了一个评估套件,其中包括:人工策划的 7 种语言示例 ( tur, eng, yor, arb, zho, por, tel ) → aya-human-annotated .将精心挑选的示例机器翻译成 101 种语言 → dolly-machine-translated .人工译后编辑成 6 种语言 ( hin, srp, rus, fra, arb, spa ) → dolly-human-edited .包括 Aya Evaluation Suite 以下子集:aya-human-annotated:250 个人类编写的原始提示,每个提示有 7 种语言。dolly-machine-translated:来自 databricks-dolly-15k 的 200 个人工选择的提示,使用 NLLB 模型自动将英语翻译成 101 种语言(总共 114 种方言)。dolly-human-edited:200 个 dolly-machine 翻译的提示,由流利的演讲者对 6 种语言进行后期编辑。

  • annas-archive.org/datasets 人类历史上最大的真正开放的图书馆。我们镜像了 Sci-Hub 和 LibGen。我们抓取和开源 Z-Lib、DuXiu 等。30,445,640 本书,100,357,126 篇论文——永久保存。我们所有的代码和数据都是完全开源的。我们的使命是存档世界上所有的书籍(以及报纸、杂志等),并使它们被广泛访问。我们认为,所有书籍都应该广泛镜像,以确保冗余和弹性。这就是为什么我们将来自各种来源的文件汇集在一起的原因。有些来源是完全开放的,可以批量镜像(例如Sci-Hub)。其他人是封闭的和保护性的,所以我们试图抓取它们以“解放”他们的书。还有一些则介于两者之间。我们所有的数据都可以下载,我们所有的元数据都可以生成或下载为 ElasticSearch 和 MariaDB 数据库。原始数据可以通过这样的 JSON 文件手动浏览。

  • nvidia/HelpSteer2 开源的有用性数据集 (CC-BY-4.0),它支持对齐模型以变得更有帮助、更符合事实和连贯性,同时可以根据其响应的复杂性和冗长性进行调整。该数据集是与 Scale AI 合作创建的。HelpSteer 包含 21, 362 个样本,每个样本包含一个提示、一个响应以及响应的五个人工注释属性,每个属性的范围在 0 到 4 之间,其中越高意味着每个属性越好。连续样本(例如样本 1 与 2、3 与 4 ...)共享相同的提示,因此除了训练 SteerLM 回归 RM 之外,还可以将其用于基于有用性分数的偏好对(例如训练 DPO 或偏好 RM)。大约 29% 的提示是多回合的。在本例中,提示由所有用户轮次和除最后一个助手轮次之外的所有轮次组成,后者包含在响应字段中。这样做是因为属性值仅针对最后一个助手回合进行评估。

  • ssymmetry/BBT-FinCUGE-Applications 大规模中文金融领域语料库BBT-FinCorpus,包含以下四种语料: 公司公告 在过去二十年中由中国所有上市公司发布的公司公告。原始数据为 PDF 格式,总大小约为 2TB。使用 PDF 解析器将 PDF 文件转换为文我们件,转换后的文件的总大小为 105GB。研究报告 由券商、投行等投资机构发布的针对宏观经济、板块、行业和个股的研究报告,分析研究对象的现状并展望其未来发展趋势。原始数据为PDF格式,总大小约为1TB。经转化后的文我们件总量约11GB。财经新闻 从新浪财经,腾讯财经,凤凰财经,36Kr 和虎嗅等网站爬取的过去五年内的财经新闻。经清洗后的文我们件总量约 20GB。社交媒体 股吧和雪球网过去二十年内的所有股民和博主发表的帖子。经清洗后的文本总量约 120GB。

  • m-a-p/COIG-CQIA 欢迎来到COIG-CQIA,COIG-CQIA全称为Chinese Open Instruction Generalist - Quality is All You Need, 是一个开源的高质量指令微调数据集,旨在为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。COIG-CQIA以中文互联网获取到的问答及文章作为原始数据,经过深度清洗、重构及人工审核构建而成。本项目受LIMA: Less Is More for Alignment等研究启发,使用少量高质量的数据即可让大语言模型学习到人类交互行为,因此在数据构建中我们十分注重数据的来源、质量与多样性,数据集详情请见数据介绍以及我们接下来的论文。来自零一万物、中科院深圳先进技术研究院,和M-A-P等机构的研究者们。本数据集主要语言为中文。本数据集适用于指令微调,训练模型具备响应指令的能力。

  • mlabonne/llm-datasets 数据是 LLM。虽然数据集不能像模型一样直接评估,但高质量的数据集具有以下特征:准确性:示例应真实正确、对用户有帮助且编写良好。答案还应与其相应的说明相关。多样性:您希望涵盖尽可能多的使用案例,以确保正确遵循说明和相关答案。这需要以具有代表性的方式对广泛的主题、上下文、长度、写作风格等进行采样。复杂性:答案应该是非平凡的,并且 a/ 代表您期望模型处理的任务,或者 b/ 包括涉及多步骤推理、计划等的复杂任务。在使用 Python 解释器解决数学问题的情况下,测量准确性可能很容易,而对于开放式的主观问题,则几乎不可能。另一方面,按主题对数据集进行聚类是衡量多样性的好方法。最后,可以使用其他 LLMs,就像裁判一样。

  • nvidia/Aegis-AI-Content-Safety-Dataset-1.0 Aegis AI 内容安全数据集是一个开源内容安全数据集 (CC-BY-4.0),遵循 Nvidia 的内容安全分类法,涵盖 13 个关键风险类别。Aegis AI 内容安全数据集由人类和LLMs人与人之间的近 11,000 似手动注释的交互组成,分为 10,798 训练样本和 1,199 测试样本。为了整理数据集,我们使用了来自Anthropic HH-RLHF的关于无害性的人类偏好数据的拥抱脸版本。我们只提取提示,并从 Mistral-7B-v0.1 中引出响应。Mistral 擅长遵循指令,并为内容审核类别生成高质量的响应。我们在系统提示中使用示例,通过指示 Mistral 不要生成类似的响应来确保多样性。我们的数据包括四种不同的格式:仅用户提示、带用户提示的系统提示、带 Mistral 响应的单轮用户提示和带 Mistral 响应的多轮用户提示。

  • ibm/duorc DuoRC 数据集是一个英语语言数据集,其中包含从维基百科和 IMDb 电影情节上的众包 AMT 工作人员那里收集的问题和答案。工人们可以自由地从情节中挑选答案或综合自己的答案。它包含两个子数据集 - SelfRC 和 ParaphraseRC。SelfRC数据集完全建立在维基百科电影情节上。释义RC有从维基百科电影情节中写出的问题,答案是根据相应的IMDb电影情节给出的。abstractive-qa :该数据集可用于训练抽象问答模型。一个抽象的问答模型由一个段落和一个问题提出,并期望生成一个多词答案。extractive-qa :该数据集可用于训练抽取式问答模型。抽取式问答模型包含一段经文和一个问题,并有望预测段落中答案跨度的开始和结束。模型性能通过精确匹配和 F1 分数来衡量,。

  • fighting41love/funNLP NLP民工的乐园: 中英文敏感词、语言检测、中外手机/电话归属/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽车品牌词库、汽车零件、连续英文切割、各种中文词向量、公司大全、古诗、IT、财经、成语、地名、历史名人、诗词、医学、饮食、法律、汽车、动物词库、中文聊天语料、中文谣言数据、百度中文问答数据集、句子相似度、bert资源、文本生成&摘要相关工具、cocoNLP信息抽取、国内电话号码正则匹配、清华中英文跨语言百科知识图谱

  • lupantech/ScienceQA 通过思维链进行多模态推理的科学问题回答。提出了科学问答(ScienceQA),这是一个新的基准,包括21,208个多模态多项选择题,有一套不同的科学主题和注释,他们的答案与相应的讲座和解释。讲座和解释分别提供了一般的外部知识和具体的原因,以获得正确的答案。拥有更丰富的领域多样性:自然科学语言科学社会科学。ScienceQA包含26个主题、127个类别和379个技能,涵盖了广泛的领域。我们进一步设计语言模型,学习生成演讲和解释作为思维链(CoT),以模拟回答ScienceQA问题时的多跳推理过程。ScienceQA证明了CoT在语言模型中的实用性,CoT在少样例GPT-3中将问题回答性能提高了1.20%,在微调的UnifiedQA中将问题回答性能提高了3.99%。

  • allenai/social_i_qa 我们介绍了社交智商:社交互动QA,这是一个用于测试社交常识智力的新问答基准。与许多先前关注物理或分类知识的基准相反,社会智商侧重于对人们的行为及其社会影响的推理。例如,给定一个动作,如“杰西看了一场音乐会”,以及一个像“杰西为什么要这样做?”这样的问题,人们可以很容易地推断出杰西想“看他们最喜欢的表演者”或“享受音乐”,而不是“看看里面发生了什么”或“看看它是否有效”。Social IQa 中的动作跨越了各种各样的社交场合,答案候选人既包含人工策划的答案,也包含对抗性过滤的机器生成的候选人。Social IQa 包含超过 37,000 个 QA 对,用于评估模型推理日常事件和情况的社会影响的能力。

  • CohereForAI/aya_collection Aya Collection 是一个庞大的多语言集合,由 5.13 亿个提示和完成实例组成,涵盖广泛的任务。该集合整合了来自流利演讲者的指令式模板,并将其应用于精选的数据集列表,以及将指令式数据集翻译成 101 种语言。Aya 数据集是一个人工策划的多语言指令和响应数据集,也是该集合的一部分。由三个不同的数据源组成:模板化数据:我们与流利的演讲者合作创建模板,允许将现有数据集自动扩展为各种语言。翻译数据:我们使用 NLLB 3.3B 参数机器翻译模型将 19 个数据集的手工选择子集翻译成 101 种语言(114 种方言)。Aya 数据集:我们将 Aya 数据集作为整个集合的子集发布。这是集合中唯一一个完整地进行人工注释的数据集。

  • togethercomputer/RedPajama-Data-Instruct 从 P3 (BigScience) 和 Natural Instruction (AI2) 的各种 NLP 任务集合中挑选出来的,并分两步对 HELM 进行主动去污:(1) 我们首先使用 HELM 中的每个验证示例作为查询进行语义搜索,并从 Instruct 数据集中获取前 100 个相似实例,并检查任何返回的实例与验证示例重叠(使用 10-Gram)的任务。如果返回的实例和验证示例对应于相同的任务,我们将删除整个任务(在此步骤中,如果返回的实例恰好使用与验证示例相同的维基百科文章,但提出不同的问题,我们将保留该任务);(2) 然后,我们删除所有与任何 HELM 验证示例有任何 10 Gram 重叠的实例。我们总共筛选掉了 137 个任务和 5.2M 个实例(在 1069 个任务和 93.3M 个实例中)。

  • xglue 由11个任务组成,跨越19种语言。对于每个任务,训练数据仅以英语提供。这意味着要在XGLUE上取得成功,模型必须具有强大的零镜头跨语言迁移能力,以从特定任务的英语数据中学习并将其学到的内容转移到其他语言中。与其并发工作XTREME相比,XGLUE有两个特点:首先,它同时包含跨语言NLU和跨语言NLG任务;其次,除了包括5个现有的跨语言任务(即NER,POS,MLQA,PAWS-X和XNLI)之外,XGLUE还从Bing场景中选择了6个新任务,包括新闻分类,查询广告匹配,网页排名,QA匹配,问题生成和新闻标题生成。语言、任务和任务来源的这种多样性为量化跨语言自然语言理解和生成的预训练模型的质量提供了全面的基准。

  • databricks/databricks-dolly-15k 开源数据集,其中包含数千名 Databricks 员工在 InstructGPT 论文中概述的几个行为类别中生成的指令跟踪记录,包括头脑风暴、分类、封闭式 QA、生成、信息提取、开放式 QA 和摘要。根据知识共享署名-相同方式共享 3.0 未本地化版本许可的条款,该数据集可用于任何目的,无论是学术目的还是商业目的。Databricks 员工被邀请在八个不同的指令类别中的每一个类别中创建提示/响应对,包括 InstructGPT 论文中概述的七个,以及一个开放式自由格式类别。贡献者被指示避免使用来自网络上除维基百科以外的任何来源的信息(针对指令类别的特定子集),并明确指示避免使用生成式人工智能来制定指令或响应。

  • fancyzhx/ag_news AG 收集了超过 100 万篇新闻文章。在一年多的活动中,ComeToMyHead 从 2000 多个新闻来源收集了新闻文章。ComeToMyHead是一个学术新闻搜索引擎,自2004年7月开始运行。该数据集由学术界提供,用于数据挖掘(聚类、分类等)、信息检索(排名、搜索等)、xml、数据压缩、数据流和任何其他非商业活动的研究目的。有关更多信息,请参阅链接 http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html 。AG的新闻主题分类数据集由Xiang Zhang(xiang.zhang@nyu.edu)根据上述数据集构建。在以下论文中将其用作文本分类基准:Xiang Zhang, Junbo Zhao, Yann LeCun.用于文本分类的字符级卷积网络。神经信息处理系统进展 28 (NIPS 2015)。

  • cimec/lambada LAMBADA通过单词预测任务评估计算模型的文本理解能力。LAMBADA 是叙事段落的集合,其共同特点是,如果人类受试者接触到整个段落,他们能够猜出他们的最后一个单词,但如果他们只看到目标单词之前的最后一个句子,则不能。为了在LAMBADA上取得成功,计算模型不能简单地依赖于本地上下文,而必须能够在更广泛的话语中跟踪信息。LAMBADA 数据集提取自 BookCorpus,由 10‘022 个段落组成,分为 4‘869 个开发段落和 5‘153 个测试段落。在 LAMBADA 上测试的语言模型的训练数据包括 2‘662 部小说的全文(与 dev+test 中的小说不相交),共计 2.03 亿字。数据集中的文本为英文文本。关联的 BCP-47 代码为 en 。

  • HuggingFaceFW/fineweb 由超过 15T 个来自 CommonCrawl 的清理和重复数据删除的英文 Web 数据组成。数据处理管道针对LLM性能进行了优化,并在我们的大规模数据处理库 datatrove 上运行。FineWeb 最初是 RefinedWeb 的完全开放复制,在 ODC-By 1.0 许可下发布完整数据集。然而,通过仔细添加额外的过滤步骤,我们成功地将 FineWeb 的性能推高到远高于原始 RefinedWeb 的性能,并且在我们的数据集上训练的模型也优于在其他常用的高质量 Web 数据集(如 C4、Dolma-v1.6、The Pile、SlimPajama、RedPajam2)上训练的模型。也就是说,我们认为仍有进一步过滤和改进的空间,并打算继续探索如何在即将到来的 FineWeb 版本中提高数据集质量。

  • data.baai.ac.cn/BAAI-MTP 北京智源人工智能研究院信息检索与知识计算组构建并对外发布数据集MTP(Massive Text Pairs)。MTP由总计3亿条中英文关联文本对构成;其中,中文记录达1亿条,英文数据达2亿条。MTP为迄今开源的最大规模中英文关联文本对数据集,为训练中英文语义向量模型提供了重要的基础。通过对现有可用的中英文网络文本数据进行收集、整理,我们最终获得了总计3亿条的文本对数据(1.3TB),其中英文文本对2亿条(634GB),中文文本对1亿条(666GB)。包括:wudao,cmrc2018,dureader,simclue,csl,amazon_reviews_multi,wiki_atomic_edits,mlqa,xlsum,Misc*,sentence-transformers Data,wikipedia,cc-net,stackexchange,reddit,S2orc

  • allenai/MADLAD-400 MADLAD-400 (Multilingual Audited Dataset: Low-resource And Document-level) 是一个基于 Common Crawl 的文档级多语言数据集,共涵盖 419 种语言。这将使用截至 2022 年 8 月 1 日可用的 CommonCrawl 的所有快照。与类似数据集相比,此数据集的主要优点是它更多语言(419 种语言),经过审核和过滤,并且是文档级的。主要缺点也是它的强度 - 由于过滤程度更高,它可能缺乏某些应用程序所需的召回率。发布了两个版本:嘈杂数据集,除了文档级 LangID 之外没有过滤,以及干净数据集,它应用了各种过滤器,尽管它本身自然有相当多的噪音。每个数据集都以已删除重复数据的文档级形式发布。

  • data.baai.ac.cn/OL-CC OpenLabel-Chinese Conversations Dataset (OL-CC) 是首个以众包方式、人工生成的开源中文对话指令集,基于 openlabel.baai.ac.cn 开放平台进行数据收集,包含 10k+ “指令-回答”数据对和 1.6k+ 人工指令数据。指令类型丰富,包括问答任务、文本写作、文本抽取、编辑改写、分类选择、头脑风暴、 闲聊对话、逻辑&数学等任务。截至目前,已有 276 位志愿者参与了数据集的建设。志愿者完成了以下任务:a) 扮演人类用户向AI助手发出指令,b) 扮演AI助手根据上文指令撰写回答。两个任务为异步任务,因此本数据集分为两个部分:a) 完整的“指令-回答”对,b) 尚没有被回答的指令。

  • nickrosh/evol-teacher 开源 WizardCoder 数据集,此存储库实现了 WizardCoder 白文中描述的代码生成指令过程。目前,WizardCoder 是性能最高的代码生成模型之一,仅次于 ChatGPT。它采用 Code Alpaca 20k 数据集,并通过随机选择的进化提示来演化每条指令,以增加指令的复杂性。这些提示的范围从增加时间/空间复杂性到增加需求,再到添加错误代码以提高鲁棒性等。这通过修剪和后处理完成三次,以删除不需要的指令和响应。与Alpaca方法中通常生成的指令相比,更复杂的迭代添加提供了更高质量和更深入的指令。这与 WizardCoder 和 WizardLM 的情况一样,可以带来非常接近 RLHF 模型性能的强大性能。

  • FlagOpen/FlagInstruct 我们提出中文开放教学通才( COIG )项目来维护一套无害、有用且多样化的中文教学语料库。我们欢迎社区中的所有研究人员为语料库集做出贡献并与我们合作。我们发布COIG第一颗芯片只是为了帮助中国LLMs在探索阶段的发展,并吸引更多的研究人员加入我们建设COIG。我们引入了手动验证的翻译通用指令语料库、手动注释的考试指令语料库、人类价值对齐指令语料库、多轮反事实校正聊天语料库和 Leetcode 指令语料库。我们提供这些新的教学语料库来协助社区对中文LLMs教学进行调整。这些教学语料库也是如何有效构建和扩展新的汉语教学语料库的模板工作流程。

  • alisawuffles/WANLI WANLI (Worker-AI Collaboration for NLI) 是用于自然语言推理 (NLI) 任务的 108K 英语句子对的集合。每个示例都是通过首先在 MultiNLI (Williams et al., 2018) 中识别共享具有挑战性的推理模式的“口袋”示例来创建的,然后指示 GPT-3 编写具有相同模式的新示例。生成的示例集会自动过滤,以包含最有可能帮助模型训练的示例,最后由人工注释者进行标记和选择性修改。与现有的NLI数据集相比,万里具有独特的经验优势。值得注意的是,在 WANLI 而不是 MultiNLI(大 4 倍)上训练模型可以提高我们考虑的 7 个域外测试集的性能,包括 HANS 的 11% 和 Adversarial NLI 的 9%。

  • HuggingFaceFW/fineweb-edu 从 FineWeb数据集中筛选出来的1.3T令牌和5.4T令牌(FineWeb-Edu-score-2)的教育网页组成。这是 1.3 万亿版本。为了提高 FineWeb 的质量,我们使用 LLama3-70B-Inform 生成的注释开发了一个教育质量分类器。然后,我们使用此分类器仅保留最具教育意义的网页。FineWeb-Edu 在流行的基准测试中优于 FineWeb,并显示了在合成数据上训练的分类器的强大功能。除了数据集(包括自 2013 年以来所有过滤的 CommonCrawl 转储)外,我们还发布了用于过滤的教育分类器以及用于训练和运行推理的代码,网址为:huggingface/cosmopedia

  • cognitivecomputations/dolphin 该数据集试图复制Microsoft的Orca的结果,我们的数据集包括:~100 万 FLANv2 通过 GPT-4 完成增强 (flan1m-alpaca-uncensored.jsonl),~350 万 FLANv2 增加了 GPT-3.5 完成 (flan5m-alpaca-uncensored.jsonl)。我们遵循了 Orca 论文中概述的子混音和系统提示分布。除了少数例外。我们将所有 75k 的 CoT 包含在 FLAN-1m 数据集中,而不是对其进行采样。此外,我们发现许多项目是重复的,因此我们删除了重复项,从而在 ChatGPT 数据集中产生了 3.5m 的指令。然后,我们过滤掉了对齐、拒绝、回避和偏见的实例,以生成一个未经审查的模型,可以在该模型上分层您的个性化对齐 LoRA。

  • allenai/c4 Common Crawl 的 Web 爬虫语料库的庞大、干净版本。基于 Common Crawl 数据集:“https://commoncrawl.org”。这是 Google C4 数据集的处理版本。我们准备了五种变体的数据: en 、 en.noclean 、 en.noblocklist、realnewslike 和 multilingual (mC4)。en :305GB,en.noclean :2.3TB, en.noblocklist :380GB,realnewslike :15GB,multilingual (mC4):9.7TB(108 个子集,每种语言一个)。该 en.noblocklist 变体与 en 变体完全相同,只是我们关闭了所谓的“坏词过滤器”,该过滤器会从 https://github.com/LDNOOBW/List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words 列表中删除所有包含单词的文档。

  • HuggingFaceH4/ultrachat_200k 这是 UltraChat 数据集的严格过滤版本,用于训练 Zephyr-7B-β,这是一种最先进的 7b 聊天模型。原始数据集由 ChatGPT 生成的 1.4M 对话组成,涵盖广泛的主题。为了创建 UltraChat 200k ,我们应用了以下逻辑:选择数据子集,以便更快地进行监督微调。数据集的真大小写,正如我们观察到的那样,大约 5% 的数据包含语法错误。删除助手回复“我没有情绪”或“我没有意见”等短语的对话,即使是不涉及任何内容的基于事实的提示。数据集有四个拆分,适用于:监督微调 ( sft )。通过拒绝抽样或 PPO 等技术进行生成排名 ( gen )。

  • defunct-datasets/bookcorpusopen 书籍是细粒度信息的丰富来源,包括人物、物体或场景的样子,以及高级语义,即某人在想什么、感受什么以及这些状态如何通过故事演变。此版本的 bookcorpus 有 17868 个数据集项(书籍)。每个项目都包含两个字段:标题和文本。标题是图书名称(仅文件名),而文本包含未处理的图书文本。该书料库由肖恩·普雷瑟(Shawn Presser)编写,并由The-Eye慷慨主持。The-Eye 是一个非营利性、社区驱动的平台,致力于存档和长期保存任何和所有数据,包括但不限于......网站、书籍、游戏、软件、视频、音频、其他数字暗箱和想法。

  • argilla/distilabel-capybara-dpo-7k-binarized 在 LDJnr/Capybara 上使用 distilabel 构建的 DPO 数据集。多回合对话数据是微调聊天模型的关键。最相关的 RLHF 作品(Anthropic、Meta Llama2 等)已使用多回合偏好数据。不幸的是,DPO/RLHF 的多轮开放数据集很少。该数据集是填补开源 AI 社区这一空白的一系列数据集中的第一个。该数据集是一个多回合偏好数据集,用于提高开源的聊天能力LLMs。选择和拒绝的配对按照 OpenAI 的对话格式进行格式化,用户和助手之间可能会有几次轮换。要将此数据集用于 DPO,请仅使用最后一条助手消息作为 chosen / rejected ,其余消息用作 prompt 。

  • benywon/ChiQA 用于多模态理解的大规模基于图像的真实世界问答数据集。ChiQA中的问题是向搜索引擎发出的开放域用户查询。ChiQA中的图像也是从搜索引擎中收集的真实世界图像,与问题相关但不一定能回答问题。我们的数据众包包括两个阶段的主动学习过程。在第一阶段,我们从网络上随机收集样本。在第二阶段中,我们首先基于来自第一阶段的数据训练模型,然后使用训练好的模型在剩余数据上选择硬示例并继续标记。这两个阶段的设置使得数据更具挑战性,并且从本质上消除了对数据中某些属性或语言模式的不合理偏爱。

  • m-a-p/CodeFeedback-Filtered-Instruction 从四个著名的开源代码指令调优数据集中提取的精选代码指令查询集合:Magicoder-OSS-Instruct、ShareGPT 的 Python 代码子集、Magicoder-Evol-Install 和 Evol-Instruct-Code。最初,从这些数据集中聚合了 287k 个查询。为了分离出最复杂和最翔实的指令,采用了严格的过滤过程。这涉及利用开源聊天模型 Qwen-72B-Chat 进行选择性过滤。代码查询及其在编译数据集中的相应响应由 LLM分配的复杂度分数(从 1 到 5)进行评估,并且仅保留评级为 4 或 5 的代码查询作为种子集。这种细致的过滤过程最终收集了 156k 条高质量的单轮代码指令。

  • stanfordnlp.github.io/coqa 用于构建会话问答系统的大规模数据集。CoQA 挑战的目标是衡量机器理解文本段落和回答对话中出现的一系列相互关联的问题的能力。CoQA 包含 127,000+ 个问题,答案来自 8000+ 个对话。每个对话都是通过配对两个众包工作者以问答的形式聊天来收集的。CoQA 的独特功能包括 1) 问题是对话式的;2)答案可以是自由格式的文本;3)每个答案还带有段落中突出显示的证据子序列;4)这些段落是从七个不同的领域收集的。CoQA有许多具有挑战性的现象,这些现象在现有的阅读理解数据集中不存在,例如,共指和语用推理。

  • ydli-ai/CSL 首个中文科学文献数据集(CSL),包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)。CSL 数据集可以作为预训练语料,也可以构建许多NLP任务,例如文本摘要(标题预测)、 关键词生成和文本分类等。取自 国家科技资源共享服务工程技术研究中心, 包含 2010-2020 年发表的期刊论文元信息(标题、摘要和关键词)。根据中文核心期刊目录进行筛选, 并标注学科和门类标签,分为 13 个门类(一级标签)和 67 个学科(二级标签)。 数据总量为 396,209 条。

  • Samsung/samsum SAMSum 数据集包含大约 16k 个类似信使的对话和摘要。对话是由精通英语的语言学家创建和记录的。语言学家被要求创建与他们每天写的对话相似的对话,以反映他们现实生活中信使对接的主题比例。风格和语域是多样化的——对话可以是非正式的、半正式的或正式的,它们可能包含俚语、表情符号和错别字。然后,用摘要对对话进行注释。人们认为摘要应该是人们在对话中以第三人称谈论的内容的简明扼要。SAMSum 数据集由波兰三星研发研究所编制,并出于研究目的分发(非商业许可:CC BY-NC-ND 4.0)。

  • Project Gutenberg 古腾堡计划,拥有 70,000 多本免费电子书的图书馆。您将在这里找到世界上最伟大的文学作品,重点是美国版权已过期的旧作品。数以千计的志愿者将电子书数字化并认真校对,供您欣赏。古腾堡计划是第一家免费电子书或电子书的提供商。古腾堡计划的创始人迈克尔·哈特 (Michael Hart) 于 1971 年发明了电子书,他的记忆至今仍激励着电子书和相关内容的创作。迈克尔·哈特(Michael Hart)在2004年的一篇文章中提供了有关使命宣言的更多细节,以及指导古腾堡计划完成该使命的活动的一些信念。

  • WuDaoCorpora Text文本预训练数据集 北京智源人工智能研究院(智源研究院)构建的大规模、高质量数据集,用于支撑大模型训练研究。目前由文本、对话、图文对、视频文本对四部分组成,分别致力于构建微型语言世界、提炼对话核心规律、打破图文模态壁垒、建立视频文字关联,为大模型训练提供坚实的数据支撑。采用20多种规则从100TB原始网页数据中清洗得出最终数据集,注重隐私数据信息的去除,源头上避免GPT-3存在的隐私泄露风险;包含教育、科技等50+个行业数据标签,可以支持多领域预训练模型的训练。

  • CausalLM/Refined-Anime-Text 包含超过一百万条、约4400万个 GPT-4/3.5 token的、全新合成的文本数据集的动漫主题子集。该数据集此前从未公开发布过。由于社区对动漫文化的浓厚兴趣,且考虑到通识数据集中此类题材的代表性不足,以及原始文本中网络俚语和无关内容的泛滥而导致的低质量、难以清理的问题,我们决定发布这份子集供进一步研究。这份数据集旨在用于研究大型语言模型中网络亚文化的数据治理,并探索具有挑战性的 LLM 持续预训练问题,例如特定主题的知识蒸馏以及对未见知识的持续学习。

  • EleutherAI/lambada_openai 该数据集由OpenAI预处理的LAMBADA测试拆分组成(请参阅此处和此处的相关讨论)。它还包含德语、西班牙语、法语和意大利语的机器翻译版本。LAMBADA用于通过单词预测任务评估计算模型的文本理解能力。LAMBADA是叙事文本的集合,其共同特点是,如果人类受试者接触到整个文本,他们能够猜出他们的最后一个单词,但如果他们只看到目标单词前面的最后一个句子,则不能。为了在LAMBADA上取得成功,计算模型不能简单地依赖于本地上下文,而必须能够在更广泛的话语中跟踪信息。

  • allenai/ropes ROPES(情境中的段落效应推理)是一个 QA 数据集,用于测试系统将文本中的知识应用于新情境的能力。一个系统呈现了一个背景段落,其中包含因果关系或定性关系(例如,“动物传粉者提高了花朵受精的效率”),使用该背景的新情况,以及需要在上下文中推理背景段落中关系的影响的问题。阅读理解任务被框定为抽取式问答问题。模型通过计算单词级 F1 和完全匹配 (EM) 指标来评估,遵循最近阅读理解数据集(例如 SQuAD)的常见做法。数据集中的文本为英文文本。

  • CLUEbenchmark/SimCLUE 大规模语义理解与匹配数据集。可用于无监督对比学习、半监督学习等构建中文领域效果最好的预训练模型。可用于语义理解、语义相似度、召回与排序等检索场景等。整合了以上9个数据集:哈工大 LCQMC 数据集、AFQMC 蚂蚁金融语义相似度数据集、OPPO 小布对话文本语义匹配数据集、北大中文文本复述数据集 PKU-Paraphrase-Bank、Chinese-STS-B 数据集、Chinese-MNLI 自然语言推理数据集、Chinese-SNLI 自然语言推理数据集、 OCNLI 中文原版自然语言推理数据集、CINLID 成语语义推理数据集

  • argilla/distilabel-intel-orca-dpo-pairs 该数据集是广泛使用的数据集的“分布式标记”版本:Intel/orca_dpo_pairs。原始数据集已被 100 多个开源从业者和模型使用。我们从修复UltraFeedback(以及在此之前的Alpacas和Dollys)中知道,这个数据集可以得到很大的改进。为了继续我们的使命,为开源LLMs和社区构建最佳的对齐数据集,我们花了几个小时使用 distilabel 对其进行改进。原始数据集只是假设 gpt4/3.5-turbo 始终是最佳响应。我们从UltraFeedback中了解到,情况并非总是如此。此外,DPO 微调受益于偏好对的多样性。

  • togethercomputer/Long-Data-Collections 长上下文数据集的汇编,专门设计用于需要从大型文本输入中进行广泛理解和推理的任务。目前,它包含用于训练健壮基础模型的数据,这些数据可以在 pretrain/ 目录中找到。此外,它还包括针对特定需求量身定制的数据集,位于 fine-tune/ 目录中。这些专门的数据集包括源自自然问题的多段落问答和以 BookSum 数据集为例的长上下文摘要。预训练数据是用于训练 AI 模型的各种数据集的集合。这些数据集包括各种来源,提供广泛的信息,从书籍到科学论文和教学数据。

  • oscar-corpus/OSCAR-2301 OSCAR项目(Open Super-large Crawled Aggregated coRpus)是一个开源项目,旨在为机器学习(ML)和人工智能(AI)应用提供基于Web的多语言资源和数据集。该项目特别专注于提供大量未注释的原始数据,这些数据通常用于大型深度学习模型的预训练。OSCAR 项目开发了高性能数据管道,专门用于对大量 Web 数据进行分类和过滤。该项目还特别关注提高基于网络的语料库的数据质量,以及为资源匮乏的语言提供数据,以便尽可能多的社区能够使用这些新的机器学习/人工智能技术。

  • ErnestSDavis/winograd_wsc Winograd 模式是一对句子,它们仅在一个或两个单词上有所不同,并且包含歧义,该歧义在两个句子中以相反的方式解决,并且需要使用世界知识和推理来解决它。数据集为英文。图灵测试的改进版本。此数据由专家手动编写,因此架构为:很容易被人类读者消除歧义(理想情况下,很容易,以至于读者甚至没有注意到存在歧义);无法通过简单的技术(例如选择限制)解决;谷歌证明;也就是说,没有明显的文本语料库统计测试可以可靠地正确地消除这些歧义。

  • super.gluebenchmark.com 在过去的一年里,用于预训练和迁移学习的新模型和方法在一系列语言理解任务中推动了显着的性能改进。一年多前推出的 GLUE 基准测试提供了一个单一数字的指标,总结了各种此类任务的进展,但该基准测试的性能最近超过了非专家人类的水平,这表明进一步研究的空间有限。在本文中,我们介绍了 SuperGLUE,这是一个以 GLUE 为风格的新基准测试,具有一组新的更困难的语言理解任务、一个软件工具包和一个公共排行榜。SuperGLUE 可在此 http URL 上获得。

  • katielink/healthsearchqa 谷歌为Med-PaLM论文(arXiv预印本)发布的消费者健康问题数据集。我们策划了自己的附加数据集,其中包含 3,173 个经常搜索的消费者问题,称为 HealthSearchQA。该数据集是使用种子医疗条件及其相关症状策划的。我们使用种子数据来检索由搜索引擎生成的公开可用的常用搜索问题,这些问题显示给所有输入种子词的用户。我们将数据集作为回答消费者医疗问题的开放基准发布,并希望这将成为社区的有用资源,作为反映现实世界消费者关注的数据集。

  • sheng-z.github.io/ReCoRD-explorer 一个需要常识推理的大规模阅读理解数据集。ReCoRD 由从 CNN/Daily Mail 新闻文章自动生成的查询组成;每个查询的答案都是相应新闻的总结段落中的文本跨度。ReCoRD的目标是评估机器在阅读理解方面的常识推理能力。ReCoRD 包含来自 70,000+ 篇新闻文章的 120,000+ 个查询。每个查询都经过众包工作者的验证。与现有的阅读理解数据集不同,ReCoRD包含大量需要常识推理的查询,因此为未来的研究弥合人类和机器常识阅读理解之间的差距提出了很好的挑战。

  • BAAI/AquilaMoE-SFT 构建了一个包含4TB中英文词元的双语预训练数据集。该数据集包括网页、arXiv 论文、百科全书数据、书籍、代码和 QA 对。它涵盖了广泛的高质量开源预训练数据,如 RedPajama-Data-V2、falcon-refinedweb、C4、Pile、WuDaoCorporaText、ChineseWebText 等。上述开源数据经过语言过滤以仅保留中英文文本,启发式细化以删除低质量内容,重复数据删除以保持唯一性,特定领域过滤以确保相关性,数据质量检查,去除有毒和露骨内容,最后以指定比例进行数据混合。

  • community-datasets/definite_pronoun_resolution 由作者本科班的 30 名学生组成。这些句子对涵盖的主题从真实事件(例如,伊朗袭击沙特驻美国大使的计划)到电影中的事件/角色(例如,蝙蝠侠)和纯粹的虚构情况,在很大程度上反映了流行文化,如90年代初出生的美国孩子所感知的。每个带注释的示例跨越四行:第一行包含句子,第二行包含目标代词,第三行包含两个候选先行词,第四行包含正确的先行词。如果目标代词在句子中出现不止一次,则它的第一个出现就是要解决的问题。

  • m-a-p/COIG-CQIA COIG-CQIA全称为Chinese Open Instruction Generalist - Quality is All You Need, 是一个开源的高质量指令微调数据集,旨在为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。COIG-CQIA以中文互联网获取到的问答及文章作为原始数据,经过深度清洗、重构及人工审核构建而成。本项目受LIMA: Less Is More for Alignment等研究启发,使用少量高质量的数据即可让大语言模型学习到人类交互行为,因此在数据构建中我们十分注重数据的来源、质量与多样性。

  • allenai/quac Question Answering in Context 是一个用于建模、理解和参与信息搜索对话的数据集。数据实例由两个众包工作者之间的交互式对话组成:(1)一个学生提出一系列自由格式的问题,以尽可能多地了解隐藏的维基百科文本,以及(2)一个教师通过提供文本的简短摘录(跨度)来回答问题。QuAC 引入了现有机器理解数据集中没有的挑战:它的问题通常更加开放、无法回答,或者仅在对话上下文中才有意义。数据集中的文本为英文文本。

  • EleutherAI/wikitext_document_level WikiText语言建模数据集是从维基百科上经过验证的“良好”和“精选”文章中提取的超过1亿个标记的集合。该数据集可在知识共享署名-相同方式共享许可下使用。与Penn Treebank(PTB)的预处理版本相比,WikiText-2大2倍以上,WikiText-103大110倍以上。WikiText数据集还具有更大的词汇量,并保留了原始大小写,标点符号和数字 - 所有这些都在PTB中被删除。由于该数据集由完整的文章组成,因此非常适合可以利用长期依赖关系的模型。

  • garage-bAInd/Open-Platypus 该数据集专注于提高LLM逻辑推理能力,并用于训练鸭嘴兽2模型。它由以下数据集组成,这些数据集使用关键字搜索和句子转换器进行过滤,以删除相似度高于 80% 的问题。移除了 Hugging Face 基准测试集中出现的大约 200 个问题。数据集名称:PRM800K、MATH、ScienceQA、SciBench、ReClor、TheoremQA、nuprl/leetcode-solutions-python-testgen-gpt4、jondurbin/airoboros-gpt4-1.4.1、TigerResearch/tigerbot-kaggle-leetcodesolutions-en-2k、ARB、timdettmers/openassistant-guanaco

  • pleisto/wikipedia-cn-20230720-filtered 本数据集基于中文维基2023年7月20日的dump存档。作为一项以数据为中心的工作,本数据集仅保留了 254,547条 质量较高的词条内容。具体而言:过滤了Template, Category, Wikipedia, File, Topic, Portal, MediaWiki, Draft, Help等特殊类型的词条。使用启发式的方法和自有的NLU模型过滤了一部分质量较低的词条。过滤了一部分内容较为敏感或存在争议性的词条。进行了简繁转换和习惯用词转换,确保符合中国大陆地区的习惯用词。

  • community-datasets/gnad10 10k 德语新闻文章数据集由来自奥地利在线报纸网站 DER Standard 的 10273 篇德语新闻文章组成。每篇新闻文章都由报纸雇用的专业论坛版主分为 9 类之一。该数据集是从原始的 One Million Posts 语料库扩展而来的。创建该数据集是为了支持德语中的主题分类,因为在英语数据集上有效的分类器在德语数据集上可能不那么有效,因为变形量更大,复合词更长。此外,该数据集可用作德语主题分类的基准数据集。

  • community-datasets/eu_regulatory_ir 欧盟 (EU) 有一个类似于组织监管合规的立法计划。根据《欧盟运作条约》(TFEU),所有公布的欧盟指令必须在国家层面生效。因此,所有欧盟成员国都必须通过一项法律,在指令规定的期限内(通常为 2 年)转换新发布的指令。在这里,我们有两个数据集,EU2UK 和 UK2EU,包含欧盟指令和英国法规,它们既可以作为查询,也可以作为文档,前提是英国法律与其转换的欧盟指令相关,反之亦然。

  • hotpotqa/hotpot_qa HotpotQA 是一个具有 113k 个基于维基百科的问答对的新数据集,具有四个关键特征:(1) 问题需要对多个支持文档进行查找和推理才能回答;(2)问题多种多样,不局限于任何预先存在的知识库或知识图式;(3)我们提供推理所需的句子级支持事实,允许QA系统在强有力的监督下进行推理并解释预测;(4)我们提供了一种新型的事实比较问题,以测试QA系统提取相关事实并进行必要比较的能力。

  • nvidia/ChatRAG-Bench ChatRAG Bench 是评估模型对文档或检索上下文的对话 QA 能力的基准。ChatRAG Bench 建立在 10 个现有数据集之上并派生而来:Doc2Dial、QuAC、QReCC、TopioCQA、INSCIT、CoQA、HybriDialogue、DoQA、SQA、ConvFinQA。ChatRAG Bench 涵盖了广泛的文档和问题类型,这些文档和问题类型要求模型从长上下文中生成响应、理解和推理表格、进行算术计算以及指示何时在上下文中找不到问题。此处介绍了此基准测试的详细信息。

  • Replete-AI/code_bagel 大约 8 亿个唯一编码数据,支持 100 多种编码语言。该数据集包含 320 万+行高质量、过滤、未经审查、重复数据删除、唯一的编码数据。创建此数据集的过程如下:下载所有单个数据集。使用 Meta.ai 创建代码,将数据集中的数据提取为 alpaca 格式,并为其中的大多数添加指令。使用相同的提取方法将所有数据集合并为 1 个数据集。使用 Claude.ai 创建代码以对数据进行重复数据删除和取消审查。

  • smashwords.com 欢迎来到 Smashwords 商店!浏览近 100 万本原创电子书,包括每天免费定价的约 100,000 本。强大的搜索工具可让您轻松找到下一本精彩读物。Smashwords 是一家电子书零售商,为全球读者提供服务。截至 2022 年底,Smashwords 正在帮助全球超过 160,000 名作者和小型出版社出版和发行近 600,000 本电子书。 同样到 2022 年底,Smashwords Store 连续第六年实现销售额增长,再创纪录。

  • open-web-math/open-web-math OpenWebMath 是一个数据集,包含来自互联网的大部分高质量数学文本。它从 Common Crawl 上的 200B 多个 HTML 文件中过滤和提取到一组 630 万个文档,总共包含 14.7B 个令牌。OpenWebMath 旨在用于预训练和微调大型语言模型。OpenWebMath 包含来自 130k 多个不同域的文档,包括来自论坛、教育页面和博客的数据。该数据集包含涵盖数学、物理、统计学、计算机科学等的文档。

  • text-machine.cs.uml.edu/quail 一种新的问答数据集,它结合了常识性、基于文本和无法回答的问题,针对不同的类型和推理类型进行了平衡。9 种推理类型的推理类型注释:时间推理、因果推理、事实推理、共指推理、字符属性、其信念状态、后续实体状态、事件持续时间和不可回答。类型:CC 许可小说、美国之音新闻、博客、Quora 800 文本中的用户故事,每个 18 个问题(~14K 个问题)。

  • deweizhu/bookget bookget是一个数字古籍图书下载工具,已支持 50+ 个数字古籍平台,并持续更新。用户可通过 GitHub Releases 页面下载最新版本,并参考 Wiki 文档进行使用。该工具基于 Golang 开发,可用于学习研究,也可自行编译使用。bookget 旨在提供便捷的数字古籍下载方式,并支持 Windows 10/11 x64 系统。该项目以清代古籍《易经》为例,展示了 bookget 的使用方式和功能。

  • zejunwang1/CSTS: 中文自然语言推理与语义相似度数据集。哈工大 LCQMC 数据集;AFQMC 蚂蚁金融语义相似度数据集;OPPO 小布对话文本语义匹配数据集;谷歌 PAWS-X 数据集;北大中文文本复述数据集 PKU-Paraphrase-Bank;Chinese-STS-B 数据集;Chinese-MNLI 自然语言推理数据集;Chinese-SNLI 自然语言推理数据集;OCNLI 中文原版自然语言推理数据集;CINLID 中文成语语义推理数据集

  • OpenAssistant/oasst1 为了使大规模对齐研究民主化,我们发布了 OpenAssistant Conversations (OASST1),这是一个人工生成的、人工注释的助手式对话语料库,由 35 种不同语言的 161,443 条消息组成,带有 461,292 个质量评级的注释,产生了超过 10,000 个完全注释的对话树。该语料库是全球众包工作的产物,涉及 13,500 多名志愿者。OpenAssistant Conversations 包含 35 种不同的语言。

  • ceval/ceval-exam C-Eval是一个全面的中文基础模型评估套件。它由 13948 道多项选择题组成,涵盖 52 个不同的学科和四个难度级别。每个主题由三个部分组成:dev、val 和 test。每个主题的开发集由五个示例组成,并附有对少镜头评估的解释。val 集旨在用于超参数优化。测试集用于模型评估。测试拆分上的标签不发布,用户需要提交结果才能自动获得测试精度。

  • EleutherAI/proof-pile-2 包含 550 亿个数学和科学文档的词元数据集。创建此数据集是为了训练 Llemma 7B 和 Llemma 34B 模型。它由三个子集组成:arxiv (29B 词元):RedPajama 的 ArXiv 子集;open-web-math (15B tokens):OpenWebMath 数据集,其中包含来自互联网的大量高质量数学文本;algebraic-stack (11B tokens):一个新的数学代码数据集,包括数值计算、计算机代数和形式数学。

  • tiiuae/falcon-refinedweb 由 TII 构建并在 ODC-By 1.0 许可下发布的海量英语网络数据集。通过对 CommonCrawl 进行严格的过滤和大规模重复数据删除而构建的;我们发现,在 RefinedWeb 上训练的模型在仅依赖于 Web 数据的情况下,可以达到在线性能或优于在精选数据集上训练的模型。RefinedWeb 也是“多模态友好”的:它包含处理过的样本中图像的链接和替代文本。

  • Open-Orca/OpenOrca OpenOrca 数据集是增强的 FLAN 集合数据的集合。目前 ~1M GPT-4 完成,~3.2M GPT-3.5 完成。它与ORCA论文中提出的分布一致,以表格形式呈现,目前代表了完整预期数据集的部分完成,并且正在不断生成以扩大其范围。这些数据主要用于自然语言处理领域的训练和评估。该数据集支持多种任务,包括语言建模、文本生成和文本增强。

  • commoncrawl.org Common Crawl 维护着一个免费、开放的 Web 爬虫数据存储库,任何人都可以使用。Common Crawl 是一家成立于 2007 年的 501(c)(3) 非营利组织。我们为研究人员提供开放网络数据的大规模提取、转换和分析。超过 2500 亿个网页,跨越 17 年。自 2007 年以来免费开放语料库。在超过10,000篇研究论文中被引用。每月添加 3-50 亿个新页面。

  • OpenAssistant/oasst2 Open Assistant 对话数据集第 2 版 (OASST2),此数据集包含消息树。每个消息树都有一个初始提示消息作为根节点,该节点可以有多个子消息作为回复,并且这些子消息可以有多个回复。所有消息都有一个角色属性:可以是“assistant”或“prompter”。从提示到叶节点的对话线程中的角色在“提示器”和“助手”之间严格交替。

  • dumps.wikimedia.org 维基媒体下载,所有维基媒体wiki的完整副本,以wiki文本源和嵌入XML的元数据的形式出现。此外,还提供了许多 SQL 形式的原始数据库表。这些快照至少每月提供一次,通常每月提供两次。如果您是这些转储的常规用户,请考虑订阅 xmldatadumps-l 以获取定期更新。所有维基百科wiki中所有页面的副本,以HTML形式呈现。

  • esbatmop/MNBVC Massive Never-ending BT Vast Chinese corpus超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。

  • lmsys/chatbot_arena_conversations 该数据集包含 33K 个具有成对人类偏好的清理对话。它是从 2023 年 4 月至 6 月期间聊天机器人竞技场上的 13K 个唯一 IP 地址中收集的。每个示例都包括一个问题 ID、两个模型名称、OpenAI API JSON 格式的完整对话文本、用户投票、匿名用户 ID、检测到的语言标签、OpenAI 审核 API 标签、附加有毒标签和时间戳。

  • bigcode/the-stack 包含超过 6TB 的许可源代码文件,涵盖 358 种编程语言。该数据集是作为 BigCode 项目的一部分创建的,BigCode 项目是一个开放的科学合作项目,致力于负责任地开发代码的大型语言模型 (代码LLMs)。用作代码LLMs的预训练数据集,即代码生成 AI 系统,它能够从自然语言描述以及其他代码片段中合成程序。

  • microsoft/orca-math-word-problems-200k 该数据集包含 ~200K 个小学数学单词问题。此数据集中的所有答案都是使用 Azure GPT4-Turbo 生成的。有关数据集构建的详细信息,请参阅 Orca-Math: Unlocking the potential of SLM in Elementary School Math。该数据集旨在增强语言模型的数学能力。它旨在为语言模型提供坚实的基础,使其在数学问题解决方面表现出色。

  • eecrazy/CausalBank 非常大规模、开放的领域、句子级、平行的因果语料库。按照句子中出现的因果顺序分为两部分:because_mode(结果,然后是原因)和therefore_mode(原因,然后是结果)。使用预处理的英语通用爬虫语料库 (5.14 TB) 中的细粒度因果模板匹配获得的,完全自动,无需任何人工注释。里面或多或少有噪音。

  • microsoft/AGIEval 以人为本的基准,专门用于评估基础模型在与人类认知和解决问题相关的任务中的一般能力。该基准源自 20 项针对普通人类考生的官方、公共和高标准入学和资格考试,例如普通大学入学考试(例如,中国高考(高考)和美国 SAT)、法学院入学考试、数学竞赛、律师资格考试和国家公务员考试。

  • RUCAIBox/TG-ReDial 电影领域的对话推荐数据集TG-ReDial (Recommendation through Topic-Guided Dialog)。包含1万个完整对话和近13万条语句,加入了话题线索以实现将用户引导至推荐场景这一语义的自然转移,并采用半自动的方式构建,保留了用户真实的个性化信息(如交互历史,偏好主题),使得人工标注过程更加合理可控。

  • m-a-p/CMMMU CMMMU包括从大学考试,测验和教科书中手动收集的12k个多模态问题,涵盖六个核心学科:艺术与设计,商业,科学,健康与医学,人文与社会科学以及技术与工程,就像它的同伴MMMU一样。这些问题涉及 30 个主题,包括 39 种高度异质的图像类型,例如图表、图表、地图、表格、乐谱和化学结构。

  • MBZUAI/Bactrian-X Bactrain-X 数据集是 52 种语言的 3.4M 指令-响应对的集合,通过使用 Google 翻译 API 将 67K 英语指令 (alpaca-52k + dolly-15k) 翻译成 51 种语言获得。然后将翻译后的指令输入到 ChatGPT ( gpt-3.5-turbo ) 以获得其自然响应,从而产生 52 种语言的 3.4M 指令-响应对(52 种语言 x 67k 个实例 = 3.4M 个实例)。

  • statmt/cc100 该语料库试图重新创建用于训练 XLM-R 的数据集。该语料库包括 100+ 种语言的单语数据,还包括罗马化语言的数据(用 *_rom 表示)。这是使用 CC-Net 存储库通过处理 2018 年 1 月至 12 月的 Commoncrawl 快照提供的 url 和段落索引构建的。CC-100 主要用于预训练语言模型和单词表示。语言:多语言。

  • nyu-mll/multi_nli 多类型自然语言推理 (MultiNLI) 语料库是一个众包集合,包含 433k 个句子对,并带有文本蕴涵信息注释。该语料库以 SNLI 语料库为蓝本,但不同之处在于它涵盖了一系列类型的口语和书面文本,并支持独特的跨体裁概括评估。该语料库是哥本哈根EMNLP的RepEval 2017研讨会共同任务的基础。

  • codefuse-ai/CodeExercise-Python-27k 该数据集由 27K Python 编程练习(英文)组成,涵盖数百个与 Python 相关的主题,包括基本语法和数据结构、算法应用、数据库查询、机器学习等。请注意,此数据集是在教师模型和 Camel 的帮助下生成的,没有经过严格的验证。问题或答案中可能存在错误或语义重复,因此请谨慎使用。

  • csebuetnlp/xlsum 全面而多样化的数据集,包含来自 BBC 的 135 万个专业注释的文章摘要对,使用一组精心设计的启发式方法提取。该数据集涵盖了 45 种语言,从低资源到高资源,其中许多语言目前没有可用的公共数据集。XL-Sum 具有高度抽象性、简洁性和高质量,正如人类和内在评估所表明的那样。

  • argilla/OpenHermesPreferences 包含 ~100 万个 AI 偏好的数据集,源自 teknium/OpenHermes-2.5。它将来自源数据集的响应与其他两个模型(Mixtral-8x7B-Instruct-v0.1 和 Nous-Hermes-2-Yi-34B)的响应相结合,并使用 PairRM 作为偏好模型来进行评分和排名。该数据集可用于训练偏好模型或通过直接偏好优化(DPO)等技术对齐语言模型。

  • defunct-datasets/the_pile_books3 该数据集包含所有纯.txt形式的书目,即 197,000 本书的处理方式与 bookcorpusopen(又名 books1)完全相同。似乎类似于 OpenAI 在他们论文中引用的神秘的“books2”数据集。不幸的是,OpenAI 不会提供细节,所以我们对任何差异知之甚少。人们怀疑这是“全部的自由”,但这纯粹是猜想。

  • togethercomputer/RedPajama-Data-V2 RedPajama-V2 是一个用于训练大型语言模型的开放数据集。该数据集包括来自 84 个 CommonCrawl 快照的 100B 多个文本文档,并使用 CCNet 管道进行处理。其中,语料库中有 30B 个文档还带有质量信号。此外,我们还提供了重复文档的 ID,可用于创建包含 20B 重复数据删除文档的数据集。

  • lmsys/lmsys-chat-1m 该数据集包含 100 万个真实世界的对话和 25 个最先进的 LLMs.它是从 2023 年 4 月至 8 月期间在 Vicuna 演示和 Chatbot Arena 网站上从野外的 210K 个唯一 IP 地址中收集的。每个示例都包含对话 ID、模型名称、OpenAI API JSON 格式的对话文本、检测到的语言标记和 OpenAI 审核 API 标记。

  • allenai/quartz QuaRTz 是一个众包数据集,包含 3864 个关于开放域定性关系的多项选择题。每个问题都与 405 个不同的背景句子(有时是短段落)中的一个配对。QuaRTz 数据集 V1 包含 3864 个关于开放域定性关系的问题。每个问题都与 405 个不同的背景句子(有时是短段落)中的一个配对。

  • HuggingFaceH4/stack-exchange-preferences 此数据集包含来自stack-exchange堆栈溢出数据转储的问题和答案,用于首选项模型训练。重要的是,这些问题已经过过滤,以符合以下偏好模型标准(紧随 Askell 等人,2021 年):有 >=2 个答案。这些数据还可用于教学微调和语言模型训练。仅英语,可能存在其他语言。

  • InsaneLife/ChineseNLPCorpus 中文自然语言处理数据集,阅读理解、任务型对话数据、文本分类、实体识别&词性标注&分词、句法&语义解析、推荐系统、百科数据、指代消歧、预训练:(词向量or模型)、中文完形填空数据集、中华古诗词数据库、保险行业语料库、汉语拆字字典。

  • thunlp/Few-NERD 一个大规模的人工标注的用于少样本命名实体识别任务的数据集。该数据集包含8种粗粒度和66种细粒度实体类型,每个实体标签均为粗粒度+细粒度的层级结构,共有18万维基百科句子,460万个词,每个词都被注释为上下文(context)或一个实体类型的一部分。

  • rajpurkar/squad 斯坦福问答数据集 (SQuAD) 是一个阅读理解数据集,由众包工作者在一组维基百科文章中提出的问题组成,其中每个问题的答案都是相应阅读段落中的一段文本或跨度,或者问题可能无法回答。SQuAD 1.1 包含 100,000+ 个问答对,涉及 500+ 篇文章。语言:英语。

  • wikimedia/wikipedia 该数据集是从维基百科转储 ( https://dumps.wikimedia.org/) 构建的,每种语言都有一个子集,每个子集都包含一个火车拆分。每个示例都包含一个完整的维基百科文章的内容,并清理以去除 Markdown 和不需要的部分(参考文献等)。该数据集通常用于语言建模。

  • houbb/sensitive-word 敏感词/违禁词/违法词/脏词。基于 DFA 算法实现的高性能 java 敏感词过滤工具框架。请勿发布涉及政治、广告、营销、翻墙、违反国家法律法规等内容。高性能敏感词检测过滤组件,附带繁体简体互换,支持全角半角互换,汉字转拼音,模糊搜索等功能。

  • BelleGroup/multiturn_chat_0.8M 包含约80万条由BELLE项目生成的用户与助手的多轮对话。注意:此数据集是由ChatGPT产生的,未经过严格校验,内容可能包含错误。使用过程中请注意这一点。instruction中包含多轮对话的上文内容,以Human:和Assistant:区分,output中包含当前助手角色的回答。

  • jondurbin/airoboros-gpt4-1.4.1 数据由 gpt-4 生成,因此受 OpenAI ToS 的约束。用于生成数据 airoboros 的工具是 apache-2。此训练数据的具体重点领域:琐事、数学、荒谬的数学、编码、封闭式上下文问答、封闭式语境问答,有多个语境可供选择作为混杂因素、写作、多选题等。

  • doc2dial/sharedtask-dialdoc2021 doc2dial是IBM发布的基于文档的对话数据集,包含两个任务:1)从文档中检索和问题相关的句子(information-seeking);2)基于上一步结果生成合理答复(response generation) 数据集共有4个不同领域的480篇文档,4800个多轮对话,每个对话平均有14次交互。

  • pluto-junzeng/CNSD 中文自然语言推理数据集(A large-scale Chinese Nature language inference and Semantic similarity calculation Dataset) 本数据及通过翻译加部分人工修正的方法,从英文原数据集生成,可以一定程度缓解中文自然语言推理和语义相似度计算数据集不够的问题。

  • ought/raft 真实世界的注释小样本任务 (RAFT) 数据集是在现实世界中发现的英语数据集的聚合。与每个数据集相关的是二元或多类分类任务,旨在提高我们对语言模型在具有具体现实价值的任务上的表现的理解。每个数据集中仅提供 50 个标记示例。

  • legacy-datasets/wikipedia 维基百科数据集包含所有语言的清理文章。数据集是从维基百科转储 ( https://dumps.wikimedia.org/) 构建的,每种语言都有一个拆分。每个示例都包含一个完整的维基百科文章的内容,并清理以去除 Markdown 和不需要的部分(参考文献等)。

  • codemayq/chinese_chatbot_corpus 对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作。包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料,共8个公开闲聊常用语料和短信,白鹭时代问答等语料。

  • GuocaiL/nlp_corpus open_ner_data网上开放的ner数据集、boson数据集、clue细粒度实体识别数据集、微软实体识别数据集、人民网实体识别数据集(98年)、中药说明书实体识别数据集(“万创杯”中医药天池大数据竞赛)、视频_音乐_图书数据集、微博数据集

  • IWSLT/iwslt2017 IWSLT 2017 多语言任务通过单一的 MT 系统处理文本翻译,包括零样本翻译,包括英语、德语、荷兰语、意大利语和罗马尼亚语。作为非官方任务,传统的双语文本翻译提供英语和阿拉伯语、法语、日语、中文、德语和韩语之间的翻译。

  • verazuo/jailbreak_llms CCS‘24 一个数据集由来自 Reddit、Discord、网站和开源数据集的 15,140 个 ChatGPT 提示(包括 1,405 个越狱提示)组成。为了评估越狱提示的有效性,我们构建了一个问题集,其中包含 OpenAI 使用政策中采用的 13 个禁止场景的 390 个问题。

  • ydli-ai/CSL 首个中文科学文献数据集(CSL),包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)。CSL 数据集可以作为预训练语料,也可以构建许多NLP任务,例如文本摘要(标题预测)、 关键词生成和文本分类等。

  • CohereForAI/aya_dataset 一个 Aya Dataset 多语言教学微调数据集,由开放科学社区通过 Cohere For AI 的 Aya Annotation Platform 策划。该数据集总共包含 204k 个人工注释的提示完成对以及注释者的人口统计数据。该数据集可用于训练、微调和评估多语言LLMs语言。

  • CLUEbenchmark/CLUECorpus2020 通过对Common Crawl的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料。实验产出的模型见:高质量中文预训练模型,大号、超小和相似度预训练模型。

  • anon8231489123/ShareGPT_Vicuna_unfiltered ~100k ShareGPT 对话通过以下方式缩小到 53k:删除非英语对话,删除过多的 unicode(通常表示中文或韩文文本),删除过多的重复字符,删除各种实例“AI 道德化”,删除了带有这些短语的对话(以及此处无法提及的其他短语)。

  • TIGER-Lab/MathInstruct 精心策划的指令调优数据集,轻量级但可通用。MathInstruct 由 13 个数学原理数据集编译而成,其中 6 个是这项工作新策划的。它特别关注思维链 (CoT) 和思维程序 (PoT) 原理的混合使用,并确保广泛覆盖不同的数学领域。

  • timdettmers/openassistant-guanaco 此数据集是 Open Assistant 数据集的子集,可在此处找到:OpenAssistant/oasst1 此数据子集仅包含会话树中评分最高的路径,共有 9,846 个样本。该数据集用于使用 QLoRA 训练 Guanaco。

  • Marsan-Ma-zz/chat_corpus 来自各种开源的聊天语料库集合 open_subtitles 英文电影字幕解析, movie_subtitles_cn 康奈尔电影对话语料库, 歌词_zh 来自 PTT 论坛的歌词,witter_en 来自 twitter 的语料库(700k 行),twitter_en big更大尺寸的 twitter 语料库(5M 行)

  • tasksource/oasst1_pairwise_rlhf_reward 主要用于奖励建模(reward modeling)。该数据集包含2万条多语言的oasst1 reward数据,用于训练基于人类反馈的强化学习模型(RLHF)。这些数据通过比较不同响应的有用性来生成奖励信号,从而帮助改进文本生成模型的表现。

  • paracrawl.eu 更广泛/持续地提供欧洲语言的平行语料库。该语料库是作为 ParaCrawl 项目的一部分发布的,该项目由欧盟通过连接欧洲基金共同资助。第 9 版是 ParaCrawl Action 3 的最终版本:“继续为欧洲语言提供并行语料库的 Web-Scale”。

  • liuhaotian/LLaVA-Instruct-150K 数据集类型:LLaVA Visual Instruct 150K 是一组 GPT 生成的多模态指令跟踪数据。它用于视觉指令调整和构建面向 GPT-4 视觉/语言能力的大型多模态。数据集日期:LLaVA Visual Instruct 150K 于 2023 年 4 月通过提示 GPT-4-0314 API 收集。

  • IceFlameWorm/NLP_Datasets 中文NLP数据集,ATEC语义相似度学习赛数据集、CCKS 2018 微众银行智能客服问句匹配大赛数据集、ATEC + CCKS 2018 组合数据集(互金客服场景)、哈工大BQ_corpus数据集(语义相似度)、哈工大LCQMC数据集(语义相似度)。

  • unicamp-dl/mMARCO MS MS MARCO 段落排名数据集的多语言版本。翻译了 MS MARCO 段落排名数据集,这是一个大规模的 IR 数据集,包含从 Bing 的搜索查询日志中抽取的超过五十万个匿名问题。mMARCO 包括 14 种语言(包括原始英文版本)。

  • BERT-CCPoem 是完全基于一个囊括了几乎所有中国古典诗词的语料库CCPC-Full v1.0训练而成的,该语料库共计926,024首诗词及8,933,162个诗词句子。THUNLP-AIPoet/BERT-CCPoem 中国古典诗词预训练模型

  • GAIR/lima 仅需要少量的指令微调数据(1000条)就可以教会模型产生高质量输出。此外,1000条SFT数据就达到了很好的指令微调效果,也说明了高质量数据对于模型的重要性,这一点与 Textbooks Are All You Need 有异曲同工之妙。

  • allenai.org/data/quoref Quoref 是一个 QA 数据集,用于测试阅读理解系统的核心推理能力。在这个跨度选择基准中,包含来自维基百科的 4.7K 个段落的 24K 个问题,系统必须在段落中选择适当的跨度来回答问题之前解决硬共引用问题。

  • PolyAI/banking77 由网上银行查询组成的数据集,并附有相应的意向。BANKING77数据集在银行领域提供了一组非常细粒度的意图。它包含 13,083 个客户服务查询,标记为 77 个意图。它专注于细粒度的单域意图检测。语言:英语。

  • laion/OIG 中等质量的大型指令数据集以及一个较小的高质量指令数据集 (OIG-small-chip2)。OIG目前为44M。我们将继续发布更大的多样化指令数据集,目标是创建 1 万亿个不同指令的词元——足以从头开始预训练LLM。

  • stanfordnlp/imdb 大型电影评论数据集。这是一个用于二元情感分类的数据集,包含的数据比以前的基准数据集多得多。我们提供一套 25,000 条极性电影评论用于培训,25,000 条用于测试。还有其他未标记的数据可供使用。

  • allenai.org/data/drop 对段落内容的离散推理(Discrete Reasoning Over the content of Paragraphs ),最近引入了许多不同的阅读理解数据集来研究自然语言中的各种现象,从简单的释义匹配和实体类型到实体跟踪和理解上下文的含义。

  • EleutherAI/pile 825 GiB 多样化的开源语言建模数据集,由 22 个较小的高质量数据集组合在一起。此数据集为英文 ( EN )。enron_emails、europarl、free_law、hacker_news、nih_exporter、pubmed、pubmed_central、ubuntu_irc、uspto、github。

  • abisee/cnn_dailymail CNN / DailyMail 数据集是一个英语数据集,包含由 CNN 和每日邮报的记者撰写的 300 多篇独特的新闻文章。当前版本支持抽取式和抽象式摘要,尽管原始版本是为机器阅读和理解以及抽象问答而创建的。

  • qgyd2021/sentence_pair 中文文本句子对数据集。包括:文本语义相似度、客服问句匹配、中文问题匹配、金融语义相似度、助手对话短文本语义匹配、医疗疾病问答迁移学习数据、新冠疫情相似句、自然语言推理数据。

  • m-a-p/MusicPile 用于在大型语言模型中发展音乐能力的预训练语料库。它有 5.17M 个样本和大约 4.16B 个词元,包括网络爬虫语料库、百科全书、音乐书籍、youtube 音乐字幕、abc 符号的音乐作品、数学内容和代码。

  • allenai/sciq SciQ 数据集包含 13,679 个关于物理、化学和生物学等的众包科学考试问题。这些问题采用多项选择形式,每个选项有 4 个答案选项。对于大多数问题,都提供了带有正确答案支持证据的附加段落。

  • csebuetnlp/CrossSum 大型数据集,包括 1500+ 语言对的 170 万个跨语言文章摘要样本,构成 45 种语言。我们使用多语言 XL-Sum 数据集,并使用与语言无关的表示模型通过跨语言检索来对齐用不同语言编写的相同文章。

  • mandyyyyii/scibench SciBench 是源自教学教科书的大学水平科学问题的新基准。该基准测试旨在评估 的LLMs复杂推理能力、强大的领域知识和高级计算能力。我们开发了一种创新的评估协议,用于详细分析推理能力。

  • google-research-datasets/tydiqa 包含 200k 个人工注释的问答对,采用 11 种类型不同的语言,在看不到答案和不使用翻译的情况下编写,专为自动问答系统的训练和评估而设计。此存储库为数据集提供评估代码和基线系统。

  • allenai/dolma 包含 3 万亿个词元的数据集,来自各种网络内容、学术出版物、代码、书籍和百科全书材料。包括:Common Crawl、The Stack、C4、Reddit、PeS2o(STEM论文)、Project Gutenberg(书)、Wikipedia, Wikibooks。

  • TigerResearch/sft_zh Tigerbot 开源项目中微调中文sft-zh数据合集。本合集涵盖本组织下开源的其他中文sft-中文-数据集,不需要重复下载。alpaca 中文、百科问答、名著问答、猜谜语、阅读理解、问答、知乎问答。

  • allenai/math_qa 大规模的数学单词问题数据集。我们的数据集是通过使用一种新的表示语言来使用完全指定的操作程序对 AQuA-RAT 数据集进行注释来收集的。AQuA-RAT提供了问题、选项、理由和正确的选项。

  • TigerResearch/tigerbot-law-plugin Tigerbot 模型rethink时使用的外脑原始数据,法律11大类,共5.5W+条款。宪法、刑法、行政法、司法解释、民法商法、民法典、行政法规、社会法、部门规章、经济法、诉讼与非诉讼程序法。

  • theatticusproject/cuad-qa 合同理解Atticus数据集 (CUAD) v1 是一个包含 510 个商业法律合同中 13,000 多个标签的语料库,这些标签已被手动标记,以识别律师在审查与公司交易相关的合同时寻找的 41 类重要条款。

  • defunct-datasets/the_pile_openwebtext2 OpenWebText2 是 EleutherAi/The Pile 数据集的一部分,是原始 OpenWebTextCorpus 的增强版本,涵盖了从 2005 年到 2020 年 4 月的所有 Reddit 提交,在相应的 PushShift 转储文件发布后,还有几个月可用。

  • Gaokao 是一个以中国高考题作为评测大语言模型能力的数据集,用以评估模型的语言能力和逻辑推理能力。 我们只保留了其中的单项选择题,随机划分后对所有模型进行统一 5-shot 测试。

  • math-ai/StackMathQA StackMathQA 是一个精心策划的 200 万个数学问题和答案的集合,来自各种 Stack Exchange 站点。该存储库旨在为数学和人工智能研究领域的研究人员、教育工作者和爱好者提供综合资源。

  • brightmart/nlp_chinese_corpus 大规模中文自然语言处理语料 维基百科json版(wiki2019zh) 新闻语料json版(news2016zh) 百科类问答json版(baike2018qa) 社区问答json版(webtext2019zh) :大规模高质量数据集 翻译语料(translation2019zh)

  • ehovy/race 大规模的阅读理解数据集,拥有超过28,000个段落和近100,000个问题。该数据集来自中国的英语考试,专为初中生和高中生设计。该数据集可以用作机器理解的训练集和测试集。

  • teleprint-me/phi-1 该数据集是为训练 phi-1 模型而创建的,基于论文“教科书是你所需要的一切”。它包含来自各种教科书的高质量数据,使用 OpenAI 的 GPT-3.5 和 GPT-4 模型进行转换和合成。

  • pkumod/CKBQA ccks2018 ccks2019 包含简单问题和复杂问题的中文 KBQA 数据集。对于每个中文问题,我们都提供了黄金答案和黄金 SPARQL 查询,因此该数据集也可以应用于语义解析任务。

  • CohereForAI/xP3x xP3x(Crosslingual Public Pool of Prompts eXtended)是277种语言和16个NLP任务的提示和数据集的集合。它包含所有 xP3 + 更多!它用于在Aya @ C4AI 项目中培训mT0和BLOOMZ的未来竞争者

  • RyokoAI/Fandom23K Fandom23K是一个数据集,由2023年3月14日至3月18日期间从大约23,665个 Fandom.com wiki抓取的15,616,749篇文章组成。它是即将推出的 BigKnow2022 数据集的一个子集。语言:英语。

  • wangrui6/Zhihu-KOL 一个从知乎抓取数据的简单项目。该项目提供了一种从知乎网站抓取数据的方法。我们使用这个项目来抓取 Open Assistant LLM项目( https://open-assistant.io/ )的数据集。

  • allenai/qasc QASC 是一个专注于句子构成的问答数据集。它由 9,980 道关于小学科学的 8 路多项选择题(8,134 训练集、926 开发集、920 测试集)组成,并带有 17M 个句子的语料库。

  • ontonotes/conll2012_ontonotesv5 OntoNotes 语料库的最终版本,是一个大规模、多体裁、多语言的语料库,手动注释了句法、语义和话语信息。支持的任务:命名实体识别、共指解析、语义角色标记

  • defunct-datasets/the_pile_stack_exchange 此数据集是 EleutherAI/The Pile 数据集的一部分,是处理 stackexchange 数据转储的语言模型数据集,该数据转储是 Stack Exchange 网络上所有用户贡献内容的匿名转储。

  • bigscience/xP3 xP3(Crosslingual Public Pool of Prompts)是46种语言和16个NLP任务的提示和数据集的集合。它用于训练 BLOOMZ 和 mT0,多语言语言模型能够遵循数十种语言的人类指令。

  • MMLU 是包含 57 个多选任务的英文评测数据集,涵盖了初等数学、美国历史、计算机科学、法律等,难度覆盖高中水平到专家水平,是目前主流的LLM评测数据集。

  • LSDSem/story_cloze “故事完形填空测试”是一种新的常识推理框架,用于评估故事理解、故事生成和脚本学习。这个测试要求一个系统为一个四句话的故事选择正确的结局。

  • CLUEbenchmark/CLUEDatasetSearch 搜索所有中文NLP数据集,附常用英文NLP数据集。包括 NER、QA、情感分析、文本分类、文本匹配、文本摘要、机器翻译、知识图谱、语料库、阅读理解等。

  • LooksJuicy/ruozhiba 受COIG-CQIA启发,构建类似数据集,但答案风格相对更简洁。弱智吧精选问题数据来自github提供的疑问句,调用GPT-4获取答案,并过滤掉明显拒答的回复。

  • TigerResearch/tigerbot-kaggle-leetcodesolutions-en-2k Tigerbot 基于leetcode-solutions数据集,加工生成的代码类sft数据集,原始来源:/erichartford/leetcode-solutions

  • beyond/chinese_clean_passages_80m 包含8千余万纯净中文段落,不包含任何字母、数字。文本长度大部分介于50~200个汉字之间。数据是基于CLUE中文预训练语料集进行处理、过滤得到的。

  • argilla/dpo-mix-7k 将 Argilla 构建的 DPO 数据集与 distilabel 相结合的小型鸡尾酒。此数据集的目标是通过仅过滤高评级的选定响应来获得一个小型、高质量的 DPO 数据集。

  • oscar-corpus/OSCAR-2201 通过使用 unoliant 架构对通用爬虫语料库进行语言分类和过滤而获得的一个巨大的多语言语料库。数据以原始形式和重复数据删除形式按语言分发。

  • www.natcorp.ox.ac.uk 英国国家语料库 (BNC) 是一个 1 亿字的书面和口语样本集合,来自各种来源,旨在代表 20 世纪后期英国英语的广泛横截面,包括口语和书面语。

  • yhavinga/ccmatrix 该语料库是使用 CCMatrix 中所述的基于边缘的双文本挖掘技术从网络爬虫中提取的语言对。

  • allenai/wiqa WIQA 数据集 V1 有 39705 个问题,其中包含段落上下文中的扰动和可能的影响。数据集分为 29808 个训练问题、6894 个开发问题和 3003 个测试问题。

  • lmmlzn/Awesome-LLMs-Datasets 从五个维度总结现有的代表性LLMs文本数据集:预训练语料库、微调指令数据集、偏好数据集、评估数据集和传统 NLP 数据集。(定期更新)

  • festvox/datasets-CMU_DoG CMU 文档基础对话数据集 该数据集包含 4112 个对话,每个对话平均 21.43 轮。这使该数据集可以在生成响应的同时提供相关的聊天历史记录。

  • lil-lab/newsroom NEWSROOM是一个大型数据集,用于训练和评估摘要系统。它包含130万篇文章和摘要,由38家主要出版物的新闻编辑室的作者和编辑撰写。

  • teknium/OpenHermes-2.5 Open Hermes 2.5 数据集是 Open Hermes 1 数据集的延续,规模更大、更多样化、质量更高,达到 100 万,主要是合成生成的指令和聊天样本。

  • RyokoAI/ScribbleHub17K ScribbleHub17K 是一个数据集,由原始故事共享网站 Scribble Hub 上发布的大约 17,500 个系列的 373,000 多个章节的文本组成。语言:英语。

  • openai/miniF2F 正式的数学基准测试(跨多个正式系统进行翻译),由奥林匹克竞赛(AMC、AIME、IMO)以及高中和本科数学课程的练习陈述组成。

  • msra-nlc/ChineseKBQA NLPCC-ICCPOL 2016 Shared Task: Open Domain Chinese Question Answering 开放域中文问答数据集

  • RyokoAI/Honeyfeed3600 Honeyfeed3600 是一个数据集,由英语网络小说网站 Honeyfeed 上发布的大约 3,600 个系列的 38,000 多个章节的文本组成。语言:英语。

  • liucongg/NLPDataSet 数据集包括:DRCD、cmrc2018、chinese-squad、中医数据集、法研杯2019、莱斯杯机器阅读理解、疫情QA、WebQA、Dureader等9个数据集。

  • RyokoAI/ShareGPT52K 该数据集是在关闭之前通过 ShareGPT API 抓取的大约 90,000 个对话的集合。这些对话包括用户提示和 OpenAI 的 ChatGPT 的响应。

  • qgyd2021/lip_service_4chan 基于网站 吵架对线陪练员 的服务. 我们采用对话数据中的提问做 prompt, 然后调用 吵架对线陪练员 来获得答案.满嘴芬芳.

  • wavewangyue/NLPCC-MH 中文多跳问答数据集 基于 NLPCC 所包含的单跳问题,通过扩充问句内容的方式,构建了专注多跳问题的中文 KBQA 数据集

  • liuhuanyong/DomainWordsDict 涵盖68个领域、共计916万词的专业词典知识库,可用于文本分类、知识增强、领域词汇库扩充等自然语言处理应用。

  • thu-coai/CrossWOZ 中文跨域任务导向对话数据集.它包含5个领域的6K对话会话和102K语音,包括酒店,餐厅,景点,地铁和出租车。

  • TigerResearch/pretrain_zh Tigerbot pretrain数据的中文部分。包含(未压缩前) 中文书籍zh-books 12G, 中文互联网zh-webtext 25G, 中文百科zh-wiki 19G。

  • alipay/RJU_Ant_QA RJUA-QA(仁济医院泌尿外科和蚂蚁集团协作问答数据集)是一个创新的泌尿外科医学专业QA推理数据集。

  • m-a-p/MusicPile-sft MusicPile-sft 是 MusicPile 的一个子集。它包含 1.14M 个样本,音乐语言与乐谱(abc 符号)的比例为 2:1。

  • RyokoAI/CNNovel125K CNNovel125K是一个数据集,由从中国小说托管网站 http://ibiquw.com 下载的大约125,000部小说组成。

  • stanfordnlp/sentiment140 Sentiment140 由带有表情符号的 Twitter 消息组成,这些表情符号用作情绪分类的嘈杂标签。

  • Leymore/ruozhiba 从百度弱智吧上收集的一系列帖子。旨在启发人们娱乐性使用 ChatGPT 等 LLM 时的思路。

  • meta-math/MetaMathQA 所有 MetaMathQA 数据都是从 GSM8K 和 MATH 的训练集增强的。所有增强数据均来自测试集。

  • nlpcc2018 选择task7 Open Domain Question Answering,即可下载数据集。数据集包含知识图谱和问答数据

  • facebookresearch/anli 对抗性的自然语言推理基准,该数据集通过迭代、对抗性的人与模型在环程序收集。

  • AndyChiang/cloth CLOTH 是一个数据集,收集了来自初中和高中英语考试的近 100,000 道完形填空问题。

  • C-Eval 数据集 是一个全面的中文基础模型评测数据集,涵盖了 52 个学科和四个难度的级别。

  • jkszw2014/bert-kbqa-NLPCC2017 A trial of kbqa based on bert for NLPCC2016/2017 Task 5 (基于BERT的中文知识库问答实践)

  • roneneldan/TinyStories 包含合成生成的(由 GPT-3.5 和 GPT-4)仅使用少量词汇的短篇小说的数据集。

  • pengxiao-song/awesome-chinese-legal-resources 中国法律数据集和相关资源的精彩集合。致力于收集全面的中文法律数据源

  • rkadlec/ubuntu-ranking-dataset-creator 从 Ubuntu 语料库对话框中为排名任务创建训练、有效和测试数据集的脚本。

  • esdurmus/Wikilingua 多语言抽象摘要数据集,来自 WikiHow 的 18 种语言的 ~770k 篇文章和摘要对。

  • microsoft/wiki_qa WikiQA语料库是一组公开可用的问题和句子对,用于研究开放领域的问答。

  • chin-gyou/MovieChats MovieChats:在封闭域中像人类一样聊天,电影内容的聊天对话数据集

  • hendrycks/math MATH 数据集 (NeurIPS 2021),使用 MATH 数据集衡量数学问题的解决。

  • legacy-datasets/mc4 已弃用:数据集“mc4”已弃用,将被删除。请改用“allenai/c4”。

  • castorini/mr.tydi 基于 TyDi 的多语言基准数据集,涵盖 11 种类型不同的语言。

  • LDNOOBW/List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words 各种语言的肮脏、顽皮、淫秽和其他坏话和词语的清单

  • victorsungo/MMDialog 面向多模态开放域会话的大规模多轮对话数据集。

  • TigerResearch/tigerbot-zhihu-zh-10k Tigerbot 基于开源搜集的知乎数据生成的sft问答对

  • data.statmt.org/news-crawl 通过爬虫技术获得的各种语言的新闻内容。

  • NiuTrans/Classical-Modern 非常全的文言文(古文)-现代文平行语料

  • chatopera/Synonyms 用于自然语言处理和理解的中文同义词。

  • krystalan/SGSum 一个面向体育赛事摘要的人工标注数据集

  • qkaren/Counterfactual-StoryRW “虚构故事推理和生成”的数据集和代码

  • PhilipMay/stsb-multi-mt 机器翻译的多语言 STS 基准数据集。

  • projects/personachat Persona-Chat 数据集人物聊天对话数据

  • archive.org/stackexchange archive.org 存档的 stackexchange 的文件

  • community-datasets/setimes 英语和东南欧语言的平行语料库

  • jgc128/mednli 临床领域的自然语言推理数据集

  • cluebenchmark/OCNLI 中文原版自然语言推理任务

  • dqwang122/MLROUGE 用于多语言摘要的 ROUGE

  • ywjawmw/TCM_KG 中医TCM-neo4j 知识图谱

  • sailxuOvO/CC-Riddle 汉字谜语问答数据集

  • b3x0m/Chinese-H-Novels 17plus小说语料库。

  • goto456/stopwords 中文常用停用词表

Transformer库与优化

  • state-spaces/mamba Mamba:具有选择性状态空间的线性时间序列建模。Mamba 是一种新的状态空间模型架构,在语言建模等信息密集数据上显示出良好的性能,而之前的二次模型在 Transformers 方面存在不足。它基于结构化状态空间模型的进展,并本着FlashAttention的精神进行高效的硬件感知设计和实现。基础模型现在为深度学习中大多数令人兴奋的应用提供动力,几乎普遍基于 Transformer 架构及其核心注意力模块。许多次二次时间架构(例如线性注意力、门控卷积和循环模型以及结构化状态空间模型(SSM))已被开发出来,以解决 Transformer 在长序列上的计算效率低下问题,但它们在重要模态上的表现不佳,例如作为语言。我们发现此类模型的一个关键弱点是它们无法执行基于内容的推理,并做出一些改进。首先,简单地让 SSM 参数作为输入的函数,可以解决其离散模态的弱点,从而允许模型根据当前标记选择性地沿序列长度维度传播或忘记信息。其次,尽管这种变化阻止了高效卷积的使用,但我们在循环模式下设计了一种硬件感知的并行算法。我们将这些选择性 SSM 集成到简化的端到端神经网络架构中,无需注意力机制,甚至不需要 MLP 模块 (Mamba)。 Mamba 喜欢快速推理(5 × 比 Transformer 更高的吞吐量)和序列长度的线性缩放,并且其性能在高达百万长度序列的实际数据上得到提高。作为通用序列模型骨干,Mamba 在语言、音频和基因组学等多种模式上实现了最先进的性能。在语言建模方面,我们的 Mamba-3B 模型在预训练和下游评估方面都优于相同大小的 Transformer,并且与两倍大小的 Transformer 相匹配。

  • lhao499/RingAttention 使用块态变换器实现近乎无限的上下文的环形(Ring)注意力。Blockwise Parallel Transformer (BPT) 以分块方式计算注意力和前馈,允许训练和推断序列,其长度是标准内存效率注意力方法(如flash(闪光)注意力)可管理的序列的四倍。Ringwise Parallel Transformer 的环形注意力使训练序列的长度达到“设备数量”的长度,比 BPT 的长度长几倍。这是通过将注意力和前馈计算分布在多个设备上并将通信与计算重叠来实现的。由于注意力和前馈网络的块计算,可以在上下文大小上使用数千万个令牌进行训练,而不会增加任何通信或计算开销。

  • lucidrains/MEGABYTE-pytorch 在 Pytorch 中实现 MEGABYTE,使用多尺度转换器预测百万字节序列。为了解决当前transformer模型对输入的限制,MetaAI提出的MetaByte引入了一个概念,称为patch,将模型的输入序列分割成固定大小的patches,这是一个类似于token的概念,但是显然比token覆盖的范围要宽。然后通过一个全局的模块,建立一个大的自回归transformer,把输入和输出从tokens变成patches。同时,引入了一个本地的模块,用于每个patch内部的字节的预测,其输入是从全局模块来的上下文patches表示结果,输出是预测下一个patch,这是一个小的自回归模型。

  • lucidrains/ring-attention-pytorch Ring Attention 的实现,来自 Berkeley AI 的 Liu 等人,在 Pytorch 中。它基本上将数据跨序列维度(而不是 batch)拆分,并将 ring reduce 应用于注意力矩阵 flash attention 样式的瓦片的处理。我相信这被用于最新 Gemini 的 1-1000 万tokens。至少是某种形式的;另一种可能性是在 RMT 之上未发布的改进。此外,该存储库还包含 Striped Attention 的逻辑,这是一篇后续论文,用于排列序列以更好地平衡自回归转换器的工作负荷。它还包含对分组查询注意力的支持,由 Llama 系列注意力模型推广。这将进一步节省 Ring Reduce 期间的通信成本。

  • lucidrains/performer-pytorch 一个高效的线性广义注意力框架(generalized attention framework),允许基于不同相似性度量(核)的一类广泛的注意力机制。该框架通过谷歌的新算法 FAVOR+(Fast Attention Via Positive Orthogonal Random Features)来实现,后者能够提供注意力机制的可扩展低方差、无偏估计,这可以通过随机特征图分解(常规 softmax-attention)来表达。该方法在保持线性空间和时间复杂度的同时准确率也很有保证,也可以应用到独立的softmax运算。此外,还可以和可逆层等其他技术进行互操作。

  • FlagOpen/FlagAttention 用 Triton 语言实现的内存高效注意力运算符的集合。它的灵感来自FlashAttention和FlashAttention v2,并扩展了它们以满足大型语言建模研究的需求。FlashAttention 和 FlashAttention-2 可以节省内存占用和流量以提高内存效率,但要修改它们并添加更多选项和功能需要熟练掌握 cuda 编程。因此,Flag Attention 是用 Triton 语言实现的,它更容易用于编写自定义 GPU 内核。

  • thuml/Flowformer 任务通用的线性复杂度Transformer 。在图论中的经典网络流(Flow network)模型中,“守恒”(Conservation)是一个重要现象,即每个节点的流入量等于流出量。受到“固定资源情况下,必定引起竞争”的启发,通过网络流视角重新分析经典注意力机制中的信息流动,并通过守恒性质将竞争引入注意力机制设计,以避免平凡注意力问题。

  • cloneofsimo/RealFormer-pytorch 通过在Transformer架构上进行改造来提升BERT训练效果,具体为:使用attention残差机制改造Transformer。1、realformer在标签数量较少的分类任务上有一定的提升效果,提升的幅度与数据集和任务难度有关,一般越难的任务提升的幅度越大。2、realformer在标签数量达到一定的数值时,其效果便会大打折扣,在某些数据集上甚至会无法学习。

  • NVIDIA/transformer-ls 将原始 Transformer 的全部自注意力替换为考虑长期和短期相关性的有效注意力。每个查询都关注分段滑动窗口中的标记以捕获短期相关性,以及动态投影特征以捕获长期相关性。为了对齐原始特征、投影特征向量的范数并提高聚合的效率,使用两组层归一化对原始特征向量和投影特征向量进行归一化。

  • NetEase-FuXi/EET 针对Transformer-based大模型和长序列场景的高性能pytorch推理插件。高性能:设计高度优化的CUDA内核。灵活:提供包括op api、model api和pipelines应对不同需求。 使用: 几行代码即可完成。适配主流ai框架,包括fairseq和transformers。bert模型整体性能加速1.2x到7.x倍,gpt模型整体性能加速2.x到7.x倍。

  • ml-jku/hopfield-layers NLP 领域里大热的 Transformer,其网络更新规则其实是和 Hopfield 网络在连续状态下是相同的。Transformer 中的这种注意力机制其实等价于扩展到连续状态的 modern Hopfield 网络中的更新规则。作者来自奥地利林茨大学、挪威奥斯陆大学,与 Jürgen Schmidhuber 合著 LSTM 的 Sepp Hochreiter 也是作者之一。

  • microsoft/fastformers 实现Transformers在CPU上223倍的推理加速 它能对基于Transformer的模型在各种NLU任务上实现高效的推理时间性能。论文FastFormers的作者表明,利用知识蒸馏、结构化剪枝和数值优化可以大幅提高推理效率。我们表明,这种改进可以达到200倍的加速,并在22倍的能耗下节省超过200倍的推理成本。

  • lucidrains/recurrent-memory-transformer-pytorch 在 Pytorch 中实现 Recurrent Memory Transformer (openreview)。他们最近发表了一篇简短的后续论文,证明它至少能够复制 100 万个词元的信息。毫无疑问,在我看来,RMT 会成为比 AdA 更强大的 RL 代理,AdA 只是一个 Transformer-XL - 更新:递归内存决策转换器

  • Adamdad/kat Kolmogorov–Arnold Transformer (KAT)论文的 PyTorch/GPU 实现,它用 KAN 层替换了 Transformer 中的 MLP 层。Vanilla ViT + KAN 难以有效扩展。我们引入了 KAT 模型,它将 GR-KAN 集成到 Transformer 中,用于 ImageNet 等大规模训练场景,实现了显着的性能提升。

  • google-research/bigbird 基于稀疏注意力(随机注意力机制+局部注意力机制+全局注意力机制)的transformer,它将基于transformer的模型(例如 BERT)扩展到更长的序列。 由于能够处理更长的上下文,BigBird 极大地提高了各种 NLP 任务(例如问答和摘要)的性能。

  • mit-han-lab/lite-transformer 轻量级Transformer,注意力长短搭配 长依赖和短依赖的剥离,并引入卷积来捕捉短依赖,总体思想和Transformer之自适应宽度注意力有点类似。文章中发现低层次上的注意力都比较短,层次越高,注意力的所关注的依赖越长。

  • dingo-actual/infini-transformer Infini-Transformer (https://arxiv.org/abs/2404.07143) 是一个功能强大且用途广泛的 transformer 模型,专为各种自然语言处理任务而设计。它利用最先进的技术和架构来实现卓越的性能和无限上下文长度的可扩展性。

  • huggingface/transformers 支持Pytorch、TensorFlow和JAX的最先进的机器学习Transformers库。提供了数以千计的预训练模型,支持100多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。它的宗旨让最先进的 NLP 技术人人易用。

  • chuanyang-Zheng/DAPE DAPE 通过动态调整位置编码,使其能够根据输入上下文和学习到的固定先验进行自适应调整。这种创新方法不仅保留了局部和反局部信息,还在模型训练长度和长度泛化方面显著提升了模型性能。

  • NVIDIA/Megatron-LM 由 NVIDIA 的应用DL研究团队开发的大型、强大的transformer。开发了高效、模型并行(张量、序列和流水线)和多节点预训练,基于 Transformer 的模型(例如 GPT、BERT 和 T5)使用混合精度。

  • lucidrains/x-transformers 一个简单但完整的全注意力转换器,具有来自各种论文的一组有希望的实验特征 Full encoder / decoder 、Decoder-only (GPT-like) 、Encoder-only (BERT-like) 、Image -> caption 。

  • NVIDIA/FasterTransformer Transformer相关优化,包括BERT、GPT 。提供了一个脚本和配方来运行高度优化的基于转换器的编码器和解码器组件,它由 NVIDIA 测试和维护。可以带来性能加速。

  • microsoft/torchscale PyTorch 库,允许研究人员和开发人员高效地扩展 Transformers。为基础模型和 A(G)I 开发新的架构,重点是建模通用性和能力,以及训练稳定性和效率。

  • adapter-hub/adapter-transformers HuggingFace 的 Transformers 的友好分支,将适配器添加到 PyTorch 语言模型。可用作 HuggingFace 的直接替代品,并定期同步新的上游更改。

  • laiguokun/Funnel-Transformer Transformer优化,一种新的自我注意模型,可以将隐藏状态的序列逐渐压缩为较短的状态,从而降低了计算成本。

  • mit-han-lab/hardware-aware-transformers 用于高效自然语言处理的硬件感知型Transformers.实现高达3倍的加速和3.7倍的较小模型尺寸,不会降低性能。

  • cmhungsteve/Awesome-Transformer-Attention 包含视觉转换器和注意力机制(Vision Transformer&Attention)的综合论文列表,包括论文,代码和相关网站。

  • sacmehta/delight 提出了一个更深更轻的Transformer,DeLighT,它的性能与Transformer相似,甚至更好,平均少了2到3倍的参数。

  • microsoft/DeBERTa 注意力分散的增强解码的BERT,使用了BERT和RoBERTa模型,显着提高了预训练的效率和下游任务的性能。

  • bytedance/lightseq 高效的序列处理与生成库,提供 Bert, GPT, Transformer,beam search, diverse beam search, topp/topk sampling

  • BSlience/transformer-all-in-one 记录了学习Transformer过程中的一些疑问和解答,并且实现Transformer的全过程。

  • ThilinaRajapakse/simpletransformers 用于分类、NER、QA、语言建模、语言生成、T5、多模态和会话AI的transformer

  • jadore801120/attention-is-all-you-need-pytorch PyTorch 实现的Transformer模型在“注意力就是你所需要的一切”。

  • Tencent/TurboTransformers 在 CPU 和 GPU 上进行Transformer推断的快速且用户友好的运行库。

  • alipay/Pyraformer 用于长期时间序列建模和预测的低复杂度金字塔注意。

  • ELS-RD/transformer-deploy Hugging Face Transformer 亚毫秒推理和部署到生产环境

  • xuanqing94/FLOATER 基于连续动态系统学习更加灵活的位置编码

  • pytorch/fairseq Python的Facebook AI Research Sequence-to-Sequence包。

  • mlpen/Nystromformer 利用了 Nyström 方法来近似标准的Attention。

  • mit-han-lab/lite-transformer 具有长距离短距离注意的Lite transformer

  • NielsRogge/Transformers-Tutorials HuggingFace的 Transformers 库制作的演示。

  • HazyResearch/flash-attention 快速且节省内存的精确注意力

  • facebookresearch/bit 鲁棒二值化多次蒸馏Transformer

  • allenai/longformer 用于长文档的类似BERT的模型

  • idiap/fast-transformers Pytorch实现的快速Transformer库

  • lucidrains/FLASH-pytorch 线性时间的Transformer变体

  • Tongjilibo/bert4torch 优雅的pytorch transformers库

  • openai/sparse_attention 稀疏Attention

关系抽取_信息抽取

  • zjunlp/IEPile [ACL 2024 年]IEPile:大规模信息提取语料库。我们收集并清理了现有的信息提取 (IE) 数据集,总共集成了 26 个英文 IE 数据集和 7 个中文 IE 数据集。如图所示,这些数据集涵盖多个领域,包括一般、医疗、金融等。在这项研究中,我们采用提出的 “ schema-based batched instruction generation strategy ” 创建了一个名为 IEPile 的大规模、高质量、双语(中英文)IE 指令调优数据集,包含大约 0.32B 个标记。基于 IEPile,我们使用 Lora 技术对百川2-13B-Chat 和 LLaMA2-13B-Chat 模型进行了微调。实验表明,微调的百川2-IEPile和LLaMA2-IEPile模型在全监督训练集上表现显著,并在零样本信息提取任务方面取得了改进。

  • XueFuzhao/GDPNet 构建一个潜在的多视图图来捕获令牌之间的各种可能关系。然后细化这个图来选择重要的词进行关系预测。最后,将细化图的表示和基于 BERT 的序列表示连接起来以进行关系提取。提出的 GDPNet(高斯动态时间扭曲池化网络)中,利用高斯图生成器 (GGG) 来生成多视图图的边。然后通过动态时间扭曲池 (DTWPool) 对图形进行细化。在 DialogRE 和TACRED上,表明在对话级 RE 上实现了最佳性能,并且在句子级 RE 上与最先进的性能相当。

  • PaddleNLP/DuIE LIC2021 DuIE 关系抽取基线 .信息抽取旨在从非结构化自然语言文本中提取结构化知识,如实体、关系、事件等。关系抽取的目标是对于给定的自然语言句子,根据预先定义的schema集合,抽取出所有满足schema约束的SPO三元组。schema定义了关系P以及其对应的主体S和客体O的类别。 本基线系统基于预训练语言模型ERNIE设计了结构化的标注策略,可以实现多条、交叠的SPO抽取。

  • universal-ie/UIE 统一的文本到结构生成框架UIE,它可以对不同的IE任务进行统一建模,自适应地生成目标结构,并且可以从不同的知识源中学习通用的IE能力。实验结果表明,UIE在有监督和低资源环境下都取得了非常有竞争力的性能,验证了其通用性、有效性和可转移性。

  • IAAR-Shanghai/xFinder xFinder:针对大型语言模型的稳健且精确的答案提取。如果您正在开发 Benchmark ,您可以使用我们的 xFinder 代替传统的 RegEx 方法,从LLM响应中提取关键答案。这将帮助您提高评估结果的准确性,从而对模型性能进行更可靠、更有意义的比较和验证。

  • xiaoqian19940510/Event-Extraction 近年来事件抽取方法总结,包括中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等类型,DMCNN、FramNet、DLRNN、DBRNN、GCN、DAG-GRU、JMEE、PLMEE等方法

  • dolphin-zs/Doc2EDAG 中国金融事件提取的端到端文档级框架 。基于实体的有向无环图(EDAG), 以自回归方式生成一个 EDAG。这样,一个硬表填充任务被分解为几个更易于处理的路径扩展子任务。

  • princeton-nlp/PURE PURE:从文本中提取实体和关系,包含 PURE(普林斯顿大学关系提取系统)的 (PyTorch) 代码和预训练模型,如论文所述:一种令人沮丧的实体和关系提取的简便方法。

  • zjunlp/DocED 跨句事件抽取旨在研究如何同时识别篇章内多个事件。提出多层双向网络Multi-Layer Bidirectional Network融合跨句语义和关联事件信息,从而增强内各事件提及的判别。

  • tonytan48/Re-DocRED 广泛使用的文档级关系抽取基准。然而,DocRED数据集包含很大比例的假阴性示例(注释不完整)。我们修订了DocRED数据集中的4,053个文档并解决了其问题。

  • yao8839836/kg-bert 知识库补全的工作,结合BERT可以将更丰富的上下文表示结合进模型中,在三元组分类、链接预测以及关系预测中达到了SOTA。

  • dair-iitd/OpenIE-standalone 华盛顿大学 (UW) 和德里印度理工学院 (IIT 德里) 的主要开放信息提取 (Open IE) 系统。一个开放的系统提取文本中的关系。

  • zjunlp/KnowPrompt 把关系标签之间的知识整合到关系提取的prompt-tuning中,并提出了一种使用协同优化的Knowledge-aware Prompt-tuning方法。

  • loujie0822/DeepIE 基于深度学习的信息抽取技术,实体抽取实体关系联合抽取属性抽取实体链接/标准化事件抽取摘要抽取

  • thunlp/NREPapers 神经网络关系抽取必读论文列表,覆盖了较为经典的神经网络关系抽取领域的已发表论文、综述等。

  • liuhuanyong/EventTriplesExtraction 基于依存句法与语义角色标注的事件三元组抽取,可用于文本理解如文档主题链,事件线等应用。

  • lemonhu/open-entity-relation-extraction 基于依存句法分析,实现面向开放域文本的知识三元组抽取(实体和关系抽取)及知识库构建。

  • thunlp/OpenNRE 开源的神经网络关系抽取工具包,包括了多款常用的关系抽取模型,CNN、BERT、bag-level PCNN-ATT。

  • roomylee/awesome-relation-extraction 专门用于关系提取的精选资源列表,关系提取是自然语言处理 (NLP) 中最重要的任务之一。

  • thunlp/fewrel 大规模 Few-shot 关系提取数据集,包含一百多个关系和数万个跨不同领域的带注释实例。

  • zjunlp/openue 开源的通用文本信息抽取工具 三元组抽取 事件抽取 槽填充和意图检测

  • percent4/knowledge_graph_demo 展示三元组抽取后形成的知识图谱,包括几本小说的实体关系

  • weizhepei/CasRel 用于关系三重提取的新颖级联二进制标记关系抽取框架.

  • thunlp/DocRED 大规模文档级关系提取数据集的数据集和代码。ACL 2019

  • cuhksz-nlp/RE-AGCN 使用注意力图卷积网络的依赖驱动关系提取的实现。

  • lancopku/Chinese-Literature-NER-RE-Dataset 中文文学文本语篇级命名实体识别与关系抽取数据集

  • 131250208/TPlinker-joint-extraction 联合抽取模型 实体关系联合抽取标注关系抽取方案

  • cuhksz-nlp/RE-TaMM 于词依存信息类型映射记忆神经网络的关系抽取

  • TanyaZhao/MRC4ERE_plus 基于机器阅读理解的联合实体关系提取框架

  • 231sm/Reasoning_In_EE 利用本体表示学习实现低资源的事件抽取

  • OpenKG-ORG/OpenUE 一个从文本中通用提取的开放工具包

  • bojone/GPLinker 基于GlobalPointer的实体/关系/事件抽取

  • xhw205/GPLinker_torch CMeIE/CBLUE/CHIP/实体关系抽取/SPO抽取

其他_NLP自然语言处理

  • oxford-cs-deepnlp-2017/lectures 此存储库包含牛津大学 Hilary Term 2017 中提供的深度自然语言处理课程的讲座幻灯片和课程描述。这是一门关于自然语言处理的高级课程。自动处理自然语言输入并生成语言输出是通用人工智能的关键组成部分。人类交流中固有的歧义和噪声使传统的符号 AI 技术无法有效地表示和分析语言数据。最近,基于神经网络的统计技术在自然语言处理方面取得了许多显著的成功,从而在该领域引起了极大的商业和学术兴趣。这是一门应用课程,侧重于使用递归神经网络分析和生成语音和文本的最新进展。我们介绍了相关机器学习模型的数学定义,并推导出了它们相关的优化算法。该课程涵盖了神经网络在 NLP 中的一系列应用,包括分析文本中的潜在维度、将语音转录为文本、在语言之间进行翻译以及回答问题。这些主题分为三个高级主题,从理解神经网络在顺序语言建模中的使用,到理解它们作为转导任务的条件语言模型的使用,最后到将这些技术与其他机制相结合进行高级应用的方法。在整个课程中,还讨论了此类模型在 CPU 和 GPU 硬件上的实际实现。本课程由 Phil Blunsom 组织,并与 DeepMind 自然语言研究小组合作提供。

  • ripperhe/Bob Bob 是一款 macOS 平台的翻译和 OCR 软件。主要特性:翻译功能:划词翻译、截图翻译、输入翻译、翻译多开、自定义插件、自动识别语种、驼峰拆分、蛇形拆分、AppleScript 调用、PopClip 调用。OCR 功能:截图 OCR、静默截图 OCR、访达选图;OCR、离线识别、连续识别、二维码识别、自动复制、智能分段;支持的服务:文本翻译:系统翻译、火山翻译、腾讯翻译君、阿里翻译、百度翻译、有道翻译、彩云小译、小牛翻译、Google 翻译、Microsoft 翻译、Amazon 翻译、DeepL 翻译、OpenAI 翻译;文本识别:离线文本识别、火山 OCR、腾讯 OCR、腾讯图片翻译、百度 OCR、有道 OCR、Google OCR;语音合成:离线语音合成、火山语音合成 、腾讯语音合成、Google 语音合成、Microsoft 语音合成

  • opendatalab/PDF-Extract-Kit 用于高质量 PDF 内容提取的综合工具包。PDF 文档包含丰富的知识,但从 PDF 中提取高质量内容并非易事。为了解决这个问题,我们将 PDF 内容提取的任务分解为几个组件:布局检测:使用 LayoutLMv3 模型进行区域检测,如图片、表格、标题、文本等;公式检测:使用 YOLOv8 检测公式,包括内联公式和孤立公式;公式识别:使用UniMERNet进行公式识别;光学字符识别:使用PaddleOCR进行文本识别;通过注释各种 PDF 文档,我们训练了用于布局检测和公式检测的鲁棒模型。我们的流程可以在各种类型的PDF文档(如学术论文、教科书、研究报告和财务报表)上实现准确的提取结果,即使在扫描模糊或水印的情况下也非常强大。

  • piskvorky/gensim Python 库,用于主题建模、文档索引和大型语料库的相似性检索。目标受众是自然语言处理 (NLP) 和信息检索 (IR) 社区。特征:所有算法都与内存无关,与语料库大小无关(可以处理大于 RAM、流式、核外的输入),易于插入您自己的输入语料库/数据流(简单的流式 API),易于使用其他向量空间算法进行扩展(简单转换 API),流行算法的高效多核实现,例如在线潜在语义分析 (LSA/LSI/SVD)、潜在狄利克雷分配 (LDA)、随机投影 (RP)、分层狄利克雷过程 (HDP) 或 word2vec 深度学习。分布式计算:可以在计算机集群上运行潜在语义分析和潜在狄利克雷分配。

  • alibaba/EasyNLP EasyNLP 是 PyTorch 中一个易于使用的 NLP 开发和应用程序工具包,于 2021 年首次在阿里巴巴内部发布。它采用可扩展的分布式训练策略构建,并支持适用于各种 NLP 应用程序的全面 NLP 算法套件。EasyNLP 集成了知识蒸馏和小样本学习,用于登陆大型预训练模型,以及各种流行的多模态预训练模型。它为实际应用程序提供了模型训练、推理和部署的统一框架。它已为阿里巴巴集团内的 10 多个 BU 和 20 多个业务场景提供支持。它与 AI 平台 (PAI) 产品无缝集成,包括用于开发的 PAI-DSW、用于云原生训练的 PAI-DLC、用于服务的 PAI-EAS 和用于零代码模型训练的 PAI-Designer。

  • JohnSnowLabs/spark-nlp 建立在 Apache Spark 之上的最先进的自然语言处理库。它为机器学习管道提供了简单、高性能和准确的 NLP 注释,这些管道可在分布式环境中轻松扩展。Spark NLP 自带 36000+ 种预训练流水线和模型,支持 200+ 多种语言。它还提供诸如标记化、分词、词性标记、单词和句子嵌入、命名实体识别、依赖项解析、拼写检查、文本分类、情感分析、标记分类、机器翻译(+180 种语言)、摘要、问答、表格问答、文本生成、图像分类、图像到文本(字幕)、自动语音识别、零样本学习等任务,以及更多 NLP 任务。

  • lupantech/InterGPS 基于符号推理的几何数学题求解器。建立了一个新的大规模基准数据集,称为 Geometry3K。这些数据从两本中学教材收集,涵盖了北美 6 到 12 年级的几何知识。每道题收集了 LaTeX 格式的问题文本、几何图形、四个选项和正确答案。为了模型的精细评估,每个数据标注了问题目标和几何图形的类型。Inter-GPS 将几何关系集 R 和定理集 KB 作为输入,应用定理预测器预测适用的定理序列,逐步对关系集进行符号推理,从而输出问题目标的答案。

  • VikParuchuri/marker 快速将PDF转换为Markdown,准确无误。支持各种文档(针对书籍和科学论文进行了优化);支持所有语言;删除页眉/页脚/其他工件;设置表格和代码块的格式;提取并保存图像以及 Markdown;将大多数方程转换为latex;适用于 GPU、CPU 或 MPS。Marker 是深度学习模型的管道:提取文本,必要时进行 OCR(heuristics、surya、tesseract);检测页面布局并查找阅读顺序 (surya);清理和格式化每个块;合并块并对完整文本进行后处理

  • ryanzhumich/Contrastive-Learning-NLP-Papers NLP 对比学习是一种学习嵌入空间的技术,使得相似的数据样本对具有接近的表示,而不同的样本彼此相距很远。 它可以在有监督或无监督的设置中使用,使用不同的损失函数来生成特定于任务或通用的表示。 在各种 NLP 任务中提供了有希望的性能改进,而且还提供了所需的特性,例如与任务无关的句子表示、忠实的文本生成、零样本和少样本设置中的数据高效学习、可解释性和可解释性 .

  • RUCAIBox/CRSLab 用于构建会话推荐系统(Conversational Recommender System CRS)的开源工具包。 对话推荐任务主要拆分成三个任务:推荐任务(生成推荐的商品),对话任务(生成对话的回复)和策略任务(规划对话推荐的策略)。模型 CRS 模型 ReDial、KBRD、KGSF、TG-ReDial、推荐模型 Popularity、GRU4Rec、SASRec、TextCNN、R-GCN、BERT、对话模型 HERD、Transformer、GPT-2 策略模型 PMI、MGCG、Conv-BERT、Topic-BERT、Profile-BERT

  • microsoft/presidio 适用于文本和图像的上下文感知、可插拔和可定制的数据保护和去识别化 SDK,针对文本和图像的上下文感知、可插入和可定制的 PII 去识别服务。Presidio (源自拉丁语 praesidium“保护、驻军”)有助于确保敏感数据得到妥善管理和治理。它为私人实体提供快速的文本识别和匿名模块,例如信用卡号、姓名、位置、社会保险号、比特币钱包、美国电话号码、财务数据等。

  • linzehui/mRASP 通过利用对齐信息预训练多语言神经机器翻译. 代表多语言随机对齐替换预训练,是一种预训练的多语言神经机器翻译模型。 它在包含 32 个语言对的大规模多语言语料库上进行了预训练。 获得的模型可以在下游语言对上进一步微调。 为了有效地使具有相似含义的单词和短语在多种语言的表示中更接近,我们引入了随机对齐替换 (RAS) 技术。

  • salesforce/decaNLP 一项多任务挑战,涵盖十项任务:问答 (SQuAD)、机器翻译 (IWSLT)、摘要 (CNN/DM)、自然语言推理 (MNLI)、情感分析 (SST)、语义角色标签 (QA-SRL)、零样本关系提取 (QA-ZRE)、面向目标的对话 (WOZ)、语义解析 (WikiSQL) 和常识推理 (MWSC)。每个任务都转换为问答,这使得使用我们新的多任务问答网络 (MQAN) 成为可能。

  • MuCGEC/scorers/ChERRANT 借鉴了英文上主流的GEC(Grammatical Error Correction 语法纠错)评估工具ERRANT,搭建了中文GEC评估工具ChERRANT(Chinese ERRANT)。ChERRANT的主要功能是通过对比预测编辑和标准编辑,计算预测结果的精确度、召回度、F值指标,从而评估语法纠错模型的性能。应用:搜索query纠错、语音纠错、舆情文本纠错

  • huseinzol05/NLP-Models-Tensorflow 抽象总结 聊天机器人依赖解析器 实体标记 提取摘要 发电机 语言检测 神经机器翻译 光学字符识别 POS标签 问题答案 句子对 语音转文字 拼写校正 小队问题答案 抽干 文字扩充 文字分类 文字相似度 文字转语音 主题生成器 主题建模 无监督提取摘要 矢量化器 老少少的声码器 可视化 注意Attention

  • sebastianruder/NLP-progress 它旨在涵盖传统和核心NLP任务,如依赖解析和词性标记,以及最近的任务,如阅读理解和自然语言推理。主要目的是为读者提供基准数据集的快速概述以及他们感兴趣的任务的最新技术,这是进一步研究的垫脚石。为此,如果有一个地方已经发布并定期维护任务的结果,例如公共排行榜。

  • sebastian-hofstaetter/intra-document-cascade IDCM模型: 文档内部级联选择段落服务于文档排序。采用文档内部级联策略,在运行复杂并且高效果的排序模型(ETM,Effective Teacher Model)之前,使用高效率的模型(ESM,Efficient Student Model)进行候选文档中多余段落的删除。相比bert,具有基本相同的效果,而且查询延迟降低400%以上。

  • huybery/r2sql Dynamic Hybrid Relation Network for Cross-Domain Context-Dependent Semantic Parsing 跨域上下文相关语义分析的动态混合关系网络 应用于:多轮text-to-SQL 任务(通过多轮对话的方式生成最终的查询语句, Text-to-SQL 任务:给定一个自然语言查询和数据库的作为输入,产生一个SQL语句作为输出。)

  • xueyouluo/ccks2021-track2-code “英特尔创新大师杯”深度学习挑战赛 赛道2:CCKS2021中文NLP地址要素解析 。基于BERT的Biaffine结构,直接预测文本构成的所有span的类别。相比单纯基于span预测和基于MRC的预测,Biaffine的结构可以同时考虑所有span之间的关系,从而提高预测的准确率。

  • opendatalab/MinerU 一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。包括以下主要功能:Magic-PDF PDF 文档提取、网页和电子书提取。Magic-PDF 是一种旨在将 PDF 文档转换为 Markdown 格式的工具,能够处理存储在本地或支持 S3 协议的对象存储上的文件。

  • graph4ai/graph4nlp 一个易于使用的NLP图形神经网络库。应用:文本分类、神经机器翻译、摘要、KG补全:预测konwledge图中两个现有实体之间的缺失关系。数学问题解决:自动解决数学习题,用易懂的语言提供问题的背景信息。名称实体识别、问题生成。

  • Helsinki-NLP/Tatoeba-Challenge 这是一个机器翻译的挑战集,包含 29G 翻译单元在 3,708 位ext 覆盖 557 种语言。该包包括从涵盖 134 种语言的 Tatoeba.org 衍生的 631 套测试集的版本。此包提供以多种语言进行机器翻译的数据集,并提供从 Tatoeba 获取的测试数据。

  • flairNLP/flair 最先进的NLP框架。由柏林洪堡大学开发。将先进的NLP模型应用于文本,如NER、词性标记 (PoS)、对生物医学的特殊支持、感知消歧和分类。Flair具有简单的界面,允许不同的单词和文档嵌入,包括Flair嵌入,BERT嵌入和ELMo嵌入。

  • yechens/NL2SQL Text2SQL 语义解析数据集、解决方案、paper资源整合项。Text to SQL( 以下简称Text2SQL),是将自然语言文本(Text)转换成结构化查询语言SQL的过程,属于自然语言处理-语义分析(Semantic Parsing)领域中的子任务。

  • princeton-nlp/LM-BFF 更好的Few-shot小样本微调语言模型.包括:1.基于提示(prompt)进行微调,关键是如何自动化生成提示模板; 2.将样本示例以上下文的形式添加到每个输入中,关键是如何对示例进行采样.

  • shibing624/pycorrector 中文文本纠错工具。支持中文音似、形似、语法错误纠正。实现了Kenlm、ConvSeq2Seq、BERT、MacBERT、ELECTRA、ERNIE、Transformer等多种模型的文本纠错,并在SigHAN数据集评估各模型的效果。

  • explosion/spaCy 工业级强度的NLP工具包,被称为最快的工业级自然语言处理工具。支持多种自然语言处理的基本功能,主要功能包括分词、词性标注、词干化、命名实体识别、名词短语提取等。

  • tisfeng/Easydict 简洁优雅的词典翻译 macOS App。开箱即用,支持离线 OCR 识别,支持有道词典,苹果系统词典翻译,ChatGPT,Gemini,DeepL,Google,Bing,腾讯,百度,阿里,小牛,彩云和火山翻译。

  • grammarly/gector ”GECToR – Grammatical Error Correction: Tag, Not Rewrite”,使用给序列打标签来替代主流的Seq2Seq模型。本文采取了一种迭代的方法,也就是通过多次(其实最多也就两三次)序列打标签。

  • clovaai/ssmix 数据增强⽅法,SSMix⽅法在⽂本input上通过巧妙的⽅法进⾏mixup,⽽不像前⾯⼤部分使⽤在 hidden层上。该⽅法在保留⼤部分重要token的前提下基于⼀些信息替换⼀个新的 span进来。

  • cuhksz-nlp/DGSA 基于方向建模图卷积网络的联合方面提取和情感分析.输入:由句子生成的依存句法分析树得到的图;句子(词序列).输出表示为一个标签序列.可用于序列标注、ER 和情感分析。

  • ShomyLiu/Neu-Review-Rec Pytorch的基于评论文本的深度推荐系统模型库。DeepCoNN(WSDM‘17)、D-Attn(RecSys‘17)、ANR(CIKM‘18)、NARRE(WWW‘18)、MPCN(KDD‘18)、TARMF(WWW‘18)、CARL(TOIS‘19)、CARP(SIGIR‘19)、DAML(KDD‘19)

  • ChenghaoMou/pytorch-pQRNN pQRNN 结合一个简单的映射和一个quasi-RNN编码器来进行快速并行处理。pQRNN模型表明这种新的体系结构几乎可以达到BERT级的性能,尽管只使用1/300的参数量和有监督的数据。

  • nlp-uoregon/trankit 用于多语言自然语言处理的基于轻型变压器的Python工具包 支持以下任务:句子分割。标记化。多字令牌扩展。词性标记。形态特征标记。依赖性解析。命名实体识别。

  • airaria/TextBrewer 基于PyTorch的NLP任务知识蒸馏工具包,适用于多种模型结构,支持自由组合各种蒸馏策略,并且在文本分类、阅读理解、序列标注等典型NLP任务上均能获得满意的效果。

  • PaddlePaddle/PaddleNLP 简单易用且易于开发的强大功能。开发的简单易用的自然覆盖处理模型并提供开发者的简单易用的自然覆盖处理模型,并提供NLP 多场景的语言库供灵活使用的需求。

  • 425776024/nlpcda 中文数据增强工具,随机实体替换、近义词、近义近音字替换、随机字删除、NER类 BIO 数据增强、随机置换邻近的字、百度中英翻译互转、中文等价字替换

  • destwang/CTC2021 本赛题主要选择互联网上中文母语写作者撰写的网络文本作为校对评测数据,从拼写错误、语法错误、语病错误等多个方面考察机器的认知智能能力。

  • openai/grade-school-math 包含 8.5K 高质量语言多样化小学数学单词问题的数据集。对于每个测试问题,我们提供从 6B 微调、6B 验证、175B 微调和 175B 验证生成的解决方案。

  • getomni-ai/zerox 一种非常简单的方法,可以对文档进行 OCR 处理以进行 AI 摄取。毕竟,文档是一种视觉表示。具有奇怪的布局、表格、图表等。视觉模型很有意义

  • thunlp/OpenAttack 文本对抗攻击工具包,可以用于文本对抗攻击的全过程,包括文本预处理、受害模型访问、对抗样本生成、对抗攻击评测以及对抗训练等。

  • jingtaozhan/DRhard 通过难负例优化稠密向量文档检索模型训练,利用动态难负例抽样提高模型效果,以及将随机抽样结合静态难负例抽样提高模型稳定性。

  • JasonForJoy/MPC-BERT 一种预训练的多方会话理解语言模型.多方会话(MPC)的各种神经模型在收件人识别、说话人识别和反应预测等方面取得了显著的进展。

  • salesforce/WikiSQL 用于为关系数据库开发NLP界面的大型众包数据集。 WikiSQL 是与Seq2SQL 一起发布的数据集。使用强化学习从自然语言生成结构化查询。

  • toizzy/tilt-transfer 运行TILT迁移学习实验的代码 让语言模型先在乐谱上进行训练,再在自然语言上训练可以有效的提升语言模型的性能。

  • facebookresearch/GENRE 首创生成式实体检索,通过seq2seq方法(BART)生成有意义的实体名称从而实现实体链接,而且还可以取得SOTA结果。

  • RUCAIBox/CRSPapers 选取了近年来基于深度学习的对话推荐系统相关论文(共 62 篇),并根据工作的类型进行分类,以供参考。

  • jgm/pandoc 通用标记转换器。一个Haskell库,用于从一种标记格式转换为另一种标记格式,以及使用该库的命令行工具。

  • shibing624/bart4csc-base-chinese BART中文拼写纠错模型,训练使用了SIGHAN + Wang271K 中文纠错数据集,在SIGHAN2015的测试集上达到接近SOTA水平。

  • NLPchina/ansj_seg ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典

  • iqiyi/FASPell 2019-SOTA简繁中文拼写检查工具:FASPell Chinese Spell Checker ( 中文拼写检错 / 中文拼写纠错 / 中文拼写检查)

  • salesforce/pytorch-qrnn 准循环神经网络Quasi-Recurrent Neural Network,基于使用实例可以比高度优化的 NVIDIA cuDNN LSTM 实现2到17倍快

  • stanfordnlp/stanza Stanford NLP Group 的官方 Python NLP 库。 它支持在 60 多种语言上运行各种准确的自然语言处理工具。

  • sebastianruder/NLP-progress 用于跟踪自然语言处理 (NLP) 进展的存储库,包括数据集和最常见 NLP 任务的最新技术水平。

  • hiyoung123/SoftMaskedBert 中文文本纠错模型。使用两个网络模型,一个用于错误检测;另一个基于BERT进行纠错。

  • Qznan/QizNLP 快速运行分类、序列标注、匹配、生成等NLP任务的Tensorflow框架 (中文 NLP 支持分布式)

  • soft-prompt-tuning The Power of Scale for Parameter-Efficient Prompt Tuning 用于参数高效的即时调整的规模的力量

  • ssut/py-googletrans (非官方)Googletrans:免费且无限制的 Google 翻译 API for Python。翻译完全免费。

  • CAMTL/CA-MTL 条件自适应多任务学习:使用更少的参数和更少的数据改进 NLP 中的迁移学习

  • sloria/TextBlob 简单、Pythonic、文本处理——情感分析、词性标记、名词短语提取、翻译等。

  • DengBoCong/nlp-paper 自然语言处理领域下的相关论文(附阅读笔记),复现模型以及数据处理等

  • yizhen20133868/NLP-Conferences-Code 记录NLP相关顶会(如ACL、EMNLP、NAACL、COLING、AAAI、IJCAI)的论文开源项目合集

  • stanfordnlp/CoreNLP 核心 NLP 工具,用于标记化、句子分割、NER、解析、共指、情感分析等。

  • fxsjy/jieba 中文意为“口吃”,中文文本分割:打造成为最好的 Py 中文分词模块。

  • DaDaMrX/ReaLiSe 多模态模型中文拼写检查器。包括:文字语义、文字发音、文字图形。

  • pcyin/tranX 用于将自然语言查询映射到机器可执行代码的通用神经语义解析器

  • nltk/nltk 支持自然语言处理研究和开发的开源 Python 模块、数据集和教程。

  • fushengwuyu/chinese_spelling_correction 中文文本纠错模型:bert语言模型+字音字形相似度 、MLM、seq2seq

  • textstat/textstat 用于计算文本对象(段落、句子、文章)的可读性统计数据。

  • huggingface/tokenizers 提供当今最常用的分词器的实现,重点关注性能和多功能性。

  • destwang/CTCResources 中文文本纠错(Chinese Text Correction, CTC)相关论文、数据集。

  • facebookresearch/ParlAI 在各种公开可用的对话数据集上训练和评估 AI 模型的框架。

  • ACL2020SpellGCN/SpellGCN 将语音学和视觉相似性结合到汉语拼写检查、文本纠错

  • liushulinle/CRASpell 使用复制机制改进中文拼写纠正的上下文错字稳健方法

  • lutzroeder/netron 用于神经网络、深度学习和机器学习模型的可视化工具

  • RUCAIBox/TG_CRS_Code TG-ReDial相应的推荐、回复生成、主题预测功能实现。

  • kpu/kenlm 高效统计语言模型kenlm:新词发现、分词、智能纠错

  • yuanzhoulvpi2017/zero_nlp 中文nlp解决方案(大模型、数据、模型、训练、推理)

  • taozhijiang/chinese_correct_wsd 简易中文纠错消歧 用户输入语句的同音自动纠错.

  • openai/tiktoken 一个快速的 BPE 分词标记器,用于 OpenAI 的模型。

  • akkarimi/aeda_nlp 一种更简单的文本分类数据增强技术.插入符号。

  • rz-zhang/SeqMix 数据增强⽅法,通过序列混合增强活动序列标记。

  • XiaoMi/MiNLP/minlp-tokenizer 小米 AI NLP 团队的平台 MiNLP 开源了中文分词功能

  • thunlp/PromptPapers 关于基于提示的预先训练语言模型的必读论文。

  • squareRoot3/Target-Guided-Conversation 目标指导的开放域对话,开放域聊天中目标引导.

  • jessevig/bertviz 在NLP模型中可视化注意力(BERT,GPT2,BART等)

  • thunlp/OpenBackdoor 文本后门攻防开源工具包(NeurIPS 2022 D&B)

  • keon/awesome-nlp 专用于自然语言处理 (NLP) 的资源精选列表

  • HillZhang1999/MuCGEC MuCGEC中文纠错数据集及文本纠错SOTA模型开源

  • FedML-AI/FedNLP FedNLP:自然语言处理中的联合学习研究平台

  • zhijing-jin/Causality4NLP_Papers 关于自然语言处理因果关系的论文阅读列表

  • dbohdan/structured-text-tools 用于操作结构化文本数据的命令行工具列表

  • graykode/nlp-tutorial 面向深度学习研究人员的自然语言处理教程

  • mit-han-lab/smoothquant 对大语言模型的准确和高效的训练后量化

  • czhang99/SynonymNet 基于多个上下文双向匹配的同义实体发现

  • Jingjing-NLP/VOLT 借鉴边际效用通过最优转移学习词表。

  • PengheLiu/Cn_Speck_Checker 通过统计方法对中文单词进行自动纠错

  • causaltext/causal-text-papers 因果推理和自然语言处理的交叉研究。

  • thunlp/TAADpapers 文本对抗攻击和防御必读论文列表。

  • hooman650/SupCL-Seq 下游优化序列表示的监督对比学习

  • beyondacm/Autochecker4Chinese 中文文本错别字检测以及自动纠错

  • zhanlaoban/EDA_NLP_for_Chinese 适合中文语料的数据增强EDA的实现

  • nonebot/nonebot2 跨平台 Python 异步聊天机器人框架

  • bojone/attention Attention机制的实现tensorflow/keras

  • thunlp/WantWords 一个开源的在线反向词典。

  • crownpku/Awesome-Chinese-NLP 中文自然语言处理相关资料

  • wac81/textda Python3中文文本的数据增强

  • hankcs/pyhanlp 中文分词、依存句法分析

  • lancopku/pkuseg-python 多领域中文分词工具

  • PKU-TANGENT/nlp-tutorial NLP新手入门教程

  • makcedward/nlpaug NLP 的数据增强

实体识别NER_意图识别_槽位填充

  • defunct-datasets/amazon_reviews_multi 我们提供了一个用于多语言文本分类的亚马逊商品评论数据集。该数据集包含2015年11月1日至2019年11月1日期间收集的英文、日文、德文、法文、中文和西班牙文综述。数据集中的每条记录都包含评论文本、评论标题、星级评定、匿名评论者 ID、匿名产品 ID 和粗粒度产品类别(例如“书籍”、“电器”等)语料库在星级之间是平衡的,因此每个星级评定占每种语言评论的 20%。对于每种语言,在训练、开发和测试集中分别有 200,000、5,000 和 5,000 条评论。每位评论者的最大评论数为 20 条,每个产品的最大评论数为 20 条。所有评论在 2,000 个字符后被截断,并且所有评论的长度至少为 20 个字符。请注意,评论的语言不一定与其市场的语言相匹配(例如,来自 amazon.de 的评论主要用德语撰写,但也可以用英语等撰写)。出于这个原因,我们应用了一种基于Bojanowski等人(2017)工作的语言检测算法来确定评论文本的语言,并删除了不是用预期语言编写的评论。

  • eriktks/conll2003 CoNLL-2003 的共同任务涉及与语言无关的命名实体识别。我们将重点介绍四种类型的命名实体:不属于前三组的人员、地点、组织和杂项实体的名称。CoNLL-2003 共享任务数据文件包含四列,用一个空格分隔。每个单词都放在单独的行上,每个句子后面都有一个空行。每行的第一项是一个单词,第二项是词性 (POS) 标记,第三项是句法块标记,第四项是命名实体标记。块标记和命名实体标记的格式为 I-TYPE,这意味着该单词位于 TYPE 类型的短语中。只有当两个相同类型的短语紧跟在一起时,第二个短语的第一个单词才会带有标签 B-TYPE,以表明它开始了一个新短语。带有标签 O 的单词不是短语的一部分。请注意,数据集使用 IOB2 标记方案,而原始数据集使用 IOB1。

  • qgyd2021/chinese_ner_sft 中文实体识别指令数据集.收集开源的实体识别数据集, 将其制作为 sft 数据集用于 LLM 微调.该数据集的目的是构建通用实体识别的LLM研究.数据集分为三大类, {dataset_name}: 为对应的实体识别数据集.{dataset_name}_template: 是为各数据集编写的 prompt 模板, 因为各数据集的主题不同, 所以模板分别编写会更加准确.{dataset_name}_prompt: 是根据 {dataset_name} 和 {dataset_name}_template 合成的 prompt 数据集. .数据集从网上收集整理如下:CMeEE、CCKS2019_task1、CLUENER2020、MSRA、NLPCC2018_task4、CCFBDCI、MMC、WeiBo、ECommerce、YouKu、FinanceSina、Resume、Bank、DLNER

  • stanfordnlp/sst2 斯坦福情感树库是一个具有完全标记的解析树的语料库,可以对语言中情感的组合效应进行全面分析。该语料库基于Pang和Lee(2005)引入的数据集,由从电影评论中提取的11,855个单句组成。它使用斯坦福解析器进行解析,包括来自这些解析树的总共 215,154 个独特的短语,每个短语都由 3 名人类法官注释。对完整句子的二元分类实验(否定或有点否定与有点肯定或肯定,丢弃中性句子)将数据集称为 SST-2 或 SST 二进制。数据集中的文本为英文 ( en )。

  • ljynlp/W2NER 通过将统一的 NER 建模为词-词关系分类,提出了一种新颖的替代方案。该架构通过有效地建模实体词与 Next-Neighboring-Word (NNW) 和 Tail-Head-Word-* (THW-*) 关系之间的相邻关系,解决了统一 NER 的内核瓶颈。在 14 个广泛使用的基准数据集上针对平坦、重叠和不连续的 NER(8 个英语和 6 个中文数据集)进行了广泛的实验,击败了所有当前表现最好的基线,推动了最先进的表现统一的NER。

  • Helsinki-NLP/opus-100 OPUS-100 是一个以英语为中心的多语言语料库,涵盖 100 种语言。OPUS-100 以英语为中心,这意味着所有训练对在源端或目标端都包含英语。语料库涵盖100种语言(包括英语)。这些语言是根据OPUS中可用的并行数据量选择的。OPUS-100 包含大约 55M 个句子对。在 99 个语言对中,44 个有 1M 个训练数据的句子对,73 个至少有 100k,95 个至少有 10k。

  • stanfordnlp/snli SNLI 语料库(1.0 版)是 570k 人工编写的英语句子对的集合,这些句子对经过手动标记,用于平衡分类,标签包括 entailment、contradiction 和 neutral,支持自然语言推理 (NLI) 的任务,也称为识别文本蕴涵 (RTE)。数据集中的语言是 Flickr 网站用户所说的英语,以及 Amazon Mechanical Turk 的众包工作者所说的语言。英语的 BCP-47 代码是 en。

  • qgyd2021/few_shot_ner_sft 小样本实体识别,收集实体识别的数据集, 将其整理成 prompt-response 的形式. 基于语言模型的实体识别.该数据集可用于:指令语言模型训练.数据集创建. (特定领域有少量标注数据时, 可与此数据集一起训练模型, 然后生成样本用于数据标注).在 prompt 生成过程中会加入一些 示例, 我们尽量使各实体的标签满足 n_way, n_shot.

  • yizhen20133868/Awesome-SLU-Survey 口语语言理解(Spoken Language Understanding,SLU)作为任务型对话系统的核心组件,目的是为了获取用户询问语句的框架语义表示(semantics frame)信息,进而将这些信息为对话状态追踪模块(DST)以及自然语言生成模块(NLG)所使用。SLU任务通常包含以下两个任务:意图识别(intent detection)和槽位填充(slot filling)。

  • liuwei1206/LEBERT Lexicon Enhanced BERT模型来解决中文序列标注NER任务。相比于 FLAT,Lattice LSTM 等方法,它把词汇信息融入到了 BERT 底层的编码过程中。相比于 Lex-BERT,它无需包含词汇类型信息的词典,只需要普通的词向量即可。

  • LeeSureman/Flat-Lattice-Transformer 中文NER 基于Transformer设计了一种巧妙position encoding来融合Lattice结构,可以无损的引入词汇信息。基于Transformer融合了词汇信息的动态结构,支持并行化计算,可以大幅提升推断速度。

  • thunlp/PL-Marker 用于实体和关系提取的打包悬浮标记。提出了一种新的跨度表示方法,称为 Packed Levitated Markers,通过在编码器中策略性地打包标记来考虑跨度(对)之间的依赖关系。

  • MiuLab/SlotGated-SLU 意图识别和槽位填充(slot filling)联合模型,提出槽位门控机制(slot-gated mechanism)来解决没有明确建立槽位和意图之间联系的缺陷,达到较好的效果。

  • shibing624/nli_zh 常见中文语义匹配数据集,包含ATEC、BQ、LCQMC、PAWSX、STS-B共5个任务。支持中文文本匹配任务,文本相似度计算等相关任务。数据集均是简体中文文本。

  • oscar-corpus/oscar 庞大的多语言语料库,通过使用 goclassy 架构对 Common Crawl 语料库进行语言分类和过滤而获得。数据以原始形式和重复数据删除形式按语言分发。

  • DFKI-NLP/tacrev TACRED(TAC Knowledge Base Population)是一个用于关系抽取任务的数据集,其中包含了从新闻文章中提取的实体对及其对应的关系标签。

  • monologg/JointBERT 意图识别和槽位填充(slot filling)联合训练模型,使用了BERT来进行语义编码,然后做序列标注任务和多分类任务的联合训练。

  • wuba/qa_match 58同城推出的一款基于深度学习的轻量级问答匹配工具,它融合领域识别与意图识别,对问答意图进行精确理解。

  • Lynten/stanford-corenlp 为文本处理任务提供了一个简单的 API,例如标记化、部分语音标记、命名实体识别、选区解析、依赖解析等。

  • z814081807/DeepNER 天池中药说明书实体识别挑战冠军方案;中文命名实体识别;NER; BERT-CRF & BERT-SPAN & BERT-MRC;Pytorch

  • v-mipeng/LexiconAugmentedNER 拒绝为中文 NER 合并词典的复杂操作。在中文 NER 中加入词典可以非常简单,同时也很有效。

  • kangbrilliant/DCA-Net 用于插槽填充和意图检测的协同互感器。数据集ATIS上,意向Acc 97.7 插槽填充F1 95.9 。

  • sentence-transformers/embedding-training-data 该存储库包含用于训练文本嵌入模型的训练文件,例如使用句子转换器。

  • panchunguang/ccks_baidu_entity_link CCKS&百度 2019中文短文本的实体链指 第一名解决方案

  • AdvPicker 通过对抗性判别器有效利用未标记数据进行跨语言 NER

  • lonePatient/BERT-NER-Pytorch Chinese NER(Named Entity Recognition) using BERT(Softmax, CRF, Span)

  • jiesutd/LatticeLSTM 使用 Lattice LSTM 的中文 NER。ACL2018论文的代码。

  • gaohongkui/GlobalPointer_pytorch 全局指针统一处理嵌套与非嵌套NER的Pytorch实现

  • qiufengyuyi/sequence_tagging 用bilstm-crf,bert等方法进行序列标记任务

  • qgyd2021/h_novel SQ小说, 用于制作特殊的 GPT 语言模型..

  • ShannonAI/mrc-for-flat-nested-ner 命名实体识别的统一 MRC 框架

文本分类

  • ShannonAI/Neural-Semi-Supervised-Learning-for-Text-Classification 在大规模通用领域预训练的前提下,更好地利用大规模领域内无标注语料与标注语料,从而最大限度地提升模型效果.足量的领域内语料U使模型不需要再在通用领域语料上预训练;无论是采用预训练还是自训练的方式,都可以显著提升模型效果,二者结合可以得到最佳结果;当领域内标注数据D较小的时候,在伪平行数据D‘上训练、再在D上微调可以提升更多的效果;当D更大的时候,在D和D‘上联合训练取得的效果更好。

  • xiaoqian19940510/text-classification-surveys 文本分类资源汇总,包括深度学习文本分类模型,如SpanBERT、ALBERT、RoBerta、Xlnet、MT-DNN、BERT、TextGCN、MGAN、TextCapsule、SGNN、SGM、LEAM、ULMFiT、DGCNN、ELMo、RAM、DeepMoji、IAN、DPCNN、TopicRNN、LSTMN 、Multi-Task、HAN、CharCNN、Tree-LSTM、DAN、TextRCNN、Paragraph-Vec、TextCNN、DCNN、RNTN、MV-RNN、RAE等,浅层学习模型,如LightGBM 、SVM、XGboost、Random Forest、C4.5、CART、KNN、NB、HMM等。介绍文本分类数据集,如MR、SST、MPQA、IMDB、Ye…

  • timoschick/pet 该存储库包含“利用小样本文本分类和自然语言推理的完形填空题”的代码.介绍了模式利用训练 (PET),这是一种半监督训练程序,可将输入示例重新表述为完形填空式短语。在低资源环境中,PET 和 iPET 显着优于常规监督训练、各种半监督基线甚至 GPT-3,尽管需要的参数减少 99.9%。PET 的迭代变体 (iPET) 训练多代模型,甚至可以在没有任何训练数据的情况下使用。

  • rowanz/grover Grover是一个用于生成和检测神经网络假新闻的模型,它可以用于其他生成任务。该项目提供Grover生成器、判别器、生成器代码、RealNews数据集代码以及所有Grover模型的在线模型检查点。用户可以通过提供一个Google Cloud账号来获取RealNews数据集,并使用该数据集进行研究。该项目还提供了设置Grover环境的详细指南,包括使用GPU或TPU进行生成、验证、训练和判别。

  • GT-SALT/MixText 文本半监督方法MixText 提出一种全新文本增强方式——TMix,在隐式空间插值,生成全新样本。对未标注样本进行低熵预测,并与标注样本混合进行TMix。MixText可以挖掘句子之间的隐式关系,并在学习标注样本的同时利用无标注样本的信息。超越预训练模型和其他半监督方法

  • YerevaNN/warp ACL‘2021 论文 WARP Cyclone Word-level Adversarial ReProgramming 的代码。 在 SuperGLUE 少样本文本分类上优于“GPT-3”。提出了一种基于对抗性重编程的替代方法,它是自动扩展提示模板生成的早期工作。而且参数量少了好多个数量级。

  • SanghunYun/UDA_pytorch Unsupervised Data Augmentation with BERT 一种半监督学习方法,可在多种语言和视觉任务上实现SOTA结果。仅用20个标记的示例,UDA的性能就优于之前在25,000个标记的示例上训练的IMDb上的SOTA。

  • hiyouga/Dual-Contrastive-Learning 双重对比学习。 通过在同一空间内同时学习输入样本的特征和分类器的参数,为监督分类任务提出了一种新颖的对比学习框架。

  • AIRobotZhang/STCKA 基于知识图谱的文本分类.将每个短文本与其在KB中的相关概念相关联,将概念信息作为先验知识整合到深度神经网络中。

  • beyondguo/label_confusion_learning 利用标签之间的混淆关系,提升文本分类效果。利用标签信息时能够充分考虑标签之间的重叠或者依赖关系。

  • zhouj8553/FlipDA 提供了一种基于 T5 和翻转标签自训练的自动数据增强方法。 我们在 FewGLUE 上对其进行评估,并提高其性能。

  • 649453932/Chinese-Text-Classification-Pytorch 中文文本分类,TextCNN,TextRNN,FastText,TextRCNN,BiLSTM_Attention,DPCNN,Transformer,基于pytorch,开箱即用。

  • TextCNN与ALBERT分类效果的实践 详解小样本短文本多分类-对比TextCNN与ALBERT分类效果的实践(附Pytorch代码)

  • bojone/r-drop 使用r-drop机制实验了中文文本分类、文本生成任务,有提升。

  • BUPT-GAMMA/CompareNet_FakeNewsDetection 与知识比较:使用外部知识进行图神经假新闻检测 (ACL 2021)

  • skdjfla/toutiao-text-classfication-dataset 中文文本分类数据集 共38.2万条,分布于15类中。

  • whatissimondoing/CoG-BART 对比度和生成使BART成为很好的对话情感识别器

  • thunlp/KnowledgeablePromptTuning 将知识整合到 Prompt Verbalizer 中进行文本分类

  • ilivans/tf-rnn-attention Tensorflow实现文本分类任务的关注机制。

  • DunZhang/LM-MLC 基于完型填空(模板)的多标签分类算法.

  • 649453932/Bert-Chinese-Text-Classification-Pytorch 使用Bert,ERNIE,进行中文文本分类

  • cnn_multilabel_classification 基于TextCNN和Attention的多标签分类

  • pangwong/pytorch-multi-label-classifier pytorch 实现的多标签分类分类器

  • xuyige/BERT4doc-Classification 如何微调 BERT 进行文本分类

  • xmu-xiaoma666/External-Attention-pytorch 17篇注意力机制 PyTorch 实现

  • kk7nc/Text_Classification 一项文本分类算法的调查

文本匹配_文本检索_文本相似度

  • netease-youdao/BCEmbedding 网易有道为RAG产品提供的开源嵌入和重新排序模型。由网易有道开发的中英文 B ilingual 和 Crosslingual Embedding(BCEmbedding)包括 EmbeddingModel 和 RerankerModel。EmbeddingModel 专门用于生成语义向量,在语义搜索和问答中起着至关重要的作用,而 RerankerModel 擅长优化搜索结果和排名任务。BCEmbedding 是有道检索增强生成 (RAG) 实现的基石,特别是 QAnything,这是一个开源实现,广泛集成到有道速读和有道翻译等各种有道产品中。BCEmbedding以其双语和跨语言能力而著称,在弥合中英文语言鸿沟方面表现出色,实现了在MTEB的语义表示评估中表现出色;LlamaIndex 中 RAG 评估领域的新基准。为 RAG 社区提供双语跨语言的两阶段检索模型仓库,无需微调即可直接使用,包括 EmbeddingModel 和 RerankerModel:一种模式:EmbeddingModel处理中英文双语和跨语言检索任务。RerankerModel 支持英语、中文、日语和韩语。一种模式:通过RAG优化覆盖常见的业务应用场景。例如教育、医疗场景、法律、金融、文学、常见问题解答、教科书、维基百科、一般对话。易于集成:我们在 BCEmbedding 中提供 API,用于 LlamaIndex 和 LangChain 集成。其他要点:RerankerModel 支持长段落(超过 512 个词元,少于 32k 个词元)重新排名;RerankerModel 提供有意义的相关性分数,有助于删除低质量的段落。

  • voidism/DiffCSE 用于学习句子嵌入的无监督对比学习框架。DiffCSE学习对原始句子和编辑句子之间的差异敏感的句子嵌入,其中编辑的句子是通过随机屏蔽原始句子,然后从屏蔽语言模型中采样来获得的。我们表明 DiffSCE 是等变对比学习的一个实例(Dangovski 等人,2021 年),它概括了对比学习并学习对某些类型的增强不敏感而对其他“有害”类型的增强敏感的表征。我们的实验表明,DiffCSE在无监督句子表示学习方法中取得了最先进的结果,语义文本相似性上比SimCSE高出2.3个绝对点。

  • Decem-Y/sohu_text_matching_Rank2 2021搜狐校园文本匹配算法大赛Top2。使用了预训练模型(如NEZHA、MacBert、ROBERTA、ERNIE等),设计了选择了两种技术路线(通过[SEP]拼接source与target作为输入、类似SBERT的句子向量编码比较),并尝试多种上分策略(在给定语料上继续mlm预训练、focal loss损失函数、不同的pooling策略、加入TextCNN、fgm对抗训练、数据增强等)。选取多组差异较大的模型的输出,通过投票的方式进行集成,得到最好成绩。

  • allenai/macaw Macaw(Multi-angle c(q)uestion answering 多角度 c(q) 问题回答)是一种即用型模型,能够进行一般问题回答,在训练的领域之外表现出稳健性。 它以“多角度”方式进行了训练,这意味着它可以处理一组灵活的输入和输出“槽”(如问题、答案、解释)。Macaw 建立在 T5 之上,有不同的尺寸:macaw-11b、macaw-3b 和 macaw-large,以及各种排行榜上的以答案为重点的版本:macaw-answer-11b。

  • embeddings-benchmark/mteb 海量文本嵌入基准测试 (MTEB)。MTEB 涵盖 8 个嵌入任务,共涵盖 58 个数据集和 112 种语言。通过在 MTEB 上对 33 个模型进行基准测试,我们建立了迄今为止最全面的文本嵌入基准。我们发现,没有特定的文本嵌入方法在所有任务中占主导地位。这表明该领域尚未趋同于一种通用的文本嵌入方法,并尚未将其充分扩展以在所有嵌入任务上提供最先进的结果。

  • yangjianxin1/SimCSE SimCSE有监督与无监督实验复现 一种简单但是很巧妙的NLP对比学习方法,创新性地引入Dropout的方式,对样本添加噪声,从而达到对正样本增强的目的。 该框架的训练目的为:对于batch中的每个样本,拉近其与正样本之间的距离,拉远其与负样本之间的距离,使得模型能够在大规模无监督语料(也可以使用有监督的语料)中学习到文本相似关系。

  • huggingface/setfit 使用 Sentence Transformers 进行高效的少样本学习. 高效且无提示的框架,用于对句子转换器进行少量微调。 它用很少的标记数据实现了高精度,特点:没有提示或语言表达器:当前的少量微调技术需要手工提示或语言表达器将示例转换为适合底层语言模型的格式。 SetFit 通过直接从文本示例生成丰富的嵌入来完全免除提示。训练速度快、多语言。

  • thunlp/OpenMatch 总体架构包括两大部分:一是相关文档检索,即根据用户检索词,从大规模文档集合中返回最相关的Top-K(K通常为100或1000)文档。二是文档重排序,即将各神经网络模型和非神经网络模型的排序特征整合,对Top-K文档重排序,进一步提升排序效果。OpenMatch提供了融合外部知识图谱信息的知识增强模型,和筛选大规模数据的数据增强模型。

  • UKPLab/sentence-transformers 句子转换器:使用BERT RoBERTa XLM-RoBERTa&Co.和PyTorch的多语言句子嵌入。该框架提供了一种简单的方法来计算句子、段落和图像的密集矢量表示。这些模型基于BERT / RoBERTa / XLM-RoBERTa等变压器网络,并在各种任务中实现最先进的性能。文本嵌入在向量空间中,使得相似的文本更接近,并且可以使用余弦相似性有效地找到。

  • stanford-futuredata/ColBERT 一种快速准确的检索模型,可在数十毫秒内对大型文本集合进行基于 BERT 的可扩展搜索。基于上下文(contextualized)的后期交互的排序模型 Efficient and Effective Passage Search via Contextualized Late Interaction over BERT 兼顾匹配的效率和doc中的上下文信息。

  • McGill-NLP/llm2vec LLM2Vec 是将仅LLMs解码器转换为文本编码器的简单方法。它由 3 个简单步骤组成:1) 启用双向注意力,2) 使用掩蔽的下一个令牌预测进行训练,以及 3) 无监督对比学习。该模型可以进一步微调,以实现最先进的性能。

  • DMetaSoul/chinese-semantic-textual-similarity 为了对 like-BERT 预训练模型进行 fine-tune 调优和评测以得到更好的文本表征模,对业界开源的语义相似(STS)、自然语言推理(NLI)、问题匹配(QMC)以及相关性等数据集进行了搜集整理

  • bojone/CoSENT 比Sentence-BERT更有效的句向量方案.优化cos值的新方案CoSENT(Cosine Sentence)。实验显示,CoSENT在收敛速度和最终效果上普遍都比InferSent和Sentence-BERT要好。

  • wangyuxinwhy/uniem 统一嵌入模型,目标是创建中文最好的通用文本嵌入模型。202306发布 M3E models ,在中文文本分类和文本检索上均优于 openai text-embedding-ada-002。

  • GeekDream-x/SemEval2022-Task8-TonyX 在 Semeval-2022 Task8 —— Multilingual News Article Similarity 中提供了我们获胜系统的实现。这是一项关于评估多语言和跨语言新闻文章相似性的竞赛,涵盖 18 个语言对。

  • shibing624/text2vec 文本向量表征工具,把文本转化为向量矩阵,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT等文本表征、文本相似度计算模型,开箱即用。

  • KKenny0/sohu2021 2021搜狐校园文本匹配算法大赛方案,基于BERT的交互模型,通过BERT来得到source-target pair的向量表示。任务:短短、短长和长长匹配。

  • NTMC-Community/MatchZoo-py 通用的文本匹配工具包,旨在方便大家快速的实现、比较、以及分享最新的深度文本匹配模型。MatchZoo 的 PyTorch 版本。

  • epidemic-sentence-pair 新冠疫情相似句对判定大赛 线上第一名方案。BERT模型融合、数据对称扩充、数据传递扩充、对抗训练、伪标签。

  • bohanli/BERT-flow 基于流式生成模型,将BERT的表示可逆地映射到一个均匀的空间,文本表示、语义文本相似性任务的SOTA。

  • princeton-nlp/SimCSE SimCSE:句子嵌入的简单对比学习 。提供无监督或有监督的对比学习。是目前文本相似度更好的方法。

  • yym6472/ConSERT 基于对比学习的句子语义表示迁移框架。包含三部分,数据增强,BERT 编码层,对比损失层。

  • ZhuiyiTechnology/roformer-sim 融合检索和生成的RoFormer-Sim模型.应用于相似句生成、相似句扩增、语义相似度问题。

  • terrifyzhao/text_matching 常用文本匹配模型tf版本,数据集为QA_corpus模型:DSSM ConvNet ESIM ABCNN BiMPM DIIN DRCN

  • bojone/BERT-whitening 简单的向量白化改善句向量质量,可以媲美甚至超过BERT-flow的效果。

  • nilboy/gaic_track3_pair_sim 短文本语义匹配,2021年全球人工智能技术创新大赛-赛道三-冠军方案

  • amazon-research/sccl 利用对比学习促进更好地基于距离的短文本聚类实现。

  • Brokenwind/BertSimilarity 基于Google的BERT模型来进行语义相似度计算。

  • huggingface/text-embeddings-inference 文本嵌入模型的超快速推理解决方案(rust)

  • shawroad/CoSENT 比Sentence-BERT更有效的句向量方案 Pytorch版

  • shuxinyin/SimCSE-Pytorch 中文SimCSE+ESimCSE的无监督 + 有监督实现

  • vdogmcgee/SimCSE-Chinese-Pytorch SimCSE在中文上的复现,有监督+无监督

  • wakafengfan/simcse-pytorch pytorch版simcse无监督语义相似模型

  • JohnGiorgi/DeCLUTR 无监督文本表示的深度对比学习

  • shuxinyin/SimCSE-Pytorch 中文数据集下SimCSE+ESimCSE的实现

  • bojone/SimCSE SimCSE在中文任务上的简单实验

  • autoliuweijie/BERT-whitening-pytorch Pytorch version of BERT-whitening

  • DataTerminatorX/Keyword-BERT 带关键词的BERT语义匹配

文本摘要

  • maszhongming/MatchSum 背景: 传统抽取式摘要模型都是基于句子级提取的,即未考虑句子间关系,对所有句子逐个打分,取topN的句子为摘要。主要贡献:考虑句子间的关系,通过候选句间的组合句来抽取摘要;基于摘要与原文档在语义上应该有较大匹配度的考量,本文提出了基于候选句间的组合句与原文档的相似度来判断文档摘要的模型.对六个摘要提取数据集进行分析,验证了句子级得分高的摘要并不是摘要级得分最高的。如果仅以句子级,容易产生pearl-summary, 即虽然句子得分较低,但其实是较好的摘要,作者称为沧海遗珠。

  • nlpyang/BertSum BERT的简单变体 用于抽取式文本摘要,主要是选择性抽取文本中的句子作为最后的摘要。这个任务最大的问题是如何获得每个句子向量,然后把向量用于二分类,判断去留。而 BERT 原模型只能生成单句的句子向量,或者句子对的。(1)将文档中每句话前加 [CLS]后加[SEP],然后输入 BERT,而每个[CLS]对应的位置就是每句的句向量。(2)为了进一步增加句之间的互动,在 BERT 之上加了一层 Transformer 的 Summarization Layer,只输入每个[CLS]的向量,最后输出预测当前句是否保留,finetune。

  • MaartenGr/BERTopic BERTopic 是一种主题建模技术,它利用 🤗 transformer 和 c-TF-IDF 来创建密集的集群,允许轻松解释主题,同时在主题描述中保留重要的单词。BERTopic 支持各种主题建模技术:Guided 引导,Supervised 监督,Semi-supervised 半监督,Manual 手动,Multi-topic distributions多主题发行版,Hierarchical 层次,Class-based 基于类,Dynamic 动态,Online/Incremental 联机/增量,Multimodal 模 态,Multi-aspect 多方位,Text Generation/LLM 文本生成/LLM,Zero-shot,Merge Models 合并模型 ,Seed Words 种子词

  • RowitZou/topic-dialog-summ 具有显着性感知主题建模的客户服务的面向主题的口语对话摘要。数据集是从阿里巴巴客户服务中心收集的。所有对话都是在客户和服务代理之间进行的普通话来电。脱敏数据可在 Google Drive百度盘(提取码:t6nx)上获得。

  • jiacheng-ye/kg_one2set 解决关键词生成任务,给一篇源文档(比如论文的摘要),关键词预测任务就是预测出一些表达文档重点信息的关键词,或者更准确的说是关键短语。提出了模型SetTrans,其特点是能够预测更多、更准确而且重复率更低的关键词集合。并行预测,在 inference 效率上是Transfomer的6.44倍。

  • mahnazkoupaee/WikiHow-Dataset WikiHow:大规模文本摘要数据集,每篇文章由多个段落组成,每个段落都以一句话开头。通过合并段落以形成文章,合并段落大纲以形成摘要,生成的数据集版本包含超过 200,000 个长序列对。

  • yym6472/ms_pointer_network 用多来源Pointer Network的产品标题摘要方法.从两个信息来源:原始商品标题和知识信息knowledge中抽取信息,然后将二者进行综合得到最后的结果。

  • ritun16/llm-text-summarizations 使用大型语言模型 (LLMs) 进行文本摘要的综合指南和代码库。深入研究从分块到聚类的技术,并利用 GPT-3.5 和 GPT-4 LLMs 等的力量。

  • nlpyang/PreSumm 基于BERT的文档级编码器,该编码器能够表达文档的语义,并获得文档的句子表示。并分别提出了抽取式和生成式的摘要模型。

  • FeiSun/ProductTitleSummarizationCorpus Dataset for CIKM 2018 paper ”Multi-Source Pointer Network for Product Title Summarization” 用于产品标题摘要的多源指针网络

  • MaartenGr/keyBERT 一种最小且易于使用的关键字提取技术,它利用BERT嵌入来创建与文档最相似的关键字和关键字短语。

  • AIKevin/Pointer_Generator_Summarizer 指针生成器网络:具有关注,指向和覆盖机制的Seq2Seq,用于抽象性摘要。 tensorflow 2.0

  • nju-websoft/NEST 输入知识图谱的基于联合编码的弱监督神经实体摘要方法

  • OpenSUM/CPSUM 半监督抽取式摘要的噪声注入一致性训练和熵约束伪标签

  • bojone/SPACES 端到端的长本文摘要模型(法研杯2020司法摘要赛道)

  • magic282/NeuSum 通过共同学习评分和选择句子进行神经文本摘要

  • kjc6723/seq2seq_Pointer_Generator_Summarizer 中文会话中生成摘要总结的项目 tensorflow 2.0

  • xcfcode/Summarization-Papers 文本摘要论文列表,包括各种主题。

  • krystalan/ClidSum 一个跨语言对话摘要的基准数据集

  • Alex-Fabbri/Multi-News 大规模多文档摘要数据集和代码

  • abisee/pointer-generator 使用指针生成器网络进行汇总

  • dmmiller612/bert-extractive-summarizer BERT易于使用的提取文本摘要

  • steph1793/Pointer_Transformer_Generator 指针生成器网络 tensorflow 2.0

  • xcfcode/PLM_annotator 探索对话总结的 DialoGPT

  • xcfcode/Summarization-Papers 文本摘要论文总结

文本生成_文本对话

其他_文本生成_文本对话

  • openai/gpt-3 语言模型是少样本的学习器。最近的工作表明,通过对大量文本语料库进行预训练,然后对特定任务进行微调,在许多NLP任务和基准测试上取得了实质性进展。虽然在架构中通常与任务无关,但这种方法仍然需要特定于任务的数千或数万个示例的微调数据集。相比之下,人类通常只能从几个例子或简单的指令中执行新的语言任务——这是当前NLP系统仍然难以做到的。在这里,我们表明,扩展语言模型可以大大提高与任务无关的少镜头性能,有时甚至可以通过先前最先进的微调方法达到竞争力。具体来说,我们训练 GPT-3,一种具有 1750 亿个参数的自回归语言模型,比之前任何非稀疏语言模型多 10 倍,并在少数镜头设置中测试其性能。对于所有任务,GPT-3 在没有任何梯度更新或微调的情况下应用,任务和少数镜头演示纯粹通过与模型的文本交互来指定。GPT-3 在许多 NLP 数据集上实现了强大的性能,包括翻译、问答和完形填空任务,以及一些需要即时推理或领域适应的任务,例如解密单词、在句子中使用新单词或执行 3 位数算术。同时,我们还确定了 GPT-3 的少数镜头学习仍在挣扎的一些数据集,以及 GPT-3 面临与大型网络语料库训练相关的方法问题的一些数据集。最后,我们发现 GPT-3 可以生成人类评估人员难以区分的新闻文章样本与人类撰写的文章。我们讨论了这一发现和一般 GPT-3 更广泛的社会影响。

  • user1342/Tomato LLM 隐写术与最小熵耦合 - 在自然语言中隐藏加密消息。如何运作:LLM 生成的封面文本:LLM 像往常一样,根据提示生成连贯的文本。使用 MEC 嵌入:MEC 用于将隐藏消息(密文)的概率分布与LLM,这种耦合最小化了联合熵,确保隐写文本(带有嵌入消息的封面文本)保留了自然语言的统计属性,使隐藏的消息实际上无法被检测到。解码过程:在解码过程中,LLM 通过提供隐写文本的上下文感知解释来提供帮助,然后反向使用 MEC 将隐藏的消息与隐藏文本分离,该过程利用嵌入过程中使用的相同概率分布,确保在不影响隐藏文本完整性的情况下准确提取消息。此方法可确保隐藏的消息无缝集成到文本中,并且可以在以后安全、精确地检索,同时将检测风险降至最低。

  • RUCAIBox/TextBox 基于Python和PyTorch开发的,用于在一个统一的、全面的、高效的框架中复现和开发文本生成算法,主要面向研究者使用。我们的库包括16种文本生成算法,涵盖了两个主要任务:无条件(无输入)生成、序列到序列(Seq2Seq)生成,包括机器翻译和摘要生成。模型 无条件:LSTMVAE (Bowman et al., 2016)、CNNVAE (Yang et al., 2017)、HybridVAE (Semeniuta et al., 2017)、SeqGAN (Yu et al., 2017)、TextGAN (Zhang et al., 2017)、RankGAN (Lin et al., 2017)、MaliGAN (Che et al., 2017)、LeakGAN (Guo et al., 2018)、MaskGAN (Fedus et al., 2018)。序列到序列 RNN (Sutskever et al., 2014)、Transformer (Vaswani et al., 2017b)、GPT-2 (Radford et al.)、XLNet (Yang et al., 2019)、BERT2BERT (Rothe et al., 2020)、BART(Lewis et al。,2020)

  • huggingface/alignment-handbook 使语言模型与人类和 AI 偏好保持一致的强大配方:OpenAI用ChatGPT打破了互联网,Meta紧随其后发布了Llama系列语言模型,使ML社区能够构建自己有能力的聊天机器人。这导致了一个丰富的数据集和模型生态系统,这些数据集和模型主要集中在通过监督微调(SFT)来教授语言模型遵循指令。该手册的初始版本将侧重于以下技术:Supervised fine-tuning监督微调,教语言模型遵循有关如何收集和策划自己的训练数据集的说明和提示。Reward modeling奖励建模:教授语言模型根据人类或AI偏好区分模型响应。Rejection sampling剔除采样:一种简单但功能强大的技术,可提高SFT模型的性能。直接偏好优化(DPO):PPO的强大而有前途的替代方案。

  • KellerJordan/modded-nanogpt 这是 Andrej Karpathy 的 llm 的变体。它:训练效率提高 3.8 倍(只需 2.67 个令牌而不是 10B 即可达到相同的验证损失)。代码更短(537 行而不是 860 行)。实施架构现代化(旋转嵌入、RMSNorm、ReLU^2、投影零初始化)。实现一个新的优化器 (Muon - Momentum Orthogonalized by Newton-schulz)。要执行训练,请在 8xA100 或 8xH100 节点上运行以下三个命令。他们在 8xH100 上以 <20 分钟完成,互联网连接良好。这将在 Fineweb [1] 的 2.67B 令牌上训练一个 124M 参数的 transformer 进行 5100 个步骤,实现 ~3.277 的验证损失。相比之下,默认的 llm PyTorch trainer 在训练 10B 令牌后会产生 >3.28 验证损失。

  • RUCAIBox/MVP 自然语言生成的多任务监督预训练。遵循标准的转换器编码器-解码器架构。使用标记数据集进行监督预训练。还具有特定于任务的软提示,以刺激模型执行特定任务的能力。专为自然语言生成而设计,可以适应各种生成任务。我们的模型也可以适应自然语言理解任务。收集了7种代表性生成任务的45个有标签数据集,共计3200千万条样本(23GB),来作为预训练语料。第一阶段,使用这些语料训练一个标准的Transformer,即MVP;第二阶段,冻结住MVP,利用每个任务的数据训练任务特定的连续型提示(即7组提示)。

  • XiangLi1999/PrefixTuning 前缀微调:优化文本生成的连续提示模板。提出一种更好的微调方法,通过加入前缀实现统一模型在不同任务上的微调,实现小样本学习,极大地减少了参数量。目前对于前缀的构造,大致可以分为本文的连续前缀和离散前缀(自动生成或手动设计),对于在摘要任务上加入离散前缀,有点类似于从对话中提取特征或结构,但这种方法的优势就在于它不需要大量的样本,而传统的融入结构的方法仍然需要很多样本。

  • microsoft/LMOps 关于构建具有基础模型的 AI 产品的基础研究和技术的研究计划,特别是关于通过LLMs生成式 AI 模型实现 AI 功能的通用技术。更好的提示:自动提示优化、提示器、可扩展提示、通用提示检索、检索器、LLM上下文演示选择。更长的上下文:结构化提示、长度外推转换器。LLM对齐:通过LLM反馈对齐。LLM加速器(更快的推理):无损加速LLMs。LLM自定义:适应LLM领域。

  • BART Bidirectional and Auto-Regressive Transformers 是以去噪为预训练目标训练的序列间模型, 一种符合生成任务的预训练方法。我们证明了这种预训练目标更为通用,并且证明了我们可以在SQuAD和GLUE上匹配RoBERTa的结果,并在摘要(XSum,CNN数据集)、长形式生成性问答(ELI5)和对话-反应生成(ConvAI2)上获得最新的结果。在生成任务上显著高于BERT, UniLM, XLNet, RoBERTa等模型

  • LibreTranslate/LibreTranslate LibreTranslate是一个免费开源的机器翻译 API,完全自托管,无需依赖 Google 或 Azure等专有提供商。它使用开源的 Argos Translate 库作为翻译引擎,可以离线运行,易于设置。你可以通过简单的 API 调用进行翻译,支持多种语言,并提供自动语言检测、HTML 格式翻译、备选翻译等功能。只需几行命令即可安装和运行自己的 API 服务器。

  • MuiseDestiny/zotero-gpt 与Zotero集成:您可以使用该插件根据所选文本或PDF文件搜索和询问库中的项目。使用 GPT 生成回复文本:support gpt-3.5-turbo 和 gpt-4。询问有关当前 PDF 文件(全文或所选文本)的问题。对所选论文(摘要)提出问题。 将所选论文总结成几个高度浓缩的句子。根据所选文本搜索库中的项目。

  • beyondguo/genius 强大的有条件文本生成模型,以草稿为输入,在给定的草稿(文本范围、短语或单词的关键信息)中填充缺失的上下文,在大规模文本语料库上进行预训练,用一种极端和选择性的掩蔽策略从草稿目标进行新的重建,使它能够生成给定素描的多样化和高质量的文本。

  • bojone/t5_in_bert4keras 在keras中使用T5模型 ,用mT5 small版本finetune出来的 CSL 标题生成模型,BLEU 指标能持平基于 WoBERT 的 UniLM 模型,并且解码速度快 130%;而用 mT5 base 版本 finetune 出来的 CSL 标题生成模型,指标能超过基于 WoBERT 的 UniLM 模型 1% 以上,并且解码速度也能快 60%。

  • google-research/text-to-text-transfer-transformer T5的理念就是“万事皆可 Seq2Seq”,它使用了标准的 Encoder-Decoder 模型,并且构建了无监督/有监督的文本生成预训练任务,最终将效果推向了一个新高度。

  • fastnlp/CPT 中文预训练非平衡转换器 (CPT) ,它是一种非平衡 Transformer 编码器-解码器,联合 MLM 和 DAE 进行预训练。用于汉语理解和生成的预训练.

  • RasaHQ/rasa 开源机器学习框架,用于自动化基于文本和语音的对话:NLU、对话管理、连接到 Slack、Facebook 等 - 创建聊天机器人和语音助手

  • songhaoyu/BoB BERTOverBERT用于从有限的个性化数据训练基于角色的对话模型。分解为了两个子任务,从有限的角色化对话数据中进行学习。

  • Ceelog/DictionaryByGPT4 一本 GPT4 生成的单词书,超过 8000 个单词分析,涵盖了词义、例句、词根词缀、变形、文化背景、记忆技巧和小故事

  • EleutherAI/gpt-neo 模型并行GPT2和类似GPT3的模型的实现,能够使用mesh-tensorflow库扩展到完整的GPT3尺寸(甚至可能更多!)。

  • aishwaryanr/awesome-generative-ai-guide 生成式 AI 正在经历快速增长,该存储库是生成式 AI 研究、访谈材料、笔记本等更新的综合中心!

  • howdyai/botkit 一个开源开发人员工具,用于为主要消息传递平台构建聊天机器人、应用程序和自定义集成。

  • AdityaNG/kan-gpt 使用 Kolmogorov-Arnold 网络 (KAN) 进行语言建模的生成式预训练转换器 (GPT) 的 PyTorch 实现

  • ZhuiyiTechnology/t5-pegasus 中文生成式预训练模型,以mT5为基础架构和初始权重,通过类似PEGASUS的方式进行预训练。

  • 0hq/WebGPT 使用 WebGPU 在浏览器上运行 GPT 模型。在不到 ~1500 行的原版 Javascript 中实现 GPT 推理。

  • Morizeyao/GPT2-Chinese GPT2中文文生模型,包括散文、诗词、对联、通用中文、中文歌词、文言文

  • Awesome-TOD-NLG-Survey 面向任务的对话系统 (TOD) 中自然语言生成的调查:最新进展和新前沿

  • bentrevett/pytorch-seq2seq 使用 PyTorch 和 TorchText 实现一些序列到序列 (seq2seq) 模型的教程。

  • dsdanielpark/Bard-API 通过 cookie 值返回 Google Bard (大语言模型) 响应的非官方 python 包。

  • minimaxir/gpt-2-simple Py包可以轻松地在新文本上重新训练 OpenAI 的 GPT-2 文本生成模型

  • openai/gpt-2 论文“语言模型是无监督的多任务学习者”中的代码和模型。

  • OSU-NLP-Group/Mind2Web 论文“Mind2Web:迈向Web的通才代理”的数据集,代码和模型。

  • karpathy/nanoGPT 用于训练/微调中型 GPT(GPT-2) 的最简单、最快的存储库。

  • karpathy/minGPT OpenAI GPT(生成预训练转换器)训练的最小PyTorch 重新实现

  • deeppavlov/DeepPavlov 用于深度学习端到端对话系统和聊天机器人的开源库。

  • liucongg/GPT2-NewsTitle GPT2.带有超级详细注释的中文GPT2新闻标题生成项目。

  • EssayKillerBrain/WriteGPT 基于开源GPT2.0的初代创作型人工智能 | 可扩展、进化

  • gunthercox/ChatterBot 一个机器学习的对话对话引擎,用于创建聊天机器人

  • thu-coai/CDial-GPT 大规模中文短文本会话数据集和中文预训练对话模型

  • google/sentencepiece 用于基于神经网络的文本生成的无监督文本分词器。

  • RUCAIBox/Context-Tuning 上下文调优:学习上下文提示用于自然语言生成

  • samueldobbie/markup 基于Web的文档注释工具,由GPT-3  提供支持

  • YunwenTechnology/QueryGeneration 智能扩充机器人的“标准问”库之Query生成

  • imcaspar/gpt2-ml GPT2 多语言支持, 15亿参数中文预训练模型

  • SUSYUSTC/MathTranslate 用 Latex 翻译科学论文,尤其是 ARXIV 论文

  • rikdz/GraphWriter 基于图Transformer从知识图谱中生成文本

  • yangjianxin1/GPT2-chitchat 用于中文闲聊的GPT2文本对话模型

  • PENS-Personalized-News-Headline-Generation 新闻头条生成数据集和通用框架

  • Aristotle609/Medium-Title-Generator 生成数据科学文章标题的模型

  • google-research/multilingual-t5 T5 的多国语言版

大语言对话模型及数据

  • Tele-AI/TeleChat2 星辰语义大模型TeleChat2是由中国电信人工智能研究院研发训练的大语言模型,是首个完全国产算力训练并开源的千亿参数模型。星辰语义大模型TeleChat2是由中国电信人工智能研究院研发训练的大语言模型,该系列模型完全基于国产算力训练。本次开源TeleChat2-115B模型采用10万亿 Tokens中英文高质量语料进行训练,同步开源对话模型TeleChat2-115B的多格式、多平台权重文件。TeleChat2在训练数据、训练方法等方面进行了改进,在通用问答和知识类、代码类、数学类榜单上相比TeleChat1均有大幅提升。TeleChat2完全基于国产算力和国产深度学习框架进行训练,算力和算法框架更自主可控。优化MP、PP、SP实现方式提升模型性能,优化算子来提升训练速度。我们使用大量小模型实验来验证scaling law规律,在不同模型结构、不同数据配比和数据清洗方式中寻找最优设计。采用RingAttention及其他序列切分方式,实现长文训练性能提升;通过ntk-aware+attention-scaling的方式保证训练长度切换时的平稳过渡,以此来保证模型在不同长度数据下的训练效果。在微调数据方面,我们进行了指令复杂性提升与多样性扩充,通过数据合成和人工标注生成高质量数据,并使用拒绝采样生成多样的推理路径;通过研究一套基于base模型反向选择偏好对齐数据方案,基于适配数据最大限度提升模型效果。通用能力较TeleChat系列模型提升超过29%,在逻辑推理、总结摘要、长文写作和数学计算上均有大幅提升。采用标准的 Decoder-only 结构设计了 TeleChat2 模型,使用 Rotary Embedding 的位置编码方法、使用 SwiGLU 激活函数来替代GELU激活函数、使用基于 RMSNorm 的 Pre-Normalization进行层标准化操作。我们将TeleChat2的词嵌入层和输出lm head层参数分开,有助于增强训练稳定性和收敛性。我们选择了GQA以节约attention部分的参数量和计算量、提升训练和推理速度。TeleChat模型相比同规模模型在评测效果方面也有较好的表现,我们的评测集涵盖了包括MMLU、C-Eval、CMMLU、 GSM8K、MATH、HumanEval、BBH等数据集,评测能力包括了指令遵循、考试能力、数学计算和推理、代码生成等。

  • bklieger-groq/g1 在 Groq 上使用 Llama-3.1 70b 创建类似 o1 的推理链。这是使用提示策略通过类似 o1 的推理链来提高 LLM 的推理能力的早期原型。这允许 LLM “思考”并解决通常会难倒领先模型的逻辑问题。与 o1 不同,它显示了所有推理标记,并且该应用程序使用开源模型。G1 是实验性的,并且是开源的,以帮助激励开源社区开发新的策略来产生类似 O1 的推理。该实验有助于展示在可视化步骤中提示推理的力量,而不是与使用不同技术的 o1 进行比较或完全复制。相反,OpenAI 的 o1 通过大规模强化学习进行训练,以使用 Chain of Thought 进行推理,从而在复杂的博士级问题上实现最先进的性能。g1 展示了单独提示克服简单的 LLM 逻辑问题(如 Strawberry 问题)的潜力,使现有的开源模型能够从动态推理链和改进的界面中受益。由 Llama3.1-70b 提供支持的 g1 创建了推理链,原则上是一个动态的思维链,它允许 LLM 能够“思考”并解决一些通常会难倒领先模型的逻辑问题。在每个步骤中,LLM 可以选择继续另一个推理步骤,或提供最终答案。每个步骤都有标题,并且对用户可见。系统提示符还包括 LLM。Prompt Breakdown 下有完整的解释,但有几个示例要求模型“包括对替代答案的探索”和“使用至少 3 种方法来得出答案”。因此,通过将思维链与尝试多种方法、探索替代答案、质疑以前的草案解决方案并考虑 LLM。仅此一项,无需任何训练,就足以在草莓问题上达到 ~70% 的准确率(n=10,“草莓中有多少 R?)在没有提示的情况下,Llama-3.1-70b 的准确率为 0%,ChatGPT-4o 的准确率为 30%。

  • deepseek-ai/DeepSeek-V2 DeepSeek-V2:强大、经济且高效的专家混合语言模型,一种强大的专家混合 (MoE) 语言模型,其特点是经济的训练和高效的推理。它包含 236B 个总参数,其中 21B 为每个词元激活。与DeepSeek 67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提升了5.76倍。我们在由 8.1 万亿个词元组成的多样化、高质量的语料库上预训练了 DeepSeek-V2。在这种全面的预训练之后,是监督微调 (SFT) 和强化学习 (RL) 的过程,以充分释放模型的能力。评估结果验证了我们方法的有效性,因为DeepSeek-V2在标准基准测试和开放式生成评估中都取得了卓越的性能。大海捞针 (NIAH) 测试的评估结果。DeepSeek-V2 在高达 128K 的所有上下文窗口长度上都表现良好。我们在 AlpacaEval 2.0 和 MTBench 上评估了我们的模型,显示了 DeepSeek-V2-Chat-RL 在英语会话生成方面的竞争性能。我们在 LiveCodeBench (0901-0401) 上评估我们的模型,这是一个为实时编码挑战而设计的基准测试。如图所示,DeepSeek-V2 在 LiveCodeBench 方面表现出相当的熟练程度,取得了超过其他几个复杂模型的Pass@1分数。这一性能突出了该模型在处理实时编码任务方面的有效性。DeepSeek-V2 采用创新架构,保证训练经济高效:在注意力方面,我们设计了MLA(Multi-head Latent Attention),它利用低秩键值联合压缩来消除推理时键值缓存的瓶颈,从而支持高效的推理。对于前馈网络 (FFN),我们采用 DeepSeekMoE 架构,这是一种高性能的 MoE 架构,能够以更低的成本训练更强大的模型。

  • baichuan-inc/Baichuan-13B 由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次发布包含有预训练 (Baichuan-13B-Base) 和对齐 (Baichuan-13B-Chat) 两个版本。Baichuan-13B 有如下几个特点:更大尺寸、更多数据:Baichuan-13B 在 Baichuan-7B 的基础上进一步扩大参数量到 130 亿,并且在高质量的语料上训练了 1.4 万亿 tokens,超过 LLaMA-13B 40%,是当前开源 13B 尺寸下训练数据量最多的模型。支持中英双语,使用 ALiBi 位置编码,上下文窗口长度为 4096。同时开源预训练和对齐模型:预训练模型是适用开发者的『 基座 』,而广大普通用户对有对话功能的对齐模型具有更强的需求。因此本次开源我们同时发布了对齐模型(Baichuan-13B-Chat),具有很强的对话能力,开箱即用,几行代码即可简单的部署。更高效的推理:为了支持更广大用户的使用,我们本次同时开源了 int8 和 int4 的量化版本,相对非量化版本在几乎没有效果损失的情况下大大降低了部署的机器资源门槛,可以部署在如 Nvidia 3090 这样的消费级显卡上。开源免费可商用:B对学术研究完全开放,开发者也仅需邮件申请并获得官方商用许可后,可免费商用。

  • MadcowD/ell ell 是一个轻量级的函数式提示工程框架,构建在几个核心原则之上:1. 提示是程序,而不是字符串。提示不仅仅是字符串;它们都是导致字符串被发送到语言模型的代码。在 ell 中,我们认为一种将语言模型用作离散子例程的特殊方法,称为语言模型程序。2. 提示实际上是机器学习模型的参数。提示工程的过程涉及许多迭代,类似于机器学习中的优化过程。由于 LMP 只是函数,因此 ell 为此过程提供了丰富的工具。ell 通过静态和动态分析以及 GPT-4o-mini自动生成的提交消息,将提示的自动版本控制和序列化直接发送到本地存储。此过程类似于机器学习训练循环中的检查点,但它不需要任何特殊的 IDE 或编辑器 - 全部使用常规 Python 代码完成。3. 用于监控、版本控制和可视化的工具。使用正确的工具,Prompt 工程从一门黑暗的艺术变成了一门科学。Ell Studio 是一个本地开源工具,用于提示版本控制、监控、可视化。使用 Ell Studio,您可以随着时间的推移经验化您的提示优化过程,并在为时已晚之前捕获回归。4. 多模态应该是一流的。LLMs 可以处理和生成各种类型的内容,包括文本、图片、音频和视频。使用这些数据类型进行提示工程应该像使用文本一样简单。

  • THUDM/ChatGLM2-6B 开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,引入了如下新特性:更强大的性能:全面升级了基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练,评测结果显示,相比于初代模型,MMLU(+23%)、CEval(+33%)、GSM8K(+571%) 、BBH(+60%)等数据集上的性能取得了大幅度的提升,在同尺寸开源模型中具有较强的竞争力。更长的上下文:基于 FlashAttention 技术,我们将基座模型的上下文长度(Context Length)由 ChatGLM-6B 的 2K 扩展到了 32K,并在对话阶段使用 8K 的上下文长度训练。对于更长的上下文,我们发布了 ChatGLM2-6B-32K 模型。LongBench 的测评结果表明,在等量级的开源模型中,32K 有着较为明显的竞争优势。更高效的推理:基于 Multi-Query Attention 技术,有更高效的推理速度和更低的显存占用:在官方的模型实现下,推理速度相比初代提升了 42%,INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K。更开放的协议:权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用。

  • SqueezeAILab/LLM2LLM LLM2LLM 是一种新颖的迭代数据增强策略,旨在通过使用大型语言模型(LLM)自身的能力来提升其性能。该方法的核心思想是利用一个教师 LLM 来增强小型的种子数据集,通过生成合成数据并将其重新加入到训练数据中,从而逐步提高模型的性能。这种方法不仅减少了手动生成数据的需要,还显著降低了所需的真实数据量,使得在低数据机制中也能有效提升 LLM 的性能。包括以下几个步骤:在初始种子数据集中微调学生模型。评估并提取学生模型在训练集中预测错误的数据。利用教师模型对这些错误数据生成额外数据,并将其加入到原始训练数据中进行迭代训练。这种方法的优势在于其迭代性和针对性,每次数据增强时仅对种子数据进行处理,从而确保数据的质量和相关性。通过这种方式,LLM2LLM 能够生成高质量的合成数据,其效果可以媲美甚至超过手工收集的数据。此外,LLM2LLM 还减少了劳动密集型数据整理的需求,使得数据增强过程更加高效和自动化。研究结果表明,LLM2LLM 在低数据机制中的性能显著优于传统的微调和其他数据增强基线,为大型语言模型的进一步发展提供了新的思路和方法。

  • DA-southampton/RedGPT 提出一种自动生成事实型对话的方法,并公开我们的部分数据。我们公开的第一批数据(RedGPT-Dataset-V1-CN)共包含5万条中文多轮对话。目标是自动生成海量、高质量、事实型多轮对话,用于训练GPT,提升GPT的事实正确性。我们采用如下方法自动生成数据。1. 采集优质的事实型文档,我们称之为reference,其来源可以是电子书、维基百科、优质垂类网站。文档需要涵盖尽量多的主题,包括但不限于人物、机构、科技、医疗、法律、人文、经济、家居、汽车、出行、美食、时尚、体育、教育、宠物。2. 利用已有的LLM(例如付费API)生成多轮对话。输入是一篇reference,prompt类似“请根据这篇文章生成多轮问答”。API会输出一段多轮对话(dialogue)。这种方法将原本只适合预训练的文档转化成可供微调的多轮对话。3. 第2步收集到大量的reference-dialogue二元组。将reference和prompt作为输入,dialogue作为目标,微调一个GPT模型(可以基于LLaMA或BLOOM的预训练基座)。我们将微调出的模型称作Reference-Enlightened-Dialogue GPT,缩写RedGPT。有了RedGPT,即可基于reference生成多轮对话,获得海量的数据。

  • lm-sys/llm-decontaminator 在没有更强的去除训练样本污染的情况下,Llama-rephraser:13B 模型在主要基准测试 (MMLU/GSK-8K/HumanEval) 中达到 GPT-4 性能!为了确保结果的有效性,我们遵循了 OpenAI 的去污方法,没有发现数据污染的证据。本文提出了一种基于更强LLM的去污器,并将其应用于现实世界的训练数据集(例如, the Stack、RedPajama),揭示了训练数据集与广泛使用的基准测试的显着重叠。现有的检测方法(例如,n-gram重叠,嵌入相似性)无法检测到这种污染。嵌入相似性方法很难将改写的问题与同一主题(高中美国历史)中的其他问题区分开来。而本文提出可以使用“LLM去污器”来量化数据集相对于基准的重新表述的样本。根据检测结果,您可以估计数据集中改写样本的污染情况,并将其从训练集中移除。该LLM净化器包括两个步骤:对于每个测试用例,“LLM去污器”使用嵌入相似性搜索识别相似度最高的前 k 个训练项。从这些项目中,“LLM去污器”生成 k 个潜在的改写对,每对都使用高级 LLM,例如 GPT-4 进行改写评估。结果表明,我们提出LLM的方法在去除改写样本方面明显优于现有方法。

  • modelscope/data-juicer 为大语言模型提供更高质量、更丰富、更易”消化“的数据!特征:系统化和可重用:为用户提供包含 80+ 核心 OP、20+ 可重用配置配方和 20+ 功能丰富的专用工具包的系统库,旨在独立于特定的多模态LLM数据集和处理管道运行。Data-in-the-loop & Sandbox:支持一站式数据模型协同开发,通过沙盒实验室实现快速迭代,提供基于数据和模型的反馈循环、可视化、多维度自动评估等功能,让您更好地理解和改进您的数据和模型。提高效率:提供高效并行的数据处理流水线(Aliyun-PAIRaySlurmCUDAOP Fusion),需要更少的内存和CPU使用率,并针对最大生产力进行优化。全面的数据处理配方:提供数十种预建的数据处理配方,用于预训练、微调、en、zh 等场景。在参考 LLaMA 和 LLaVA 模型上进行了验证。灵活和可扩展:适应大多数类型的数据格式(例如,jsonl、parquet、csv等),并允许灵活组合OP。随意实现您自己的 OP 以进行可自定义的数据处理。用户友好体验:为简单而设计,具有全面的文档、简单的入门指南和演示配置,以及通过在现有配置中简单添加/删除 OP 的直观配置。

  • thudm/longwriter 由清华大学和智谱AI联合开发的长文本生成模型,旨在从长上下文大语言模型(LLMs)中释放超过 10,000 个单词的生成能力。当前的长上下文 LLMs 虽然可以处理多达 100,000 个标记的输入,但在生成超过 2,000 个单词的输出时仍然面临困难,主要原因是模型的有效生成长度受到在监督微调(SFT)过程中所见样本的限制。为了解决这一问题,研究团队引入了 AgentWrite,这是一种基于代理的方法,通过将超长的生成任务分解为子任务,使得现有的 LLMs 能够生成超过 20,000 个单词的连贯输出。利用 AgentWrite,他们构建了 LongWriter-6k,这是一个包含 6,000 个 SFT 数据的数据集,输出长度从 2k 到 32k 单词不等。通过将此数据集纳入模型训练,现有模型的输出长度扩展到 10,000 字以上,同时保持了输出质量。此外,LongWriter 还开发了 LongBench-Write,这是一个用于评估超长生成能力的综合基准。用户可以通过运行 CUDA_VISIBLE_DEVICES=0 python trans_web_demo.py 来部署自己的 LongWriter 聊天机器人,或者使用 vllm 部署模型,从而在一分钟内生成超过 10,000 个单词。

  • jingyaogong/minimind 【大模型】3小时完全从0训练一个仅有26M的小参数GPT,最低仅需2G显卡即可推理训练!MiniMind极其轻量,体积约是 GPT3 的 1/7000,力求做到最普通的个人GPU也可快速推理甚至训练。MiniMind改进自DeepSeek-V2、Llama3结构,项目包含整个数据处理、pretrain、sft、dpo的全部阶段,包含混合专家(MoE)模型。这是一个既是开源项目,又是入门LLM教程,同时也是一个初具雏形的开源模型,希望能起到抛砖引玉的作用。因此,本项目的目标是把上手LLM的门槛无限降低, 直接从0开始训练一个极其轻量的语言模型。项目包含:公开MiniMind模型代码(包含Dense和MoE模型)、Pretrain、SFT指令微调、LoRA微调、DPO偏好优化的全过程代码、数据集和来源。兼容transformers、accelerate、trl、peft等流行框架。训练支持单机单卡、单机多卡(DDP、DeepSpeed)训练,使用wandb可视化训练流程。支持在任意位置停止,及在任意位置继续训练。在Ceval数据集上进行模型测试的代码。实现Openai-Api基本的chat接口,便于集成到第三方ChatUI使用(FastGPT、Open-WebUI等)。

  • xlang-ai/UnifiedSKG 使用文本到文本语言模型进行统一和多任务结构化知识基础,结构化知识基础 (SKG) 利用结构化知识来完成用户请求,例如对数据库进行语义解析和对知识库进行问答。由于SKG任务的输入和输出是异质的,因此它们在历史上被不同的社区分开研究,这限制了对SKG的系统性和兼容性研究。在本文中,我们通过提出 UnifiedSKG 框架来克服这一局限性,该框架将 21 个 SKG 任务统一为文本到文本的格式,旨在促进系统的 SKG 研究,而不是专属于单个任务、领域或数据集。我们表明,像 T5 这样的大型语言模型,在必要时进行简单的修改,几乎可以在所有 21 个任务上实现最先进的性能。UnifiedSKG促进多任务学习。我们表明,多任务前缀调整对大多数任务都有好处,大大提高了整体性能。UnifiedSKG 是一个具有挑战性的零样本和少样本学习测试平台,T0、GPT-3 和 Codex 都在其中苦苦挣扎。UnifiedSKG 还支持对 SKG 任务中的结构化知识编码变体进行一系列对照实验。我们发现 T5 对结构化知识编码变化的敏感性因任务而异。

  • yangling0818/buffer-of-thought-llm 思想缓冲:使用大型语言模型进行思想增强推理。BoT,这是一种新颖且多功能的思维增强推理方法,旨在提高大型语言模型 (LLMs。具体来说,我们提出了一个元缓冲区来存储一系列高级思想,称为思想模板,这些思想是从各种任务中解决问题的过程中提炼出来的。对于每个问题,我们检索一个相关的思想模板,并使用特定的推理结构自适应地实例化它,以进行有效的推理。为了确保可扩展性和稳定性,我们还提出了一个 buffer-manager 来动态更新 meta-buffer,从而随着更多任务的解决而增强其容量。我们对 10 项具有挑战性的推理密集型任务进行了广泛的实验,与以前的最先进的 (SOTA) 方法相比,性能有了显著提高:Game of 24 的性能提高了 11%,几何形状的性能提高了 20%,Checkmate-in-One 的性能提高了 51%。进一步的分析表明,我们的 BoT 具有卓越的泛化能力和稳健性,而平均只需要多查询提示方法(例如,树/思想图)成本的 12%。值得注意的是,我们发现我们的 Llama3-8B + BoT 有可能超越 Llama3-70B 模型。

  • thu-bpm/markllm MarkLLM 是一个开源工具包,旨在促进大型语言模型 (LLMs) 中水印技术的研究和应用。随着大型语言模型 (LLMs) 的使用范围扩大,确保机器生成文本的真实性和来源变得至关重要。MarkLLM 简化了对水印技术的访问、理解和评估,使其可供研究人员和更广泛的社区使用。实现框架:MarkLLM 为各种LLM水印算法的实现提供了一个统一且可扩展的平台。它目前支持来自两个著名家族的九种特定算法,促进了水印技术的集成和扩展。目前支持的算法:KGW,Unigram,SWEET,UPV,EWD,SIR,X-SIR,EXP,EXP-Edit,ITS-Edit。可视化解决方案:该工具包包括自定义可视化工具,可以清晰而深入地了解不同水印算法在各种场景下的运行方式。这些可视化有助于揭开算法机制的神秘面纱,使用户更容易理解它们。评估模块:MarkLLM 拥有 12 种评估工具,涵盖可检测性、鲁棒性和对文本质量的影响,在其评估水印技术的综合方法中脱颖而出。它还具有可定制的自动化评估管道,可满足不同的需求和场景,从而增强了工具包的实际实用性。

  • exo-explore/exo 在家中使用日常设备运行自己的 AI 集群。忘记昂贵的 NVIDIA GPU,将现有设备统一到一个强大的 GPU 中:iPhone、iPad、Android、Mac、Linux,几乎任何设备!特征:广泛的模型支持,exo支持LLaMA(MLX和tinygrad)等热门型号。动态模型分区,EXO 根据当前网络拓扑和可用设备资源对模型进行最佳拆分。这使您能够运行比在任何单个设备上更大的模型。自动设备发现,EXO 将使用可用的最佳方法自动发现其他设备。零手动配置。ChatGPT 兼容 API,exo 提供了一个与 ChatGPT 兼容的 API,用于运行模型,只需在您的应用程序中进行一行更改,即可使用 exo 在您自己的硬件上运行模型。设备平等,与其他分布式推理框架不同,exo 不使用 master-worker 架构,exo 设备连接 p2p,只要设备连接到网络中的某个位置,它就可以用于运行模型,Exo支持不同的分区策略,可以在设备之间分割模型,默认的分区策略是环形内存加权分区,这将在一个环中运行推理,其中每个设备运行与设备内存成正比的多个模型层。

  • ziliwangnlp/RefGPT 包含5万对中文多轮对话数据。用如下方法自动生成数据。采集优质的事实型文档,reference,来源是电子书、维基百科、优质垂类网站。文档需要涵盖尽量多的主题。利用已有LLM生成多轮对话。输入是一篇reference,prompt类似“请根据这篇文章生成多轮问答”。API输出一段多轮对话(dialogue)。这种方法将原本只适合预训练的文档转化成可供微调的多轮对话。收集到大量的reference-dialogue二元组。将reference和prompt作为输入,dialogue作为目标,微调一个GPT模型。称作Reference-to-Dialogue GPT,缩写RefGPT。有了RefGPT,即可基于reference生成多轮对话,获得海量的数据。需要关注2个要点。Reference的质量、广度。Reference内容质量必须高,比如医疗等优质垂类网站的页面、维基百科上非生僻的词条,且需要对网页做清洗。Reference的广度应当大,不能限制在单个垂类或网站。调用已有LLM时需要写prompt,需要仔细尝试各种prompt,使得LLM生成的多轮对话符合预期。

  • bilibili/Index-1.9B Index-1.9B系列是Index系列模型(由哔哩哔哩自主研发的大语言模型)中的轻量版本,包含以下模型:Index-1.9B base : 基座模型,具有 19亿 非词嵌入参数量,在2.8T 中英文为主的语料上预训练,多个评测基准上与同级别模型比处于领先。Index-1.9B pure : 基座模型的对照组,与base具有相同的参数和训练策略,不同之处在于我们严格过滤了该版本语料中所有指令相关的数据,以此来验证指令对benchmark的影响。Index-1.9B chat : 基于index-1.9B base通过SFT和DPO对齐后的对话模型,我们发现由于我们预训练中引入了较多互联网社区语料,聊天的趣味性明显更强,并且拥有同级别模型中较强的多语种(尤其是东亚语种)互译能力。Index-1.9B character : 在SFT和DPO的基础上引入了RAG来实现fewshots角色扮演定制。Index-1.9B-32K : Index-1.9B-32K 是一个仅有 1.9B 参数、却具备 32K 上下文长度的语言模型(这意味着,这个超小精灵可以一次性读完 3.5 万字以上的文档)。

  • langchain-ai/langchainjs 通过LLMs可组合性构建应用程序,LangChain是用TypeScript编写的,可用于:Node.js(ESM 和 CommonJS) - 18.x、19.x、20.x、22.x;Cloudflare Workers;Vercel / Next.js(浏览器、Serverless 和 Edge 功能);Supabase Edge 函数;浏览器;Deno。LangChain是一个用于开发由语言模型驱动的应用程序的框架。它使应用程序能够:具有上下文感知能力:将语言模型连接到上下文源(提示指令、少量镜头示例、内容以使其响应为基础等);原因:依靠语言模型进行推理(关于如何根据提供的上下文回答、采取什么行动等)。该框架由几个部分组成:开源库:使用 LangChain 的开源构建块、组件和第三方集成来构建您的应用程序,使用 LangGraph.js 构建具有一流和人机交互支持的状态代理。生产化:使用LangSmith来检查、监控和评估您的链,以便您可以放心地持续优化和部署。部署:使用 LangGraph Cloud(目前仅限 Python)将您的 LangGraph 应用程序转换为生产就绪的 API 和助手。

  • InternLM/InternLM-techreport 书生·浦语由上海人工智能实验室和商汤科技(同等贡献)与香港中大、复旦和上海交大联合开发的多语言大语言模型。具有104B参数的多语言基础语言模型。在具有 1.6T 词元的大型语料库上进行预训练,并具有多阶段渐进过程,然后进行微调以符合人类偏好。我们还开发了一个名为Uniscale-LLM的训练系统,用于高效的大型语言模型训练。对多项基准的评估表明,InternLM在知识理解、阅读理解、数学和编码等多个方面都取得了最先进的表现。凭借如此全面的能力,InternLM在综合考试中取得了出色的表现,包括MMLU,AGIEval,C-Eval和高考-Bench,而无需借助外部工具。在这些基准测试中,InternLM 不仅明显优于开源模型,而且与 ChatGPT 相比,还获得了卓越的性能。此外,InternLM在理解中文和中国文化方面表现出出色的能力,这使其成为支持面向中文的语言应用的合适基础模型,并提供了跨各种知识领域和任务的基准和示例。

  • higgsfield-ai/higgsfield 容错、高度可扩展的 GPU 编排,以及专为训练具有数十亿到数万亿个参数的模型而设计的机器学习框架。Higgsfield 是一个开源、容错、高度可扩展的 GPU 编排,以及一个机器学习框架,专为训练具有数十亿到数万亿个参数的模型而设计,例如大型语言模型 (LLMs)。Higgsfield 作为 GPU 工作负载管理器和机器学习框架,具有五个主要功能:将对计算资源(节点)的独占和非独占访问权限分配给用户进行训练任务。支持 ZeRO-3 deepspeed API 和 PyTorch 的全分片数据并行 API,实现万亿参数模型的高效分片。提供一个框架,用于在分配的节点上启动、执行和监控大型神经网络的训练。通过维护用于运行试验的队列来管理资源争用。通过与 GitHub 和 GitHub Actions 的无缝集成,促进机器学习开发的持续集成,Higgsfield 简化了训练大型模型的过程,并为开发人员提供了多功能且强大的工具集。

  • THUDM/GLM-4 GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。 在语义、数学、推理、代码和知识等多方面的数据集测评中, GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出超越 Llama-3-8B 的卓越性能。除了能进行多轮对话,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理(支持最大 128K 上下文)等高级功能。本代模型增加了多语言支持,支持包括日语,韩语,德语在内的 26 种语言。我们还推出了支持 1M 上下文长度(约 200 万中文字符)的 GLM-4-9B-Chat-1M 模型和基于 GLM-4-9B 的多模态模型 GLM-4V-9B。GLM-4V-9B 具备 1120 * 1120 高分辨率下的中英双语多轮对话能力,在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中,GLM-4V-9B 表现出超越 GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max 和 Claude 3 Opus 的卓越性能。

  • QwenLM/Qwen 阿里云提出的 Qwen (通义千问) 聊天和预训练大型语言模型的官方存储库。开源了Qwen(通义千问)系列工作,当前开源模型的参数规模为18亿(1.8B)、70亿(7B)、140亿(14B)和720亿(72B)。当前基础模型已经稳定训练了大规模高质量且多样化的数据,覆盖多语言(当前以中文和英文为主),总量高达3万亿token。在相关基准评测中,Qwen系列模型拿出非常有竞争力的表现,显著超出同规模模型并紧追一系列最强的闭源模型。此外,我们利用SFT和RLHF技术实现对齐,从基座模型训练得到对话模型。Qwen-Chat具备聊天、文字创作、摘要、信息抽取、翻译等能力,同时还具备一定的代码生成和简单数学推理的能力。在此基础上,我们针对LLM对接外部系统等方面针对性地做了优化,当前具备较强的工具调用能力,以及最近备受关注的Code Interpreter的能力和扮演Agent的能力。

  • kvcache-ai/Mooncake Mooncake 是 Moonshot AI 提供的领先LLM服务 Kimi 的服务平台。以 KVCache 为中心的服务LLM分解架构,Mooncake 采用以 KVCache 为中心的分解架构,将预填充和解码集群分开。它还利用 GPU 集群中未充分利用的 CPU、DRAM 和 SSD 资源来实现 KVCache 的分解缓存。Mooncake 的核心是其以 KVCache 为中心的调度器,它在最大化整体有效吞吐量的同时满足与延迟相关的服务级别目标 (SLO) 要求之间取得平衡。与假设所有请求都将得到处理的传统研究不同,Mooncake 面临着高度过载场景带来的挑战。为了缓解这些问题,我们制定了基于预测的早期拒绝政策。实验表明,Mooncake 在长上下文场景中表现出色。与基线方法相比,Mooncake 在遵守 SLO 的同时,在某些模拟场景中可以实现高达 525% 的吞吐量提升。在实际工作负载下,Mooncake 的创新架构使 Kimi 能够处理 75% 以上的请求。

  • THUDM/ChatGLM3 ChatGLM3 系列中的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:更强大的基础模型: ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示,ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能。更完整的功能支持: ChatGLM3-6B 采用了全新设计的 Prompt 格式,除正常的多轮对话外。同时原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景。更全面的开源序列: 除了对话模型 ChatGLM3-6B 外,还开源了基础模型 ChatGLM3-6B-Base、长文本对话模型 ChatGLM3-6B-32K。以上所有权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用。

  • InternLM/InternLM InternLM开源了70亿和200亿参数基础模型,以及针对实际场景和训练系统量身定制的聊天模型。开源的轻量级训练框架,旨在支持模型预训练,而无需广泛的依赖关系。通过单个代码库,它支持在具有数千个 GPU 的大规模集群上进行预训练,并在单个 GPU 上进行微调,同时实现卓越的性能优化。InternLM 在 1024 个 GPU 上训练期间实现了近 90% 的加速效率。InternLM-20B选择了更深的架构,深度设置为60层。这超过了使用32或40层的传统7B和13B型号。当参数有限时,增加层数可以增强模型的整体功能。此外,与InternLM-7B相比,InternLM-20B使用的预训练数据经过了更高质量的清理,并补充了丰富的知识数据,旨在增强理解和推理能力。因此,它在理解、推理、数学和编程能力方面表现出显着的改进——所有这些都测试了语言模型的技术熟练程度。

  • OpenLMLab/MOSS 支持中英双语和多种插件的开源对话语言模型,moss-moon系列模型具有160亿参数。开源数据: moss-002-sft-data: 多轮对话数据,覆盖有用性、忠实性、无害性三个层面,包含由text-davinci-003生成的约57万条英文对话和59万条中文对话。moss-003-sft-data: 多轮对话数据,基于MOSS-002内测阶段采集的约10万用户输入数据和gpt-3.5-turbo构造而成,更加符合真实用户意图分布,包含更细粒度的有用性类别标记、更广泛的无害性数据和更长对话轮数,约含110万条对话数据。moss-003-sft-plugin-data: 插件增强的多轮对话数据,包含支持搜索引擎、文生图、计算器、解方程等四个插件在内的约30万条多轮对话数据。moss-003-pm-data: 偏好数据,包含在约18万额外对话上下文数据及使用moss-moon-003-sft所产生的回复数据上构造得到的偏好对比数据。

  • volcengine/veScale PyTorch 原生LLM 训练框架。易于使用的工业级框架。特色:PyTorch 原生:veScale 植根于 PyTorch 原生数据结构、运算符和 API,享受主导 ML 世界的 PyTorch 生态系统。零模型代码更改:veScale 将分布式系统设计与模型架构解耦,需要对用户的模型代码进行近乎零或零的修改。单设备抽象:veScale 为用户提供单设备语义,在设备集群中自动分发和编排模型执行。自动并行规划:veScale 在半自动化或全自动 下通过策略(张量、序列、数据、ZeRO、管道并行)的协同作用将模型执行并行化。Eager & Compile模式:veScale不仅支持Eager模式自动化以进行并行训练和推理,还支持Compile模式以实现最终性能。自动检查点重新分片:veScale 通过跨不同集群大小和不同并行策略的在线重新分片自动管理分布式检查点。

  • OpenMOSS/CoLLiE 帮助您从零开始训练大模型的完整工具箱。它提供了数据预处理、模型微调、模型保存以及训练过程各项指标监测等功能。CoLLiE集成了现有的并行策略、高效参数微调方法和高效优化器,以加快训练的速度,提高训练的质量,降低训练的开销。CoLLiE支持主流的多种模型(如MOSS, InternLM, LLaMA, ChatGLM等),您可以轻松在不同的模型之间切换。此外,CoLLiE提供了丰富的文档,使初学者可以快速入门。同时,CoLLiE还提供了高度可定制化的功能和灵活的配置选项,使有经验的用户能够根据自己的需求进行个性化定制。无论您是初学者还是有经验的专业人士,CoLLiE都可以为您提供满足需求的解决方案。CoLLiE 基于 DeepSpeed 和 PyTorch,为大型语言模型提供协作式和高效的调优方法。

  • fanqiwan/FuseAI 大型语言模型的知识融合,专注于模型融合主题的开源研究社区。在 Foundation 和 Chat 上应用模型融合LLMs,未来计划融合 Agent/MoELLMs。FuseChat-7B-VaRM,它融合了三个LLMs具有不同架构和规模的著名聊天,即 NH2-Mixtral-8x7B、NH2-Solar-10.7B 和 OpenChat-3.5-7B。FuseChat-7B-VaRM 在 MT-Bench 上的平均性能为 8.22,优于 Starling-7B、Yi-34B-Chat 和 Tulu-2-DPO-70B 等各种强大的聊天,LLMs甚至超过了 GPT-3.5(March)、Claude-2.1,并接近 Mixtral-8x7B-Instruct。FuseChat采用融合后合并的策略,有两个主要阶段。首先,对源LLMs进行成对知识融合,通过轻量级微调推导出多个结构和大小相同的目标LLMs;然后,将这些目标LLMs合并到参数空间中,提出了一种基于参数矩阵微调前后变化比确定合并权重的新方法VaRM。

  • 01-ai/Yi 01.AI 从头开始训练的下一代开源大型语言模型。作为双语语言模型,并在 3T 多语言语料库上进行训练,Yi 系列模型成为全球最强大的LLM模型之一,在语言理解、常识推理、阅读理解等方面显示出前景。Yi-34B-Chat 模型在 AlpacaEval 排行榜上排名第二(仅次于 GPT-4 Turbo),表现优于其他LLMs模型(如 GPT-4、Mixtral、Claude)(基于截至 2024 年 1 月的数据)。Yi-34B模型在各种基准测试中,包括Hugging Face Open LLM Leaderboard(预训练)和C-Eval(基于截至2023年11月的数据)中,在所有现有的开源模型(如Falcon-180B、Llama-70B、Claude)中排名第一。感谢 Transformer 和 Llama 开源社区,因为它们减少了从头开始构建所需的工作量,并能够在 AI 生态系统中使用相同的工具。

  • modelscope/swift SWIFT 支持 300+ LLMs 和 50+ MLLM(多模态大型模型)的训练(PreTraining/Fine-tuning/RLHF)、推理、评估和部署。开发者可以直接将我们的框架应用到自己的研究和生产环境中,实现从模型训练和评估到应用的完整工作流程。除了支持PEFT提供的轻量级训练方案外,我们还提供完整的Adapters库,以支持NEFTune、LoRA+、LLaMA-PRO等最新的训练技术。此适配器库可以直接在您自己的自定义工作流程中使用,而无需我们的训练脚本。为了方便不熟悉深度学习的用户使用,我们提供了一个用于控制训练和推理的 Gradio 网页用户界面,并为初学者提供了附带的深度学习课程和最佳实践。SWIFT web-ui 在 Huggingface space 和 ModelScope studio 上都可用,请随时尝试!

  • TigerResearch/TigerBot 多语言多任务LLM,在 BLOOM 基础上的模型:TigerBot-7B, TigerBot-7B-base,TigerBot-180B。数据:预训练 100G,从 2TB 过滤后的数据中经过去噪去重清洗而得;监督微调 1G 或 100 万条数据,按比例涵盖用户指令常见的 10 大类 120 小类任务。中文开源预训练集 - 55G,包含中文书籍、中文互联网、中文百科英文开源预训练集 - 51G,包含英文书籍、英文互联网、英文百科中文-微调指令集-合集 - 53W 条英文-微调指令集-合集 - 67W 条 - 下载

  • mlfoundations/dclm DataComp-LM (DCLM) 是一个综合框架,旨在构建和训练具有不同数据集的大型语言模型 (LLMs)。它提供了来自 CommonCrawl 的 300 多个未经过滤的令牌的标准化语料库、基于 open_lm 框架的有效预训练配方,以及一套包含 50 多个评估的广泛套件。此存储库提供了用于处理原始数据、标记化、洗牌、训练模型以及评估其性能的工具和指南。DCLM 使研究人员能够在不同的计算规模(从 411M 到 7B 参数模型)上试验各种数据集构建策略。我们的基线实验表明,通过优化数据集设计,模型性能有了显著提高。DCLM 已经能够创建多个高质量的数据集,这些数据集在各个尺度上都表现良好,并且优于所有开放数据集。

  • whylabs/langkit LangKit:用于监控大型语言模型 (LLMs)。从提示和响应中提取信号,确保安全与保障。功能包括文本质量、相关性指标和情感分析。一个用于 LLM 可观测性的综合工具。开箱即用的指标包括:文本质量(可读性分数、复杂性和等级分数);文本相关性(提示/响应之间的相似性分数、针对用户定义的主题的相似性分数);安全和隐私(patterns - 与用户定义的正则表达式模式组匹配的字符串计数、越狱 - 已知越狱尝试的相似性分数、提示注入 - 已知提示注入攻击的相似性分数、幻觉 - 反应之间的一致性检查、拒绝 - 与已知 LLM 拒绝服务响应的相似度得分);情绪和毒性(情感分析、毒性分析)

  • tmlr-group/DeepInception 催眠大型语言模型成为越狱者。披露了一种轻量级的方法,称为DeepInception,它可以很容易地催眠LLM成为越狱者并解锁其滥用风险。具体来说,《深度盗梦空间》利用拟LLM人化能力构建新颖的嵌套场景来表现,实现了正常场景下逃避使用控制的自适应方式,为进一步的直接越狱提供了可能性。根据经验,我们进行了全面的实验以证明其功效。我们的 DeepInception 可以达到与前代同行竞争的越狱成功率,并在后续交互中实现连续越狱,这揭示了 Falcon、Vicuna、Llama-2 和 GPT-3.5/4/4V 等开源/闭源LLMs自输的关键弱点。我们的调查呼吁人们应该更加关注安全方面,LLMs并加强对滥用风险的防御。

  • Josh-XT/AGiXT AGiXT 是一个动态的人工智能自动化平台,旨在协调众多提供商的高效 AI 指令管理和任务执行。我们的解决方案将自适应内存处理与广泛的命令相结合,以增强 AI 的理解和响应能力,从而提高任务完成度。该平台的智能功能,如智能指示和智能聊天,无缝集成了网络搜索、规划策略和对话连续性,改变了用户与人工智能之间的交互。通过利用包括网页浏览和命令执行在内的强大插件系统,AGiXT 成为 AI 模型和用户之间的多功能桥梁。随着 AI 提供商名单的不断扩大、代码评估能力、全面的链管理和平台互操作性,AGiXT 不断发展以驱动众多应用程序,确立了其在 AI 技术前沿的地位。

  • ianarawjo/ChainForge 用于战斗测试的开源可视化编程环境提示 LLMs。用于分析和评估LLM响应的数据流提示工程环境。它面向提示、聊天响应和响应质量的早期、快速和肮脏的探索,超越了与个人LLMs的临时聊天。使用 ChainForge,您可以:一次查询多个LLMs,以快速有效地测试提示的想法和变化。比较不同提示排列、不同模型和不同模型设置的响应质量,以选择适合您用例的最佳提示和模型。设置评估指标(评分功能),并立即可视化提示、提示参数、模型和模型设置的结果。跨模板参数和聊天模型同时进行多个对话。模板不仅提示,而且跟进聊天消息,并在聊天对话的每个回合检查和评估输出。

  • OpenBMB/UltraFeedback 大规模、细粒度、多样化的偏好数据集(和模型)。UltraFeedback 是一个大规模、细粒度、多样化的偏好数据集,用于训练强大的奖励模型和批评者模型。从各种资源(包括 UltraChat、ShareGPT、Evol-Instruct、TruthfulQA、FalseQA 和 FLAN,数据集统计信息见此处)收集了大约 64k 个提示。然后,使用这些提示来查询多个 LLM,并为每个提示生成 4 个不同的响应,从而产生总共 256k 个样本。为了收集高质量的偏好和文本反馈,设计了一个细粒度的注释指令,其中包含 4 个不同的方面,即指令遵循、真实性、诚实性和帮助性。然后,我们要求 GPT-4 根据指令对收集到的样本进行注释。

  • pytorch/torchtitan torchtitan 是使用原生 PyTorch 进行大规模 LLM。它现在(并将继续是)一个存储库,用于在干净、最小的代码库中展示 PyTorch 最新的分布式训练功能。TorchTitan 是对任何伟大的大规模 LLM、Megablocks、LLM Foundry、Deepspeed 等。相反,我们希望 torchtitan 中展示的功能能够迅速被这些代码库采用。Torchtitan 不太可能围绕它发展一个大型社区。我们在构建 torchtitan 时的指导原则:旨在易于理解、使用和扩展,以用于不同的培训目的。应用 1D、2D 或 (即将推出的) 3D Parallel 时,对模型代码的更改最小。模块化组件,而不是整体式代码库。几分钟即可开始,而不是几小时!

  • towhee-io/towhee Towhee 是一个致力于使神经数据处理管道简单快速的框架。旨在通过使用基于大型语言模型 (LLM) 的管道编排来简化非结构化数据的处理。它具有独特的优势,可以从各种非结构化数据类型(包括冗长的文本、图像、音频和视频文件)中提取宝贵的见解。利用生成式 AI 和 SOTA 深度学习模型的功能,Towhee 能够将这些未处理的数据转换为特定格式,例如文本、图像或嵌入。然后,可以有效地将这些内容加载到适当的存储系统中,例如矢量数据库。开发人员最初可以使用用户友好的 Pythonic API 构建直观的数据处理管道原型,然后针对生产环境进行优化。

  • xiaogang00/white-paper-for-large-model-security-and-privacy 大型模型安全和隐私白皮书,大型生成模型也存在数据/模型安全和隐私问题。我们应该注意到,大型生成模型会带来很多安全和隐私问题,因为它们在改变我们生活方面表现出巨大的力量,例如数据泄露和假新闻的传播。在本白皮书中,我们首先总结了大型生成模型的发展,包括其影响和社会影响。然后,我们总结了现有大型生成模型中当前存在的安全和隐私问题,例如数据和模型安全、版权问题和伦理问题。最后,我们针对当前的安全和隐私问题给出了相应的建议。它们可以用来指出未来的研究和发展方向,也可以作为政府决策的参考。

  • facebookresearch/llm-transparency-tool LLM 透明度工具 (LLM),一个开源的交互式工具包,用于分析基于 Transformer 的语言模型的内部工作原理。主要功能:选择您的模型,选择或添加您的提示,运行推理。浏览贡献图:选择要从中构建图形的令牌,调整贡献阈值。选择任何块之后的任何令牌的表示。对于表示形式,请参阅其对输出词汇表的投影,查看哪些标记被提升/禁止,但前一个块被提升/禁止。以下内容是可点击的:边缘,这显示了有关贡献注意力头部的更多信息。选择边时的头部,你可以看到这个头在促进/压制什么。FFN 块(图表上的小方块)。选择 FFN 块时的神经元。

  • HandsOnLLM/Hands-On-Large-Language-Models O‘Reilly Book 的官方代码存储库 - “Hands-On Large Language Models” 通过本书的视觉教育性质和 250 多个定制图表,学习您今天使用大型语言模型所需的实用工具和概念!第 1 章:语言模型简介。第 2 章:标记和嵌入。第 3 章:深入了解 Transformer LLMs。第 4 章:文本分类。第 5 章:文本聚类和主题建模。第 6 章:提示工程。第 7 章:高级文本生成技术和工具。第 8 章:语义搜索和检索 - 增强生成。第 9 章:多模态大型语言模型。第 10 章:创建文本嵌入模型。第 11 章:微调分类的表示模型。第 12 章:微调生成模型。

  • katanaml/sparrow 用于从各种文档和图像中高效提取和处理数据。它可以无缝处理表单、发票、收据和其他非结构化数据源。Sparrow 以其模块化架构脱颖而出,提供独立的服务和管道,所有这些都针对强大的性能进行了优化。Sparrow 的关键功能之一 - 可插拔架构。您可以使用 LlamaIndex、Haystack 或 Unstructured 等工具和框架轻松集成和运行数据提取管道。Sparrow 通过 Ollama 或 Apple MLX 启用本地LLM数据提取管道。使用 Sparrow 解决方案,您可以获得 API,这有助于处理数据并将其转换为结构化输出,随时可以与自定义工作流程集成。

  • openai/summarize_from_feedback 在“从人类反馈中学习”( Learning to Summarize from Human Feedback paper)一文中,根据人类反馈训练了一个奖励模型(reward model)。然后使用奖励模型来训练总结模型,使其与人类的偏好保持一致。这是为奖励建模而发布的人类反馈数据集。此数据集分为两部分: comparisons 和 axis 。在这一 comparisons 部分中,人类注释者被要求从两个摘要中选择最好的。在这一 axis 部分中,人类注释者对摘要的质量进行了李克特量表的评分。 comparisons 该部件仅具有训练和验证拆分,并且 axis 该部件仅具有测试和验证拆分。

  • BradyFU/Woodpecker 引入了一种名为 Woodpecker 的免训练方法。就像啄木鸟治愈树木一样,它会从生成的文本中挑选并纠正幻觉。具体来说,啄木鸟包括五个阶段:关键概念提取、问题表述、视觉知识验证、视觉声明生成和幻觉纠正。啄木鸟以补救后的方式实施,可以轻松地为不同的MLLM提供服务,同时可以通过访问五个阶段的中间输出进行解释。我们从定量和定性两个方面对啄木鸟进行了评估,并展示了这种新范式的巨大潜力。在 POPE 基准测试中,我们的方法比基线 MiniGPT-4/mPLUG-Owl 的准确率提高了 30.66%/24.33%。

  • gpustack/gpustack GPUStack 是一个开源的 GPU 集群管理器,用于运行大型语言模型。主要特点:支持多种硬件:在 Apple MacBook、Windows PC 和 Linux 服务器中使用不同品牌的 GPU 运行。与您的 GPU 库存一起扩展:轻松添加更多 GPU 或节点以扩大您的运营规模。轻量级 Python 包:最小的依赖项和运营开销。兼容 OpenAI 的 API:提供与 OpenAI 标准兼容的 API。用户和 API 密钥管理:简化了用户和 API 密钥的管理。GPU指标监控:实时监控 GPU 性能和利用率。词元使用和费率指标:跟踪令牌使用情况并有效管理速率限制。

  • multimodal-art-projection/MAP-NEO MAP-NEO 是一个完全开源的大型语言模型,包括预训练数据、数据处理管道 (Matrix)、预训练脚本和对齐代码。它在 4.5T 中英文词元上从头开始训练,表现出与 LLaMA2 7B 相当的性能。MAP-Neo 模型在推理、数学和编码等具有挑战性的任务中提供类似专有模型的性能,优于同等规模的同类产品。出于研究目的,我们的目标是在LLM培训过程中实现完全透明。为此,我们全面发布了 MAP-Neo,包括最终和中间检查点、自训练标记器、预训练语料库,以及高效、稳定优化的预训练代码库。

  • microsoft/JARVIS 一个将LLM与ML社区联系起来的系统。该系统由LLM作为控制器和众多专家模型作为协作执行者(来自HuggingFace Hub)组成。我们系统的工作流程包括四个阶段:任务规划:使用ChatGPT分析用户的请求以了解他们的意图,并将其分解成可能解决的任务。模型选择:为了解决计划的任务,ChatGPT 根据他们的描述选择托管在拥抱脸上的专家模型。任务执行:调用并执行每个选定的模型,并将结果返回给 ChatGPT。响应生成:最后,使用 ChatGPT 集成所有模型的预测,并生成响应。

  • ridgerchu/matmulfreellm 实现无 MatMul LM。MatMul-Free LM 是一种语言模型架构,无需矩阵乘法 (MatMul) 运算。此存储库提供了与 🤗 Transformers 库兼容的 MatMul-Free LM 实现。我们评估了缩放定律如何拟合 Transformer++ 和我们的模型中的 370M、1.3B 和 2.7B 参数模型。为了公平比较,每个操作的处理方式相同,尽管我们的模型在某些层中使用了更有效的三元权重。有趣的是,与 Transformer++ 相比,我们模型的缩放投影表现出更陡峭的下降,这表明我们的架构在利用额外计算来提高性能方面更有效。

  • hijkzzz/Awesome-LLM-Strawberry 这是OpenAI Strawberry(o1)和Reasoning的研究论文和博客的集合。OpenAI o1 系列模型是新的大型语言模型,经过强化学习训练,可执行复杂推理。o1 模型在回答之前会思考,并且可以在响应用户之前产生一个很长的内部思维链。o1 模型在科学推理方面表现出色,在竞争性编程问题 (Codeforces) 中排名第 89 个百分位,在美国数学奥林匹克竞赛 (AIME) 的资格赛中跻身美国前 500 名学生之列,并在物理、生物和化学问题的基准 (GPQA) 上超过人类博士水平的准确性。

  • THUDM/ChatGLM-6B 开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。

  • CVI-SZU/Linly 提供中文对话模型 Linly-ChatFlow 、中文基础模型 Chinese-LLaMA (1-2)、Chinese-Falcon 及其训练数据。中文基础模型以 LLaMA 和 Falcon 为底座,使用中文和中英平行语料进行增量预训练,将其在英文上的语言能力扩展到中文上。公开的多语言指令数据,对中文模型进行大规模指令跟随训练,实现了 Linly-ChatFlow。此外,本项目开源了从头训练的 Linly-OpenLLaMA 模型,包含 3B、7B、13B 规模,在 1TB 中英文语料上进行预训练,针对中文优化了字词结合tokenizer。

  • Qihoo360/360zhinao 360zhinao 是由奇虎 360 发布的一系列中文大模型,包括 360Zhinao-7B-Base、360Zhinao-7B-Chat-4K、360Zhinao-7B-Chat-32K、360Zhinao-7B-Chat-360K、360Zhinao-search 和 360Zhinao-1.8B-Reranking。该系列模型基于 3.4 万亿 tokens 的高质量语料库训练,在相关基准测试中表现出色,特别是 360Zhinao-7B-Chat-360K 模型,其 360K 的上下文长度在发布时是中文开源模型中最长的。该项目还提供了模型下载、评估、快速入门、模型推理和模型微调等功能,并发布了技术报告和 arXiv 论文。

  • AUGMXNT/deccp 逃避和取消中国LLM的审查制度,当前代码是用于取消审查 Qwen 2 Instruct 模型的 PoC。95 个拒绝问题数据集augmxnt/deccp,实验得知:在相同的问题上,中文的拒绝率实际上比英语少得多(>80%)。总结一下:Qwen 2 Instruct 被广泛地 RL 以符合政府/政策要求;EN 与 CN 响应中的一些明显差异;可以消除大部分的拒绝,但这并不一定能改善中国的回应,所以如果这种调整困扰你,你不应该使用RL的中国模型。

  • sakanaai/evolutionary-model-merge 大模型合并配方的进化优化。该存储库是 SakanaAI 的 Evolutionary Model Merge 系列的中心枢纽,展示了其发布和资源。它包括用于再现我们论文中提出的评估的模型和代码。通过结合数据流空间和参数空间中的模型,自动生成新的强大模型。这种方法无需梯度训练,减少了计算资源需求。这种方法不仅适用于单一领域的模型合并,还可以跨领域合并,例如将日语LLM与数学专用LLM合并,生成一个既会日语又具备数学推理能力的大语言模型。

  • databricks/dbrx 由 Databricks 开发的大型语言模型的代码示例和资源。DBRX 是一个混合专家 (MoE) 模型,具有 132B 总参数和 36B 实时参数。我们使用 16 位专家,其中 4 位在训练或推理期间处于活跃状态。DBRX 针对 12T 文本标记进行了预训练。DBRX 的上下文长度为 32K 个令牌。该模型是使用我们的开源库 Composer、Foundry、LLMMegaBlocks 和 Streaming 的优化版本进行训练的。对于 instruct 模型,我们使用了 ChatML 格式。有关详细信息,请参阅 DBRX Instruct 模型卡。

  • varunshenoy/super-json-mode 超级 JSON 模式是一个 Python 框架,LLM通过将目标模式分解为原子组件,然后并行执行生成,可以有效地创建结构化输出。它既支持通过 OpenAI 的传统完成 API 实现的最新技术LLMs,也支持开源,LLMs例如通过 Hugging Face Transformers 和 vLLM。更多LLMs内容将很快得到支持!与依赖提示和 HF Transformer 的朴素 JSON 生成管道相比,我们发现超级 JSON 模式的输出生成速度提高了 10 倍。与朴素一代相比,它也更具确定性,不太可能遇到解析问题。

  • QwenLM/Qwen1.5 Qwen1.5 是 Qwen 团队、阿里云开发的大型语言模型系列 Qwen 的改进版本。即 Qwen2 的 beta 版本。与 Qwen 类似,它仍然是一个仅解码器的变压器模型,具有 SwiGLU 激活、RoPE、多头注意力。目前,我们已经取得了以下成就:6种型号尺寸:0.5B、1.8B、4B、7B、14B、72B;聊天模型中的模型质量显著提高;加强了基础模型和聊天模型中的多语言功能;所有模型都支持令牌的 32768 上下文长度;所有型号都启用系统提示,这意味着可以进行角色扮演。

  • HITsz-TMG/awesome-llm-attributions 归因是指模型(例如 LLM)生成和提供证据的能力,通常以参考文献或引用的形式,以证实其产生的主张或陈述。这些证据来自可识别的来源,确保可以从基础语料库中逻辑地推断出声明,使其易于理解和验证。归因的主要目的包括使用户能够验证模型提出的声明,促进生成与引用来源密切相关的文本,以提高准确性并减少错误信息或幻觉,以及建立一个结构化框架来评估与所提出的声明相关的支持证据的完整性和相关性。

  • steven2358/awesome-generative-ai 现代生成式人工智能项目和服务的精选列表。生成式人工智能是一种通过使用在大量数据上训练的机器学习算法来创建图像、声音和文本等原创内容的技术。与其他形式的人工智能不同,它能够创建独特且以前看不见的输出,例如逼真的图像、数字艺术、音乐和写作。这些作品通常有自己独特的风格,甚至很难与人工创作的作品区分开来。生成式人工智能在艺术、娱乐、营销、学术界和计算机科学等领域有着广泛的应用。

  • SqueezeAILab/LLM2LLM LLM2LLM 是一种新颖的迭代数据增强策略,旨在通过使用大型语言模型(LLM)自身的能力来提升其性能。该方法的核心思想是利用一个教师 LLM 来增强小型的种子数据集,通过生成合成数据并将其重新加入到训练数据中,从而逐步提高模型的性能。这种方法不仅减少了手动生成数据的需要,还显著降低了所需的真实数据量,使得在低数据机制中也能有效提升 LLM 的性能。包括以下几个步骤:在初始种子数据集中微调学生模型。

  • PCL-Platform.Intelligence/PanGu-Alpha 2000亿开源中文预训练语言模型「鹏城·盘古α」,以鹏城实验室为首的技术团队联合攻关,首次基于“鹏城云脑Ⅱ”和国产MindSpore框架的自动混合并行模式实现在2048卡算力集群上的大规模分布式训练,训练出业界首个2000亿参数以中文为核心的预训练生成语言模型。鹏城·盘古α预训练模型支持丰富的场景应用,在知识问答、知识检索、知识推理、阅读理解等文本生成领域表现突出,具备很强的小样本学习能力。

  • protectai/rebuff Rebuff 旨在通过多层防御保护 AI 应用程序免受即时注入 (PI) 攻击。Rebuff 提供 4 层防御:启发式:在潜在恶意输入到达 LLM。LLM 基于检测:使用专用的 LLM 来分析传入的提示并识别潜在的攻击。VectorDB:将以前攻击的嵌入存储在向量数据库中,以识别和防止将来发生类似的攻击。金丝雀令牌:将金丝雀令牌添加到提示中以检测泄漏,从而允许框架将有关传入提示的嵌入存储在向量数据库中并防止未来的攻击。

  • sail-sg/sailor-llm 东南亚的开放语言模型,Sailor 是一套为东南亚 (SEA) 量身定制的开放语言模型,专注于印度尼西亚语、泰语、越南语、马来语和老挝语等语言。通过精心策划数据开发的,旨在理解和生成东南亚地区不同语言环境中的文本。Sailor 基于 Qwen 1.5 构建,包含不同尺寸的模型,从 0.5B 到 14B 版本,可满足不同的要求。基准测试结果表明 Sailor 熟练掌握东南亚语言的问答、常识推理、阅读理解等任务。

  • stanford-crfm/levanter 用于训练大型语言模型 (LLMs) 和其他基础模型的框架,旨在实现可读性、可伸缩性和可重复性。清晰易读:Levanter 使用我们命名的张量库 Haliax 编写易于理解、可组合的深度学习代码,同时仍然保持高性能。可扩展:Levanter 可扩展到大型模型,并能够在各种硬件上进行训练,包括 GPU 和 TPU。可重现:Levanter 是按位确定性的,这意味着相同的配置将始终产生相同的结果,即使面对抢占和恢复。

  • Langboat/Mengzi3 Mengzi3 8B/13B模型基于Llama架构,语料精选自网页、百科、社交、媒体、新闻,以及高质量的开源数据集。通过在万亿tokens上进行多语言语料的继续训练,模型的中文能力突出并且兼顾多语言能力。孟子3 8B/13B基于Llama架构,语料库选自网页、百科、社交网络、媒体、新闻、高质量开源数据集。通过继续在数万亿个词元上训练多语言语料库,该模型具有出色的中文能力,并考虑到了多语言能力。

  • ymcui/Chinese-LLaMA-Alpaca-3 基于Meta最新发布的新一代开源大模型Llama-3开发,是Chinese-LLaMA-Alpaca开源大模型相关系列项目(一期、二期)的第三期。本项目开源了中文Llama-3基座模型和中文Llama-3-Instruct指令精调大模型。这些模型在原版Llama-3的基础上使用了大规模中文数据进行增量预训练,并且使用精选指令数据进行精调,进一步提升了中文基础语义和指令理解能力,相比二代相关模型获得了显著性能提升。

  • X-PLUG/ChatPLUG 旨在建立和共享一个中文开放域对话系统。在推理过程中集成外部知识是灵活的,这是一个可选的输入。您可以利用 获取最新信息或使用本地知识库获取 search engine 领域知识。通过设置 bot profiles 或使用 role-paly instructions 来自定义对话和字符的样式很容易。它通过多轮对话展示了其在开放领域对话方面的熟练程度,同时也在广泛的 NLP 任务上表现出色 multi-task abilities 。

  • dvmazur/mixtral-offloading 在 Colab 或消费者桌面上运行 Mixtral-8x7B 模型,通过多种技术的组合实现了对Mixtral-8x7B模型的高效推理:使用 HQQ 进行混合量化,我们为注意力层和专家应用单独的量化方案,以将模型拟合到组合的 GPU 和 CPU 内存中。MoE 卸载策略,每层的每个专家都单独卸载,仅在需要时将背包带到 GPU,我们将活跃的 EA 存储在 LRU 缓存中,以减少在计算相邻令牌的激活时 GPU-RAM 通信。

  • OpenBuddy/OpenBuddy OpenBuddy 是一个针对全球用户的强大开放式多语言聊天机器人模型,强调对话式 AI 和对英语、中文和其他语言的无缝多语言支持。OpenBuddy 基于 Tii 的 Falcon 模型和 Facebook 的 LLaMA 模型构建,经过微调以包括扩展词汇表、额外的常用字符和增强的令牌嵌入。通过利用这些改进和多轮对话数据集,OpenBuddy 提供了一个强大的模型,能够回答各种语言的问题和执行翻译任务。

  • openai/webgpt_comparisons 在 WebGPT 论文中,作者根据人类反馈训练了一个奖励模型。他们使用奖励模型来训练一个长篇问答模型,以符合人类的偏好。这是在 WebGPT 项目结束时被标记为适合奖励建模的所有比较的数据集。总共有 19,578 个比较。数据集中的每个示例都包含一个问题的一对模型答案以及关联的元数据。每个答案都有一个来自人类的偏好分数,可用于确定两个答案中哪一个更好。

  • poloclub/transformer-explainer Transformer Explainer 是一种交互式可视化工具,旨在帮助任何人了解基于 Transformer 的模型(如 GPT)的工作原理。它直接在浏览器中运行实时 GPT-2 模型,允许您试验自己的文本并实时观察 Transformer 的内部组件和操作如何协同工作以预测下一个令牌。在 http://poloclub.github.io/transformer-explainer 上试用 Transformer Explainer,并在 YouTube https://youtu.be/ECR4oAwocjs 上观看演示视频。

  • THUDM/LongCite LongCite:使 LLMs 能够在长上下文 QA 中生成细粒度引文。开源了两个模型:LongCite-glm4-9b 和 LongCite-llama3.1-8b,它们分别基于 GLM-4-9B 和 Meta-Llama-3.1-8B 进行训练,并支持高达 128K 的上下文。这两个模型指向了我们论文中的“LongCite-9B”和“LongCite-8B”模型。给定基于长上下文的查询,这些模型可以生成准确的响应和精确的句子级引用,使用户可以轻松验证输出信息。

  • microsoft/guidance 指南使你能够比传统的提示或链接更有效、更高效地控制新式语言模型。指导程序允许您将生成、提示和逻辑控制交错到单个连续流中,以匹配语言模型实际处理文本的方式。简单的输出结构,如思维链及其许多变体(例如,ART,Auto-CoT等)已被证明可以提高LLM的性能。像 GPT-4 这样更强大的 LLM 的出现允许更丰富的结构,而 guidance 使该结构更容易、更便宜。

  • meta-llama/llama3 Meta Llama 3 官方 GitHub 站点。我们正在释放大型语言模型的力量。我们最新版本的 Llama 现在可供各种规模的个人、创作者、研究人员和企业使用,以便他们可以负责任地试验、创新和扩展他们的想法。此版本包括预训练和指令调整的 Llama 3 语言模型的模型权重和起始代码,包括 8B 到 70B 参数的大小。此存储库旨在作为加载 Llama 3 模型和运行推理的最小示例。

  • zilliztech/GPTCache LLM 的语义缓存。 与 LangChain 和 llama_index 完全集成。将您的LLM API成本降低10倍,将速度提高100倍。采用了语义缓存等替代策略。语义缓存识别并存储相似或相关的查询,从而提高缓存命中概率并提高整体缓存效率。采用嵌入算法将查询转换为嵌入,并使用向量存储对这些嵌入进行相似性搜索。此过程允许 GPTCache 从缓存存储中识别和检索类似或相关的查询。

  • CrazyBoyM/llama2-Chinese-chat llama2 13b 中文多轮对话模型,且”首发版”已在LLM排行榜取得优秀成绩(至今仍在同类模型中处于较领先位置)。llama2 Chinese chat - 本项目是一个教程记录整理的repo,旨在提供给新手的参照价值和开箱即用的中文LLaMa2对话体验。包含训练过程记录,各种主要量化方式,部署后端api的推荐方案,以及在一个具体的前端网页上实现开箱即用的流畅对话体验。

  • baichuan-inc/Baichuan2 百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果。本次发布包含有 7B、13B 的 Base 和 Chat 版本,并提供了 Chat 版本的 4bits 量化。所有版本对学术研究完全开放。同时,开发者通过邮件申请并获得官方商用许可后,即可免费商用。

  • karpathy/LLM101n 在本课程中,我们将构建一个 Storyteller AI 大型语言模型 (LLM)。携手合作,您将能够使用 AI 创建、完善和说明小故事。我们将从头开始构建从基础到类似于 ChatGPT 的功能 Web 应用程序的所有内容,从头开始使用 Python、C 和 CUDA,并且具有最少的计算机科学先决条件。到最后,你应该对人工智能LLMs和更普遍的深度学习有相对深入的了解。

  • google/gemma_pytorch Gemma 是一个轻量级、最先进的开放模型系列,由用于创建 Google Gemini 模型的研究和技术构建而成。它们是文本到文本、仅解码器的大型语言模型,提供英语版本,具有开放权重、预训练变体和指令调整变体。这是 Gemma 模型的官方 PyTorch 实现。我们使用 PyTorch 和 PyTorch/XLA 提供模型和推理实现,并支持在 CPU、GPU 和 TPU 上运行推理。

  • facebookresearch/lingua Meta Lingua 是一个最小且快速的LLM培训和推理库,专为研究而设计。 Meta Lingua 使用易于修改的 PyTorch 组件来尝试新的架构、损失、数据等。我们的目标是使该代码能够实现端到端的训练、推理和评估,并提供工具来更好地理解速度和稳定性。虽然 Meta Lingua 目前正在开发中,但我们为您提供了多个apps来展示如何使用此代码库。

  • lrhh123/ChatGPT-On-CS 基于大模型的智能对话客服工具,支持微信、千牛、哔哩哔哩、抖音企业号、抖音、抖店、微博聊天、小红书专业号运营、小红书、知乎等平台接入,可选择 GPT3.5/GPT4.0/ 懒人百宝箱 (后续会支持更多平台),能处理文本、语音和图片,通过插件访问操作系统和互联网等外部资源,支持基于自有知识库定制企业 AI 应用。

  • TransformerLensOrg/TransformerLens GPT 风格语言模型的机械可解释性库。机理可解释性的目标是采用经过训练的模型,并对模型在训练期间从其权重中学习的算法进行逆向工程。TransformerLens 允许您加载 50+ 种不同的开源语言模型,并向您公开模型的内部激活。您可以在模型中缓存任何内部激活,并添加函数以在模型运行时编辑、删除或替换这些激活。

  • spcl/graph-of-thoughts 思想图Graph of Thoughts (GoT):用大型语言模型解决复杂问题的官方实现。此框架使您能够通过将复杂问题建模为操作图 (GoO) 来解决复杂问题,该操作图以大型语言模型 (LLM) 作为引擎自动执行。该框架设计为灵活且可扩展,不仅允许您使用新的 GoT 方法解决问题,还可以实现类似于以前方法(如 CoT 或 ToT)的 GoO。

  • pjlab-sys4nlp/llama-moe 通过持续的预培训建立来自 LLaMA 的专家组合。于 LLaMA 和 SlimPajama 的一系列开源专家混合 (MoE) 模型。我们通过以下两个步骤构建 LLaMA-MoE:将 LLaMA 的 FFN 划分为稀疏专家,并为每一层专家插入 top-K 门。使用来自 Sheared LLaMA 的优化数据采样权重和来自 SlimPajama 的过滤数据集,持续预训练初始化的 MoE 模型。

  • OpenBMB/CPM-Bee 一个完全开源、允许商用的百亿参数中英文基座模型,也是CPM-Live训练的第二个里程碑。它采用Transformer自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。

  • wenge-research/YaYi 为客户打造安全可靠的专属大模型,基于大规模中英文多领域指令数据训练的 LlaMA 2 & BLOOM 系列模型,由中科闻歌算法团队研发。在百万级人工构造的高质量领域数据上进行指令微调得到,训练数据覆盖媒体宣传、舆情分析、公共安全、金融风控、城市治理等五大领域,上百种自然语言指令任务。

  • JosephusCheung/GuanacoDataset Guanaco 模型的数据集旨在增强多语言能力并解决各种语言任务。以 Alpaca 模型的 175个任务为基础,提供了用不同语言重写的种子任务,并添加了专门为英语语法分析、自然语言理解、跨语言自我意识和显式内容识别设计的新任务。数据集总共包含53万个条目,以6k美元的低成本生成。英语中文日语。

  • CrazyBoyM/phi3-Chinese phi3以小搏大(从微软放出的跑分数据看),用不到1/2的小体积(3.8b)超越llama3 8b版性能表现,增大了在手机上部署的可行性。该仓库致力于收录分散在开源社区的各种phi3的训练变体版本,让更多网友发现那些不为人知的特色有趣权重。同时也会顺便整理phi相关训练、推理、部署的简单教程。

  • imoneoi/openchat 使用不完善的数据推进开源语言模型。OpenChat是一系列基于监督微调(SFT)的开源语言模型。我们利用 ~80k ShareGPT 对话与条件反射策略和加权损失,尽管我们的方法很简单,但仍实现了卓越的表现。我们的最终愿景是开发一个高性能、开源和商用的大型语言模型,并且我们正在不断取得进展。

  • princeton-nlp/LLM-Shearing 剪切 LLaMA:通过结构化修剪加速语言模型预训练,与从头开始预训练相比,修剪强大的基础模型是获得强大的小规模语言模型的一种极具成本效益的方法。下图显示,给定 Llama-2-7B 模型(使用 2T 令牌预训练)的存在,修剪它会产生一个与 OpenLLaMA 模型一样强大的模型,其预训练成本仅为 3%。

  • JosephusCheung/GuanacoDataset Guanaco模型的数据集旨在增强多语言能力并解决各种语言任务。它以 Alpaca 模型中的 175 个任务为基础,提供不同语言的种子任务重写,并添加专门为英语语法分析、自然语言理解、跨语言自我意识和显式内容识别而设计的新任务。该数据集总共包含 534,530 个条目,以 6K 美元的低成本生成。

  • amazon-science/auto-cot “大型语言模型中的自动思维链提示”的官方实现,用“让我们一步一步地思考”的提示让 AI 振作起来?请多多说。让我们不仅要一步一步地思考,还要一个一个地思考。Auto-CoT 使用更多的cheers和多样性来节省思维链提示设计中的巨大手动工作,匹配甚至超过 GPT-3 上的手动设计性能。

  • THUDM/GLM-130B GLM-130B是一个开放的双语(英汉)双向密集模型,具有1300亿个参数,使用通用语言模型(GLM)算法进行预训练。它旨在支持单个 A100 (40G * 8) 或 V100 (32G * 8) 上具有 130B 参数的推理任务。通过 INT4 量化,硬件可以进一步降低到具有 4 * RTX3090 24G 的单个服务器,几乎没有性能下降。

  • refuel-ai/autolabel Python 库,用于使用您选择的任何大型语言模型 (LLM) 标记、清理和丰富文本数据集。访问大型、干净和多样化的标记数据集是任何机器学习工作成功的关键组成部分。LLMs像 GPT-4 这样的先进技术能够以高精度自动标记数据,而且与手动标记相比,成本和时间只是其中的一小部分。

  • ymcui/Chinese-LLaMA-Alpaca 中文LLaMA模型和经过指令精调的Alpaca大模型。这些模型在原版LLaMA的基础上扩充了中文词表并使用了中文数据进行二次预训练,进一步提升了中文基础语义理解能力。同时,在中文LLaMA的基础上,本项目使用了中文指令数据进行指令精调,显著提升了模型对指令的理解和执行能力。

  • goldfishh/chatgpt-tool-hub 一个开源的 chatgpt 工具生态系统,您可以在其中将工具与 chatgpt 结合使用并使用自然语言做任何事情。这是一个能让ChatGPT使用多个神奇工具的执行引擎,你能用自然语言命令ChatGPT使用联网、搜索、数学运算、控制电脑、执行代码等工具,扩大ChatGPT使用范围提高你的生产力。

  • LC1332/Luotuo-Silk-Road 中文大语言模型的数据。对话与指令数据集:Luotuo-Chinese-Alpaca 骆驼-中国-羊驼、Chinese-Dolly 中国多莉、Chinese-WizardLM 中国巫师LM、阅读理解数据 Chinese-CoQA 、Luotuo-QA-B、图文跨模态数据 Chinese-MMC4-130k 中文-MMC4-130k、Chinese-Coco-Captioning 中文-可可-字幕、Embedding蒸馏数据 CNewSum-Embedding

  • karpathy/nano-llama31 这个 repo 之于 Llama 3.1,就像 nanoGPT 之于 GPT-2。也就是说,它是 Llama 3.1 架构的最小、无依赖的实现,它可以非常简单地训练、微调和推理。这与 Meta 的官方代码发布和 huggingface 实现相比,后者都具有更重的依赖性和更多的代码。代码目前主要针对 Llama 3.1 的 8B 基础模型。

  • FranxYao/Long-Context-Data-Engineering 实现论文数据工程,将语言模型扩展到 128K 上下文。使用 tensor_parallel 从这个存储库实现的 device_map ,因为它比 huggingface 快得多,比 vLLM 轻量级。但它有一个小错误,如果你的 GPU 内存不够大,它会卡住而不是通过内存溢出异常。因此,请确保您有足够的 GPU 内存。

  • LLMBook-zh/LLMBook-zh.github.io 《大语言模型》作者:赵鑫,李军毅,周昆,唐天一,文继荣。希望读者通过阅读本书,能够深入了解大模型技术的现状和未来趋势,为自己的研究和实践提供指导和启发。让我们携手努力,共同推动人工智能技术的发展,为建立更智能、更可持续的未来做出贡献。

  • Mozilla-Ocho/llamafile 目标是使开发人员和最终用户更容易访问开源大型语言模型。我们通过将 llama.cpp 与 Cosmopolitan Libc 合并到一个框架中来做到这一点,该框架将所有复杂性LLMs折叠成一个单文件可执行文件(称为“llamafile”),该可执行文件可在大多数计算机上本地运行,无需安装。

  • jzhang38/TinyLlama 在 3 万亿个词元上预训练 1.1B Llama 模型。采用了与 Llama 2 完全相同的架构和分词器。这意味着 TinyLlama 可以在许多基于 Llama 构建的开源项目中插入和播放。此外,TinyLlama 结构紧凑,只有 1.1B 参数。这种紧凑性使其能够满足众多需要有限计算和内存占用的应用程序。

  • mbzuai-nlp/LaMini-LM 来自大规模指令的多样化蒸馏模型群。从ChatGPT提炼出来的小型高效语言模型的集合,并在2.58M指令的大规模数据集上进行训练。我们通过执行句子/离线提炼从大型语言模型中提取知识。我们基于几个现有的提示资源,使用 gpt-3.5-turbo 生成总共 2.58M 对指令和响应。

  • daveebbelaar/langchain-experiments 侧重于试验 LangChain 库,以构建具有大型语言模型的强大应用程序 (LLMs)。通过利用 GPT-3.5 Turbo 、GPT-4等最先进的语言模型,该项目展示了如何从 YouTube 视频成绩单创建可搜索的数据库,使用 FAISS 库执行相似性搜索查询,并用相关和准确的信息回答用户问题。

  • deepseek-ai/DeepSeek-MoE DeepSeekMoE 16B 是一种具有 16.4B 参数的专家混合 (MoE) 语言模型。它采用了创新的 MoE 架构,该架构涉及两个主要策略:细粒度专家细分和共享专家隔离。它在 2T 英文和中文词元上从头开始训练,表现出与 DeekSeek 7B 和 LLaMA2 7B 相当的性能,只有大约 40% 的计算。

  • decodingml/llm-twin-course 免费学习如何使用 LLMOps 最佳实践构建端到端生产就绪的 LLM 和 RAG 系统:~ 源代码 + 12 节实践课。您将学习如何从头到尾构建和构建真实世界的LLM系统 - 从数据收集到部署。您还将学习利用 MLOps 最佳实践,例如实验跟踪器、模型注册表、提示监视和版本控制。

  • baichuan-inc/baichuan-7B 百川开发的大规模7B预训练语言模型。一个开源可商用的大规模预训练语言模型。基于 Transformer 结构,在大约 1.2 万亿词元上训练的 70 亿参数模型,支持中英双语,上下文窗口长度为 4096。在标准的中文和英文 benchmark(C-Eval/MMLU)上均取得同尺寸最好的效果。

  • LianjiaTech/BELLE 开源中文对话大模型,现阶段基于开源预训练大语言模型(如BLOOM),针对中文做了优化,模型调优仅使用由ChatGPT生产的数据(不包含任何其他数据)。开放了数据集:Stanford Alpaca 生成的中文数据集1M + 0.5M;0.25M数学指令数据集和0.8M多轮任务对话数据集。

  • Mooler0410/LLMsPracticalGuide LLM实用指南资源的精选列表。它基于我们的调查论文:在实践中利用LLM的力量:关于ChatGPT及其他的调查。该调查部分基于本博客的后半部分。我们还构建了现代大型语言模型(LLM)的进化树,以追踪近年来语言模型的发展,并重点介绍一些最著名的模型。

  • lm-sys/arena-hard-auto Arena-Hard-Auto-v0.1 是一个用于指令调整的 LLMs。它包含 500 个具有挑战性的用户查询。我们提示 GPT-4-Turbo 作为裁判将模型的反应与基线模型(默认:GPT-4-0314)进行比较。如果您想了解您的模型在 Chatbot Arena 上的表现如何,我们建议您尝试 Arena-Hard-Auto。

  • EleutherAI/gpt-neox 在GPU上训练大规模语言模型。基于 NVIDIA 的威震天语言模型,并已通过 DeepSpeed 的技术以及一些新颖的优化进行了增强。目标是使这个存储库成为一个集中且可访问的地方,以收集用于训练大规模自回归语言模型的技术,并加速对大规模训练的研究。

  • ibeatai/beat-ai <Beat AI> 又名 <零生万物> , 是一本专属于软件开发工程师的 AI 入门圣经,手把手带你上手写 AI。从神经网络到大模型,从高层设计到微观原理,从工程实现到算法,学完后,你会发现 AI 也并不是想象中那么高不可攀、无法战胜,Just beat it !

  • mlabonne/llm-course 使用路线图和 Colab 笔记本来学习大型语言模型 (LLMs) 的课程。该LLM课程分为三个部分:LLM 基础知识涵盖有关数学、Python 和神经网络的基本知识。科学家LLM专注于LLMs使用最新技术构建最佳产品。LLM 工程师专注于创建LLM基于应用程序并部署它们。

  • PCL-Platform.Intelligence/PanGu-Dialog 鹏城.盘古对话生成大模型,简称PanGu-Dialog。PanGu-Dialog是以大数据和大模型为显著特征的大规模开放域对话生成模型,充分利用了大规模预训练语言模型的知识和语言能力,基于预训练+持续微调的学习策略融合大规模普通文本和对话数据训练而成。

  • xcanwin/KeepChatGPT ChatGPT的畅聊与增强插件。开源免费。不仅能解决所有报错不再刷新,还有保持活跃、取消审计、克隆对话、净化首页、展示大屏、展示全屏、言无不尽、拦截跟踪、日新月异等多个高级功能。让我们的AI体验无比顺畅、丝滑、高效、简洁。

  • adamcohenhillel/ADeus 一种开源 AI 可穿戴设备,可捕获您在现实世界中所说和听到的内容,然后将其转录并存储在您自己的服务器上。然后,您可以使用该应用程序与 Adeus 聊天,它将包含有关您想要谈论的内容的所有正确上下文 - 一个真正个性化的个人 AI。

  • microsoft/lida LIDA是一个用于生成数据可视化和数据忠实信息图表的库。LIDA 与语法无关(适用于任何编程语言和可视化库,例如 matplotlib、seaborn、altair、d3 等),并与多个大型语言模型提供商(OpenAI、Azure OpenAI、PaLM、Cohere、Huggingface)配合使用。

  • ShishirPatil/gorilla LLM的API商店 。使 LLM 能够通过调用 API 来使用工具。给定一个自然语言查询,Gorilla 会提出语义和语法上正确的 API 来调用。通过Gorilla,我们是第一个演示如何使用LLM准确调用1,600+(并且不断增长的)API调用,同时减少幻觉的人。

  • Stability-AI/StableLM 稳定性AI语言模型。使用 Stanford Alpaca 的程序对模型进行了微调,结合了五个最近的对话代理数据集:Stanford 的 Alpaca 、Nomic-AI 的 gpt4all 、RyokoAI 的 ShareGPT52K 数据集、Databricks的 Dolly 和 HH 。以 StableLM-Tuned-Alpha 的形式发布这些模型。

  • Hannibal046/Awesome-LLM 大型语言模型(LLM)已经席卷了NLP社区AI社区的整个世界。以下是关于大型语言模型的精选论文列表,尤其是与 ChatGPT 相关的论文。它还包含LLM培训框架,部署LLM的工具,有关LLM的课程和教程以及所有公开可用的LLM检查点和API。

  • ysymyth/ReAct ICLR 2023年 ReAct:在语言模型中协同推理和行动。采用多轮次的“想法(thought)+动作(act)+结果(obs)”方式,让LLM把内心独白(想法)说出来,然后再根据独白做相应的动作,获得结果,来提高最终的LLM答案准确性。

  • LightChen233/Awesome-Multilingual-LLM Awesome-多语言LLM。实际上,世界上有 7000 多种语言。随着全球化进程的加快,大型语言模型的成功应该考虑服务于不同的国家和语言。为此,多语言大型语言模型(MLLM)在处理多种语言时具有优势,越来越受到关注。

  • mistralai/mistral-src Mistral AI 7B v0.1 模型的参考实现。一个功能强大且快速的模型,适用于许多用例。虽然速度快 6 倍,但它在所有基准测试中都与 Llama 2 70B 相当或更胜一筹,会说多种语言,具有自然的编码能力。它处理 32k 序列长度。

  • LC1332/Luotuo-Chinese-LLM 中文大语言模型开源项目,包含了一系列语言模型。Luotuo-Vanilla是骆驼项目的第一个github仓库, 它是在LLaMA-7B上进行微调的。骆驼项目的初始目标,是研究使用跨语言数据在进行微调时,大语言模型发生的相关现象。

  • Calcium-Ion/new-api AI模型接口管理与分发系统,支持将多种大模型转为OpenAI格式调用、支持Midjourney Proxy、Suno、Rerank,兼容易支付协议,仅供个人或者企业内部管理与分发渠道使用,请勿用于商业用途,本项目基于One API二次开发。

  • PhoebusSi/Alpaca-CoT 将CoT数据扩展到Alpaca以提高其推理能力,同时我们将不断收集更多的instruction-tuning数据集,并在我们框架下集成进更多的LLM,打造一个通用的LLM-IFT平台。Alpaca-CoT · Datasets

  • km1994/LLMsNineStoryDemonTower 分享 LLMs在自然语言处理(ChatGLM、Chinese-LLaMA-Alpaca、小羊驼 Vicuna、LLaMA、GPT4ALL等)、信息检索(langchain)、语言合成、语言识别、多模态等领域(Stable Diffusion、MiniGPT-4、VisualGLM-6B、Ziya-Visual等)等 实战与经验。

  • Yue-Yang/ChatGPT-Siri Siri的快捷方式使用ChatGPT API gpt-3.5-turbo和gpt-4模型,支持连续对话,配置API密钥并保存聊天记录。由 ChatGPT API gpt-3.5-turbo & gpt-4 模型驱动的智能 Siri,支持连续对话,配置API key,配置系统prompt,保存聊天记录。

  • mosaicml/llm-foundry 用于 MosaicML 基础模型的 LLM 训练代码,包含用于训练、微调、评估和部署 LLM 的代码,以便使用 Composer 和 MosaicML 平台进行推理。该代码库设计为易于使用、高效和灵活,旨在支持使用最新技术进行快速实验。

  • stas00/ml-engineering 一个开放的方法集合,可帮助成功训练大型语言模型和多模态模型。这是一本适合LLM/VLM培训工程师和操作员的技术材料。也就是说,这里的内容包含大量脚本和复制粘贴命令,使您能够快速满足您的需求。

  • orhanerday/open-ai OpenAI PHP SDK :下载次数最多、分叉次数最多、贡献次数最多、社区支持和使用的 OpenAI GPT-3 和 DALL-E 的 PHP(Laravel 、Symfony、Yii、Cake PHP 或任何 PHP 框架)SDK。它还支持类似 chatGPT 的流媒体。(支持 ChatGPT AI)

  • danswer-ai/danswer 用自然语言提问,并获得私人资源支持的答案。连接到 Slack、GitHub、Confluence 等工具。允许您使用自然语言提出问题,并根据团队特定文档获得答案。想想 ChatGPT,如果它可以访问您团队的独特知识。

  • Arize-ai/phoenix 以闪电般的速度提供 MLOps 和 LLMOps 见解,具有零配置可观测性。Phoenix 通过提供以下功能,为监视模型和LLM应用程序提供笔记本优先体验:LLM跟踪。LLM Evals。嵌入分析。RAG 分析。结构化数据分析 。

  • BASI-LABS/parseltongue 能强大的提示黑客工具/浏览器扩展,用于实时标记化可视化和无缝文本转换,支持二进制、base64、leetspeak、特殊字符和多种语言等格式。非常适合红队成员、开发人员、语言学家和潜在的探索者。

  • bricks-cloud/BricksLLM Go 编写的云原生 AI 企业级 API 网关,可帮助您监控每个 API 密钥并施加成本或速率限制。为每个用户、应用程序或环境提供精细的访问控制和监控。支持 OpenAI、Azure OpenAI、Anthropic、vLLM 和开源LLMs。

  • LLM-Red-Team/kimi-free-api KIMI AI 长文本大模型逆向API白嫖测试【特长:长文本解读整理】,支持高速流式输出、智能体对话、联网搜索、长文档解读、图像OCR、多轮对话,零配置部署,多路token支持,自动清理会话痕迹。

  • jxnl/instructor 处理大型语言模型的结构化输出变得轻而易举 (LLMs)。它建立在 Pydantic 之上,提供了一个简单、透明且用户友好的 API 来管理验证、重试和流式响应。准备好为您的LLM工作流程增添动力

  • GoogleCloudPlatform/generative-ai 包含笔记本、代码示例、示例应用和其他资源,用于演示如何使用 Google Cloud 上的生成式 AI 使用、开发和管理生成式 AI 工作流程,这些工作流由 Vertex AI 和生成式 AI App Builder 提供支持。

  • clue-ai/ChatYuan 用于问答、结合上下文做对话、做各种生成任务,包括创意性写作,也能回答一些像法律、新冠等领域问题。它基于PromptCLUE-large结合数亿条功能对话多轮对话数据进一步训练得到。

  • bleedline/Awesome-gptlike-shellsite 深入探索精选的gpt套壳站和必备API资源。本文为初学者和经验丰富的运营者提供一站式指南,涵盖常见问题解答和基础攻略,助您迈向套壳站副业成功之路。便宜且高并发的api。

  • kwai/KwaiYii 由快手AI团队从零到一独立自主研发的一系列大规模语言模型(Large Language Model),当前包含了多种参数规模的模型,并覆盖了预训练模型(KwaiYii-Base)、对话模型(KwaiYii-Chat)。

  • databrickslabs/dolly dolly-v2-12b是由Databricks创建的120亿参数因果语言模型,该模型源自EleutherAI的Pythia-12b,并在Databricks员工生成的~15K记录指令语料库上进行微调,并在宽松许可证(CC-BY-SA)下发布

  • cheshire-cat-ai/core Cheshire Cat 是一个框架,用于在任何语言模型上构建自定义 AI。如果您曾经使用 WordPress 或 Django 等系统构建 Web 应用程序,请将 Cat 想象成一个类似的工具,但专门用于 AI。

  • traceloop/openllmetry OpenLLMetry 是一个开源项目,可让您轻松开始监控和调试 LLM。跟踪以非侵入性方式完成,构建在 OpenTelemetry 之上。您可以选择将跟踪导出到 Traceloop 或现有的可观测性堆栈。

  • nlpxucan/WizardLM 由Evol-Instruct提供支持的遵循指令的LLM系列:WizardLM,WizardCoder和WizardMath。基于GPT-4的自动评估框架来评估聊天机器人模型的性能。WizardLM-30B取得了比Guanaco-65B更好的结果。

  • shibing624/textgen 文本生成模型的实现,包括LLaMA,BLOOM,GPT2,BART,T5,SongNet等。文本生成模型,实现了包括LLaMA,ChatGLM,BLOOM,GPT2,Seq2Seq,BART,T5,UDA等模型的训练和预测,开箱即用。

  • facebookresearch/llama facebook LLaMA 模型的推理代码。最新版本的 Llama 现在可供各种规模的个人、创作者、研究人员和企业访问,以便他们可以负责任地进行实验、创新和扩展他们的想法。

  • protectai/llm-guard LLM AI 的 LLM Guard 是一款综合工具,旨在加强大型语言模型 (LLMs)。通过提供清理、有害语言检测、防止数据泄露和抵御即时注入攻击,LLM 确保您与 LLMs保持安全。

  • eli64s/readme-ai 一种开发人员工具,它使用数据提取和生成式 AI 的组合自动生成 README.md 文件。只需提供代码库的存储库 URL 或本地路径,即可生成结构良好且详细的 README 文件。

  • logspace-ai/langflow LangChain(大语言模型链式开发工具,强大的框架,可以简化构建高级语言模型应用程序的过程。) 的 UI,采用反应流设计,提供一种轻松的方式来实验和原型流。

  • kyrolabs/awesome-langchain 使用LangChain的工具和项目的精选列表。LangChain是一个了不起的框架,可以在短时间内完成LLM项目,并且生态系统正在快速发展。这里试图跟踪围绕LangChain的举措。

  • yihong0618/bilingual_book_maker AI 翻译工具,它使用 ChatGPT 帮助用户创建多语言版本的 epub/txt/srt 文件和书籍。此工具专为翻译已进入公有领域的 epub 图书而设计,不适用于受版权保护的作品。

  • togethercomputer/RedPajama-Data 包含用于准备大型数据集以训练大型语言模型的代码。重现LLaMA训练数据集的开源配方。Commoncrawl、C4、GitHub、Books、ArXiv、Wikipedia、StackExchange。合计1.2万亿令牌

  • EmbraceAGI/LifeReloaded 由GPT-4的“高级数据分析”功能提供支持的生活模拟游戏,为您提供第二次生活机会。由GPT4的Advanced Data Analysis功能驱动的人生重来模拟器,给您人生第二春。

  • seanzhang-zhichen/llama3-chinese Llama3-Chinese是以Meta-Llama-3-8B为底座,使用 DORA + LORA+ 的训练方法,在50w高质量中文多轮SFT数据 + 10w英文多轮SFT数据 + 2000单轮自我认知数据训练而来的大模型。

  • lonePatient/awesome-pretrained-chinese-nlp-models 高质量中文预训练模型集合。包括:基础大模型、对话大模型、多模态对话大模型、大模型评估基准、开源模型库平台、开源数据集库、中文指令数据集。

  • FreedomIntelligence/LLMZoo 一个为大型语言模型提供数据,模型和评估基准的项目。发布基于BLOOMZ的凤凰Phoenix7B模型、Chimera奇美拉模型。Phoenix-inst-chat-7b 达到85.2% 的ChatGPT效果。

  • mlc-ai/web-llm 将大语言模型和聊天引入 Web 浏览器。一切都在浏览器中运行,没有服务器支持。WebLLM是MLC LLM的姊妹项目。它重用了模型工件并构建了MLC LLM的流程。

  • tensorchord/Awesome-LLMOps 为开发人员提供的最佳 LLMOps 工具列表,包括各种大型语言模型、大型模型服务、LLMOps 平台、向量检索、训练微调、ML 平台、工作流、管理分析等。

  • Voine/ChatWaifu_Mobile 移动版二次元 AI 老婆聊天器 语言大模型来自 GhatGPT语音推理为客户端本地 VITS - ncnn图形渲染基于 Native Live2D语音输入识别为客户端本地 Sherpa - ncnn

  • project-baize/baize-chatbot 使用 LoRA 训练的开源聊天模型.它使用通过让 ChatGPT 与自己聊天生成的 100k 对话。还使用羊驼的数据来提高其性能。已发布了 7B、13B 和 30B 模型。

  • amazon-science/mm-cot 语言模型中的多模式思维链推理。包括两个训练阶段:(i) 基本原理生成和 (ii) 答案推理。这两个阶段共享相同的模型架构,但输入和输出不同。

  • HqWu-HITCS/Awesome-Chinese-LLM 整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。

  • pashpashpash/vault-ai 使用 OP Stack(OpenAI + Pinecone Vector Database)为 ChatGPT 提供长期记忆。使用简单的 React 前端上传您自己的自定义知识库文件(PDF、txt、epub 等)。

  • young-geng/EasyLM 在 JAX/Flax LLMs 中进行预训练、微调、评估和服务的一站式解决方案,EasyLM 可以利用 JAX 的 pjit 功能将训练扩展到LLM数百个 TPU/GPU 加速器。

  • chatpire/chatgpt-web-share ChatGPT Plus 共享方案。适用于个人、组织或团队的 ChatGPT 共享方案。共享一个 ChatGPT Plus 账号给多人使用,提供完善的管理和限制功能。

  • datawhalechina/hugging-llm 拥抱LLM,拥抱未来。介绍 ChatGPT 原理、使用和应用,降低使用门槛,让更多感兴趣的非NLP或算法专业人士能够无障碍使用LLM创造价值。

  • PawanOsman/ChatGPT 欢迎使用 ChatGPT API 免费反向代理,它以 OpenAI 熟悉的结构提供对 ChatGPT ( gpt-3.5-turbo ) 的免费自托管 API 访问,因此无需更改代码。

  • LAION-AI/Open-Assistant 基于聊天的助理,它理解任务,可以与第三方系统互动,并能动态地检索信息。将提供基于RLHF的大型语言模型,并公开训练数据。

  • Vision-CAIR/MiniGPT-4 MiniGPT-4:使用高级大型语言模型增强视觉语言理解 提供与 Vicuna-7B 对齐的预训练 MiniGPT-4!演示 GPU 内存消耗现在可以低至 12GB。

  • gventuri/pandas-ai Python库,它将生成人工智能功能集成到Pandas中,使数据帧成为对话式的。为流行的数据分析和操作工具pandas添加了生成AI功能。

  • ConnectAI-E/Feishu-OpenAI 飞书 ×(GPT-3.5 + DALL·E + Whisper)= 飞一般的工作体验 rocket 语音对话、角色扮演、多话题讨论、图片创作、表格分析、文档导出

  • JimmyLv/BibiGPT-v1 音视频内容 AI 一键总结 & 对话:哔哩哔哩丨YouTube丨推特丨小红书丨抖音丨快手丨百度网盘丨阿里云盘丨网页丨本地文件等

  • Grt1228/chatgpt-java ChatGPT Java SDK支持流式输出、Gpt插件、联网。支持OpenAI官方所有接口。ChatGPT的Java客户端。OpenAI GPT-3.5-Turb GPT-4 Api Client for Java

  • YeungNLP/firefly-train-1.1M 收集了23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万 。

  • OpenMotionLab/MotionGPT 一个统一且用户友好的运动语言模型,用于学习两种模态的语义耦合,并在多个运动任务上生成高质量的运动和文本描述。

  • Lightning-AI/lit-llama 基于nanoGPT的LLaMA语言模型的实现。支持flash注意力, Int8 和 GPTQ 4 位量化, LoRA 和 LLaMA 适配器微调, 预训练.Apache 2.0 许可。

  • ConnectAI-E/Feishu-OpenAI 飞书 ×(GPT-4 + DALL·E + Whisper)= 飞一般的工作体验,语音对话、角色扮演、多话题讨论、图片创作、表格分析、文档导出

  • naklecha/llama3-from-scratch llama3 从头开始实现,此外,我将直接从 Meta 为 llama3 提供的模型文件加载张量。详细解释 llama3 大模型每一个运算步骤。

  • BerriAI/litellm 使用 OpenAI 格式调用所有 LLM API。使用 Bedrock、Azure、OpenAI、Cohere、Anthropic、Ollama、Sagemaker、HuggingFace、Replicate (100+ LLM)

  • Giskard-AI/giskard 自动检测 AI 模型中的漏洞,从表格模型到 LLM,包括性能偏差、数据泄露、虚假相关性、幻觉、毒性、安全问题等等。

  • SkyworkAI/Skywork 天工系列模型在3.2TB高质量多语言和代码数据上进行预训练。我们开源了模型参数,训练数据,评估数据,评估方法。

  • SillyTavern/SillyTavern 面向高级用户的 LLM 前端。本地安装界面,可让您与文本生成 AI (LLM) 交互,以与自定义角色进行聊天和角色扮演。

  • dataelement/bisheng 领先的开源大模型应用开发平台,赋能和加速大模型应用开发落地,帮助用户以最佳体验进入下一代应用开发模式。

  • langchain-ai/langserve 帮助开发人员将 LangChain 可运行的可运行程序和链部署为 REST API。该库与 FastAPI 集成,并使用 pydantic 进行数据验证。

  • labring/FastGPT 基于 LLM 构建的基于知识的 QA 系统,提供开箱即用的数据处理和模型调用功能,允许通过 Flow 可视化进行工作流编排

  • betalgo/openai 用于访问 OpenAI 的 API 的 .NET SDK,作为社区库提供。此 SDK 允许您轻松地将 OpenAI 的功能集成到您的 .NET 应用程序中。

  • YiVal/YiVal 一个开源的 GenAI-Ops 工具,用于使用可自定义的数据集、评估方法和改进策略来调整和评估提示、配置和模型参数。

  • CrazyBoyM/llama3-Chinese-chat Llama3 中文仓库(聚合资料:各种网友及厂商微调、魔改版本有趣权重 & 训练、推理、部署教程视频 & 文档)

  • StanGirard/quivr 将所有文件和想法转储到您的生成式AI(如chatgpt)的第二大脑中并与之聊天。旨在轻松存储和检索非结构化信息。

  • sigoden/aichat 全能AI CLI工具,具有Chat-REPL、Shell Assistant、RAG、AI工具和代理功能,可以访问OpenAI、Claude、Gemini、Ollama、Groq等。

  • andysingal/llm-course 列出了一些关于大型语言模型、视觉基础模型、人工智能生成内容、相关数据集和应用程序的很棒的公共项目。

  • pezzolabs/pezzo 开源、开发人员优先的 LLMOps 平台,旨在简化提示设计、版本管理、即时交付、协作、故障排除、可观测性等。

  • xusenlinzy/api-for-open-llm LLaMA, LLaMA-2, BLOOM, Falcon, Baichuan, Qwen, Xverse, SqlCoder, CodeLLaMA, ChatGLM, ChatGLM2, ChatGLM3 etc. 开源大模型的统一后端接口

  • Datayoo/HuggingFists 一个低代码数据流工具,允许方便地LLM使用 和 HuggingFace 模型,其中一些功能被认为是 Langchain 的低代码版本。

  • yomorun/yomo 用于地理分布式边缘 AI 基础设施的有状态无服务器框架。借助函数调用支持,编写一次,在任何模型上运行。

  • csunny/DB-GPT 使用本地 GPT 与您的数据和环境交互,无数据泄漏,100% 私密,100% 安全 目前支持Vicuna(7b, 13b), ChatGLM-6b(int4, int8)

  • iryna-kondr/scikit-llm 将 LLM 无缝集成到 scikit-learn 中。将 ChatGPT 等强大的语言模型无缝集成到 scikit-learn 中,以增强文本分析任务。

  • postgresml/postgresml GPU 驱动的 AI 应用程序数据库。利用 SQL 的简单性和最新的 NLP、ML + LLM 模型,更快地将您的应用推向市场。

  • sunner/ChatALL 同时与ChatGPT,Bing Chat,Bard,Alpaca,Vicuna,Claude,ChatGLM,MOSS,讯飞星火,文心一言等聊天,发现最佳答案

  • hyperonym/basaran OpenAI 文本完成 API 的开源替代品。它为基于 Hugging Face Transformer 的文本生成模型提供兼容的流式处理 API。

  • yzfly/awesome-chatgpt-zh ChatGPT 中文指南,ChatGPT 中文调教指南,指令指南,精选资源清单,更好的使用 chatGPT 让你的生产力

  • openai-translator/bob-plugin-openai-translator 基于 ChatGPT API 的文本翻译、文本润色、语法纠错 Bob 插件,让我们一起迎接不需要巴别塔的新时代

  • YuchuanTian/AIGC_text_detector 我们在AIGC检测方面工作的官方代码:“AI生成文本的多尺度阳性-未标记检测”(ICLR‘24 Spotlight)

  • argilla-io/argilla 以数据为中心的 LLM 开发的开源平台。集成人工和模型反馈循环,以实现持续的 LLM 优化和监督。

  • rustformers/llm 用于处理大型语言模型的 Rust 库生态系统 - 它建立在用于机器学习的快速、高效的 GGML 库之上。

  • ymcui/Chinese-LLaMA-Alpaca-2 中文 LLaMA-2 & Alpaca-2 大模型二期项目 + 本地CPU/GPU训练部署 (Chinese LLaMA-2 & Alpaca-2 LLMs)

  • rawandahmad698/PyChatGPT 非官方 ChatGPT API 的 Python 客户端,具有自动令牌重新生成、对话跟踪、代理支持等功能。

  • bionic-gpt/bionic-gpt BionicGPT 是 ChatGPT 的本地替代品,提供生成式 AI 的优势,同时保持严格的数据机密性。

  • dandelionsllm/pandallm 海外中文开源大语言模型,基于 Llama-7B, -13B, -33B, -65B 进行中文领域上的持续预训练。

  • click33/chatgpt---mirror-station-summary 汇总所有 chatgpt 镜像站,免费、付费、多模态、国内外大模型汇总等等 持续更新中

  • CLUEbenchmark/pCLUE 基于提示的大规模预训练数据集,用于多任务学习和零样本学习,120万训练数据。

  • jerry1993-tech/Cornucopia-LLaMA-Fin-Chinese 聚宝盆(Cornucopia): 基于中文金融知识的LLaMA微调模型;涉及SFT、RLHF、GPU训练部署等

  • Shenzhi-Wang/Llama3-Chinese-Chat 第一个基于Meta-Llama-3-8B-Instruct模型的ORPO专门针对中文进行微调的中文聊天模型。

  • x-dr/chatgptProxyAPI 使用cloudflare 搭建免费的 OpenAI api代理 ,解决网络无法访问问题。支持流式输出

  • zhile-io/pandora 潘多拉实现了网页版 ChatGPT 的主要操作。后端优化,绕过 Cloudflare,速度喜人。

  • limaoyi1/Auto-PPT Auto generate pptx using gpt-3.5, Free to use online / 通过gpt-3.5生成PPT,免费在线使用

  • kazuki-sf/ChatGPT_Extension 非常简单的Chrome扩展(v3),您可以从网络上的任何地方访问OpenAI的ChatGPT。

  • microsoft/TaskMatrix 连接了ChatGPT和一系列Visual Foundation模型,以便在聊天期间发送和接收图像。

  • imaurer/awesome-decentralized-llm LLM资源的集合,可用于构建您可以“拥有”的产品或进行可重复的研究。

  • HuiMi24/chatppt 由chatgpt提供支持,它可以帮助您生成PPT /幻灯片。它支持英文和中文输出

  • 0xk1h0/ChatGPT_DAN 越狱提示,巧妙的解决方法,使我们能够充分利用 ChatGPT 的全部潜力。

  • microsoft/generative-ai-for-beginners 一门 12 节课的课程,教授开始构建生成式 AI 应用程序所需的一切知识

  • salesforce/DialogStudio 为对话式 AI 提供最丰富、最多样化的统一数据集集合和指令感知模型

  • sindresorhus/awesome-chatgpt 基于ChatGPT 开发的应用的列表 — 由 OpenAI 开发的人工智能聊天机器人

  • pytorch-labs/gpt-fast 在 python 的 <1000 LOC 中简单高效地生成 pytorch-native transformer 文本。

  • locuslab/wanda 一种简单有效的大型语言模型修剪方法(按权重和激活进行修剪)

  • openai-php/client 由社区维护的增强型 PHP API 客户端,允许您与 OpenAI API 进行交互。

  • luban-agi/Awesome-Domain-LLM 本项目旨在收集和梳理垂直领域的开源模型、数据集及评测基准。

  • liady/ChatGPT-pdf 用于将 ChatGPT 历史下载为 PNG、PDF 或创建可共享链接的 Chrome 扩展

  • openlm-research/open_llama 一个在RedPajama数据集上训练的Meta AI的LLaMA 7B的许可开源复制品。

  • PlexPt/chatgpt-corpus ChatGPT 中文语料库 对话语料 小说语料 客服语料 用于训练大模型

  • yaodongC/awesome-instruction-dataset 用于训练指令遵循 LLM 的开源数据集集合(ChatGPT、LLaMA、Alpaca)

  • langchain4j/langchain4j Java版LangChain,简化将 AI/LLM功能集成到 Java 应用程序中的过程。

  • NVIDIA/GenerativeAIExamples 针对加速基础架构和微服务架构优化的生成式 AI 参考工作流。

  • steven-tey/novel Notion风格的所见即所得编辑器,具有 AI 驱动的自动完成功能。

  • TheoKanning/openai-java 用于使用 OpenAI 的 GPT API 的 Java 库。支持 GPT-3、ChatGPT 和 GPT-4。

  • xtekky/gpt4free 免费使用GPT4模型 typescript版本

  • missuo/FreeGPT35 利用免登录 ChatGPT Web 提供的无限制免费 GPT-3.5-Turbo API 服务。

  • jackaduma/awesome_LLMs_interview_notes 主要记录大模型(LLMs)算法工程师相关的面试题和参考答案

  • josStorer/chatGPTBox 将 ChatGPT 深度集成到您的浏览器中,您需要的一切都在这里

  • skydoves/chatgpt-android 在 Android 上使用 Stream Chat SDK for Compose 演示 OpenAI 的 ChatGPT。

  • xiangsx/gpt4free-ts 提供免费的OpenAI GPT-4 API!这是 xtekky/gpt4free 版本的复制项目

  • taishi-i/awesome-ChatGPT-repositories 专门用于与 ChatGPT 相关的开源 GitHub 存储库的精选资源列表

  • visual-openllm/visual-openllm 文心一言的开源版,基于 ChatGLM + Visual ChatGPT + Stable Diffusion

  • voidful/awesome-chatgpt-dataset 释放 LLM 的力量:探索这些数据集来训练你自己的 ChatGPT!

  • msoedov/langcorn 使用 FastAPI 自动为 LangChain LLM 应用程序和代理提供服务。

  • qunash/chatgpt-advanced 一种浏览器扩展,可通过网络结果增强您的 ChatGPT 提示。

  • Timothyxxx/Chain-of-ThoughtsPapers 大型语言模型中的思维链促使引出推理。思想链论文集合

  • catqaq/ChatPiXiu 开源chatgpt替代方案/实现的调查,复制和领域/任务适应。

  • jtsang4/claude-to-chatgpt 将 Anthropic 的 Claude 模型的 API 转换为 OpenAI Chat API 格式。

  • FlagAlpha/Llama2-Chinese Llama中文社区,最好的中文Llama大模型,完全开源可商用

  • chtmp223/topicGPT 通过提示大型语言模型进行主题建模”的脚本和提示。

  • SciSharp/LLamaSharp 可在本地设备上高效运行LLM的 C#/.NET 库 (LLaMA/LLaVA)。

  • thunlp/UltraChat 大规模、信息丰富、多样化的多轮聊天数据(和模型)

  • llm-workflow-engine/llm-workflow-engine 适用于 LLM 的 命令行工具 和工作流管理器(核心包)

  • BlinkDL/ChatRWKV 使用RWKV语言模型(100%RNN)的类ChatGPT开源聊天模型。

  • princeton-nlp/tree-of-thought-llm 正式实现“思想之树:用大语言模型刻意解决问题”

  • iguodongiot/llm-action 本项目旨在分享大模型相关技术原理以及实战经验。

  • michael-wzhu/Chinese-LlaMA2 META最新发布的LlaMA2的汉化版! (完全开源可商用)

  • zilliztech/GPTCache LLM 的语义缓存。 与 LangChain 和 llama_index 完全集成。

  • llmware-ai/llmware 提供基于企业级LLM的开发框架、工具和微调模型。

  • jaymody/picoGPT NumPy实现的一个不必要的微小的GPT-2。40 行代码。

  • SJTU-IPADS/PowerInfer 在具有消费级 GPU 的 PC 上提供高速大型语言模型

  • AprilNEA/ChatGPT-Admin-Web 在团队和组织内共享使用AI的一站式解决方案。

  • eon01/awesome-chatgpt 精选的 ChatGPT 资源列表,包括库、SDK、API 等。

  • tmc/langchaingo LangChain for Go,Go 编写基于LLM程序的最简单方法

  • Facico/Chinese-Vicuna 一个中文低资源的llama+lora方案,结构参考alpaca

  • lmstudio-ai/model-catalog 大型语言模型文件的标准化 JSON 描述符集合。

  • AI4Finance-Foundation/FinGPT 以数据为中心的 FinGPT。开源开放金融!革新

  • WangRongsheng/awesome-LLM-resourses 全世界最好的大语言模型资源汇总 持续更新

  • openai/openai-quickstart-node OpenAI API 快速入门教程中的Node.js示例应用。

  • cesarhuret/docGPT ChatGPT 直接在 Google Docs 中作为编辑器的插件

  • domeccleston/sharegpt 轻松与您的朋友分享 ChatGPT 对话的永久链接

  • DAMO-NLP-SG/LLM-Zoo 本项目收集了以下各种开源和闭源LLM的信息

  • OpenBMB/BMList 希望使用此列表来显示大模型的最新趋势。

  • XueFuzhao/OpenMoE 一系列开源专家混合 (MoE) 大型语言模型

  • shawwn/llama-dl 高速下载 LLaMA,Facebook 的 65B 参数 GPT 模型

  • ntunlplab/traditional-chinese-alpaca 基于羊驼数据集的繁体中文指令数据集。

  • elyase/awesome-gpt3 关于 OpenAI GPT-3 API 的演示和文章的集合。

  • RUCAIBox/LLMSurvey 与大型语言模型相关的论文和资源集合。

  • Licoy/ChatGPT-Midjourney 一键拥有自己的 ChatGPT+Midjourney 网页服务

  • wong2/chatgpt-google-extension 浏览器扩展,用ChatGPT增强搜索引擎效果

  • chenking2020/FindTheChatGPTer ChatGPT/GPT4开源“平替”汇总,持续更新

  • platelminto/chatgpt-conversation 用你的声音与 ChatGPT 对话,让它回话。

  • acheong08/Bard Google 的 Bard 聊天机器人 API 的逆向工程

  • ikaijua/Awesome-AITools 收藏AI相关的实用工具,大型语言模型

  • sashabaranov/go-openai 为 OpenAI API 提供了非官方的 Go 客户端

  • humanloop/awesome-chatgpt ChatGPT和GPT-3的惊人工具、演示和文档

  • yihong0618/xiaogpt 使用小米AI扬声器播放ChatGPT和其他LLM

  • wasiahmad/Awesome-LLM-Synthetic-Data 基于 LLM 的综合数据生成的阅读清单

  • terry3041/pyChatGPT OpenAI的ChatGPT API的非官方Python包装器

  • archiki/ADaPT 使用语言模型进行按需分解和规划

  • openai/openai-node OpenAI API 的官方 Node.js / Typescript 库

  • saharmor/awesome-chatgpt 精选的 ChatGPT 演示、工具、文章等

  • abielzulio/chatgpt-raycast ChatGPT raycast(Mac的快捷启动器) 扩展

  • rasbt/LLMs-from-scratch 从头开始逐步实现类似ChatGPT的 LLM

  • transitive-bullshit/chatgpt-api OpenAI提供的ChatGPT的Node.js包装器。

  • ddiu8081/chatgpt-demo 基于 OpenAI GPT-3.5 Turbo API 的 demo。

  • pengxiao-song/LaWGPT 基于中文法律知识的大语言模型

  • xtekky/chatgpt-clone 具有更好用户界面的聊天GPT界面

  • eugeneyan/open-llms 可用于商业用途的开放LLM列表。

  • nichtdax/awesome-totally-open-chatgpt ChatGPT 的完全开放的替代品列表

  • facebookresearch/llama-recipes facebook LLaMA 模型的示例和手册

  • juncongmoo/pyllama LLaMA - 在单个 4GB GPU 中运行 LLM

  • wgwang/LLMs-In-China 旨在记录中国大模型发展情况

  • wangrui6/Zhihu-KOL 用于训练开放助手的知乎数据

  • fuergaosi233/wechat-chatgpt 通过微信在微信上使用ChatGPT

  • acheong08/EdgeGPT 微软必应聊天的逆向工程API

  • openai/openai-cookbook 使用 OpenAI API 的示例和指南

  • liaokongVFX/LangChain-Chinese-Getting-Started-Guide LangChain 的中文入门教程

  • terror/chatgpt.nvim 在 Neovim 中查询 ChatGPT

  • gptshunter.com 发现 GPTs 项目的商店

  • acheong08/ChatGPT 逆向工程 ChatGPT 的API

  • EwingYangs/awesome-open-gpt GPT相关开源项目合集

  • dalinvip/Awesome-ChatGPT ChatGPT资料汇总学习

  • aurorax-neo/free-gpt3.5-2api 免费chat GPT API

Agent代理助手_机器人

  • ai4finance-foundation/finrobot 用于金融应用程序的开源 AI 代理平台,使用 LLMs。FinRobot 是一个超越 FinGPT 范围的 AI 代理平台,代表了为金融应用精心设计的综合解决方案。它集成了各种各样的人工智能技术,超越了单纯的语言模型。这一广阔的愿景凸显了该平台的多功能性和适应性,满足了金融业的多方面需求。FinRobot的整体框架分为四个不同的层,每个层都旨在解决金融AI处理和应用的特定方面:1.金融 AI 代理层:金融 AI 代理层现在包括金融思维链 (CoT) 提示,增强了复杂的分析和决策能力;市场预测代理、文档分析代理和交易策略代理利用 CoT 将金融挑战分解为逻辑步骤,将其先进的算法和领域专业知识与金融市场不断变化的动态相结合,以获得准确、可操作的见解。2.金融LLMs算法层:金融LLMs算法层配置并利用针对特定领域和全球市场分析量身定制的特别调整模型。3.LLMOps 和 DataOps 层:LLMOps 层实施了多源集成策略,利用一系列最先进的模型,选择LLMs最适合特定财务任务的。4.多源LLM基础模型层:此基础层支持各种通用和专用LLMs的即插即用功能。FinRobot:座席工作流程。1.感知:该模块从市场提要、新闻和经济指标中捕获和解释多模式财务数据,使用复杂的技术来构建数据以进行彻底分析。2.大脑:作为核心处理单元,该模块使用LLMs并利用金融思维链 (CoT) 流程感知来自感知模块的数据,以生成结构化指令。3.操作:该模块执行来自大脑模块的指令,应用工具将分析见解转化为可操作的结果;行动包括交�

About

精选了8K+项目,包括机器学习、深度学习、NLP、GNN、推荐系统、生物医药、机器视觉、前后端开发等内容。Selected more than 6000 projects, including machine learning, deep learning, NLP, GNN, recommendation system, biomedicine, machine vision, etc. Let more excellent projects be discovered by people. Continue to update! Welcome to star!

Topics

Resources

License

Stars

Watchers

Forks