llamafia.github

LLaMafia 是一个中文前沿 AI / LLM 开源讨论空间。LLaMa 指 LLaMA 模型， Mafia 指极客群体，合起来叫 LLaMafia

LLaMafia 关注最扎实的工程和最前沿的科学，所有讨论基于第一性科学原理和第一手工程经验，鼓励 critical thinking, promote insightful work

在当下的时代，人们研究 AI 原因有很多，可以是追求产品价值，投资机会，学术资源，社会影响力

LLaMafia 研究 AI，是因为纯粹的热爱

Tech Log

20231213 蒸馏方法的局限与 MOE 讨论录像

当下 self-distill 方法的局限
为什么很少有 LLM soft-distll
MOE 与 contiune training（见录像）

20231210

MoE Evaluation: 讨论了在MoE模型评估中关于capacity设置的影响与策略。
LLM外推能力: 模型在处理长文本和代码方面的外推能力及其局限性
自生成训练数据: 模型自我生成训练数据的方法、效果及潜在偏差
损失函数形状: 训练数据顺序对大型模型训练中损失函数形状的影响
Mixtral和其他模型讨论: Mixtral-8x7b模型的性能、显存需求和推理速度，以及其他相关模型的讨论

20231203

数字切开验证&&数字计算
Instruction following 能力
论文分析：1.《我在Performer中发现了Transformer-VQ的踪影》2.Multimodal understanding benchmark!
讨论：1.LLama2 预测结果不一致 2.LLama 的 tokenizer 和 titoken 本质区别 3.特定的domain用self-instruct 的效果 4.大模型SFT阶段训练不稳定的探索

20231125

对 AI Safety / AI open source 以及 large scale AI deployment 的看法
轻量方法动态压缩序列
论文分享：1. Transformer升级之路：15、Key归一化助力长度外推 2. Component-Wise Gradient Norm Clipping 3. Superalignment 4. Detecting Pretraining Data from Large Language Models
讨论： 1. 召回向量 & RAG 2. Claude 2.1上下文信息提取能力 3.Medusa 框架 & lookahead decoding 4. LLM局域信息

20231119

Learning Rate 和 Batch Size 的关系
多机多卡并行方案
Grok-1 中匈牙利考试数据集
推荐论文的 Agent
RNN 类模型
涌现能力的原理，小模型可以吗？

20231112

为什么大模型普遍选用更宽而不是更高的模型架构
如何实现知识更新
复读机问题的原因与解决
关于LLM外推
位数越多GPT的加法正确率越低

20231022 Compression Theory. 讨论录像

Arithmetic Coding 算法
语言模型是无损压缩器
压缩得越好，模型越有可能恢复数据的生成过程
为什么智能是一种副产物：过度优化的问题

Contact

llamafia.agi@gmail.com

Name		Name	Last commit message	Last commit date
Latest commit History 31 Commits
Log		Log
profile		profile
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

llamafia.github

Tech Log

Contact

About

Releases

Packages

License

HU-xiaobai/llamafia.github

Folders and files

Latest commit

History

Repository files navigation

llamafia.github

Tech Log

Contact

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Packages