llm-tracker

(placeholder name)

A framework for tracking AI large language model (LLM) foundational models, fine tunes, data sets, and evals.

Existing Projects

Project Lists

Evals

HuggingFace Open LLM Leaderboard
- warning, their MMLU results are wrong, throwing off the whole ranking: https://twitter.com/Francis_YAO_/status/1666833311279517696
LMSys Chatbot Arena Leaderboard - ELO style ranking
LLM-Leaderboard
Gotzmann LLM Score v2 (discussion)
Chain-of-Thought Hub
C-Eval Leaderboard
llm-humaneval-benchmarks - HuggingFace models evald vs HumanEval+
CanAiCode Leaderboard - using Can AI Code? eval
AlpacaEval Leaderboard
YearZero's LLM Logic Tests
HELM Core Scenarios
TextSynth Server
airate - C++ bug catching test
llm-jeopardy - automated quiz show answering

Roadmap

Single open, comprehensive repository that is a superset of existing lists, and that allows for low friction submissions, updates, collaboration.

p1

FastAPI API for queries
Permissive (CC0?) data set available as YAML, Datasette, etc
Robust/extensible/historical data model:
- Entities/Organizations
- Models (foundational, fine tunes)
- Versions (sizes, checkpoints, quantizes)
- Evals (repeatable benchmark, rankings, contributions)
Allow submissions (rollbacks, updates) via either GH pull requests or just a GH/HF Auth workflow

p2

Figure out importing, sourcing evals
Tracking submissions by date
Custom views

Maintenance

Live w/ CRFM (or LMSys or other long-running org?)
Should have community Discord
Be welcoming of all contributors

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

llm-tracker

Existing Projects

Project Lists

Evals

Roadmap

p1

p2

Maintenance

About

Releases

Packages

License

AUGMXNT/llm-tracker

Folders and files

Latest commit

History

Repository files navigation

llm-tracker

Existing Projects

Project Lists

Evals

Roadmap

p1

p2

Maintenance

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Packages