tatsu-lab · YannDubs · Jul 26, 2024 · Jul 26, 2024
diff --git a/results/Meta-Llama-3.1-405B-Instruct-Turbo/model_outputs.json b/results/Meta-Llama-3.1-405B-Instruct-Turbo/model_outputs.json
diff --git a/results/Meta-Llama-3.1-405B-Instruct-Turbo/weighted_alpaca_eval_gpt4_turbo/annotations.json b/results/Meta-Llama-3.1-405B-Instruct-Turbo/weighted_alpaca_eval_gpt4_turbo/annotations.json
diff --git a/results/Meta-Llama-3.1-70B-Instruct-Turbo/model_outputs.json b/results/Meta-Llama-3.1-70B-Instruct-Turbo/model_outputs.json
diff --git a/results/Meta-Llama-3.1-70B-Instruct-Turbo/weighted_alpaca_eval_gpt4_turbo/annotations.json b/results/Meta-Llama-3.1-70B-Instruct-Turbo/weighted_alpaca_eval_gpt4_turbo/annotations.json
diff --git a/results/Meta-Llama-3.1-8B-Instruct-Turbo/model_outputs.json b/results/Meta-Llama-3.1-8B-Instruct-Turbo/model_outputs.json
diff --git a/results/Meta-Llama-3.1-8B-Instruct-Turbo/weighted_alpaca_eval_gpt4_turbo/annotations.json b/results/Meta-Llama-3.1-8B-Instruct-Turbo/weighted_alpaca_eval_gpt4_turbo/annotations.json
diff --git a/...lpaca_eval/leaderboards/data_AlpacaEval_2/weighted_alpaca_eval_gpt4_turbo_leaderboard.csv b/...lpaca_eval/leaderboards/data_AlpacaEval_2/weighted_alpaca_eval_gpt4_turbo_leaderboard.csv
@@ -10,7 +10,7 @@ gpt-4o-2024-05-13,51.32757578249279,1.4700094589795554,429,369,7,805,53.72670807
 higgs-llama-3-70b-v2,68.63519246435168,1.3151765652301792,563,240,2,805,70.06211180124224,community,2657,56.76317433000503,0.8571649314205525
 gpt-4-turbo-2024-04-09,46.11526538763708,1.474073957743638,370,426,9,805,46.52173913043478,minimal,1802,55.01530093647852,
 SPPO-Gemma-2-9B-It-PairRM,48.23404468746583,1.4568887170812033,386,418,1,805,48.01242236024844,community,1803,53.96983730150777,0.6516507968188552
-Llama-3-Instruct-8B-WPO-HB-v2,57.33198613024009,1.4953200715726744,469,336,0,805,58.26086956521739,community,2472,53.372642688941674,0.7120573420060313
+Llama-3-Instruct-8B-WPO-HB-v2,57.33198613024009,1.4953200715726744,469,336,0,805,58.26086956521739,community,2472,53.37264268894168,0.7120573420060313
 claude-3-5-sonnet-20240620,40.56021409682828,1.4679655403720542,312,493,0,805,38.75776397515528,community,1488,52.36675427146999,
 yi-large-preview,57.46724251946292,1.4305696667082746,463,338,4,805,57.7639751552795,verified,2335,51.894415134099546,
 gpt4_1106_preview_verbose,64.30360147101865,1.3348590089025316,525,268,12,805,65.96273291925466,dev,2402,51.57500797967598,
@@ -24,8 +24,10 @@ gpt4_1106_preview_concise,22.92019444047205,1.232517714329424,172,622,11,805,22.
 aligner-2b_claude-3-opus-20240229,34.46337362321739,1.314666526302454,225,475,105,805,34.47204968944099,community,1669,41.823071715247664,
 Nanbeige2-16B-Chat,37.03608605005168,1.4340261272580377,288,514,3,805,35.962732919254655,community,1867,40.591286349562864,0.8504106275373426
 claude-3-opus-20240229,29.10526953334248,1.3941539442369442,223,579,3,805,27.888198757763977,minimal,1388,40.5095080124761,
+Meta-Llama-3.1-405B-Instruct-Turbo,39.10666895419877,1.4335939943941904,305,497,3,805,38.07453416149068,minimal,1988,39.257327499617425,0.9064666759144326
 SPPO-Llama-3-Instruct-8B-PairRM,39.67286090605648,1.424722356202499,310,494,1,805,38.57142857142858,community,2066,38.56280663670214,0.8694594533275739
 gpt4,23.576789314782605,1.275704201206918,179,618,8,805,22.732919254658384,verified,1365,38.12808974440021,
+Meta-Llama-3.1-70B-Instruct-Turbo,39.12691443804968,1.4277422726408466,306,496,3,805,38.19875776397515,minimal,2044,38.05512453607286,0.9009912768416926
 Infinity-Instruct-3M-0625-Llama3-70B,24.277231851026183,1.3152941480778837,188,613,4,805,23.60248447204969,community,1294,37.97881098506053,0.8189316873655579
 aligner-2b_qwen1.5-72b-chat,31.773037737123104,1.2392772646245978,180,473,152,805,31.801242236024844,community,1812,36.725868878524274,
 Qwen1.5-72B-Chat,26.49828339562733,1.304236164893057,201,600,4,805,25.217391304347824,verified,1549,36.571754111987296,
@@ -82,6 +84,7 @@ Infinity-Instruct-3M-0625-Qwen2-7B,15.322182555525842,1.0986373100856872,118,685
 gpt4_0613_concise,9.400320574596272,0.901021275896262,71,729,5,805,9.130434782608695,dev,627,21.57799091454269,
 pairrm-tulu-2-70b,18.638962967441,1.1924966700012911,140,665,0,805,17.391304347826086,community,1607,21.428403975507223,
 tulu-2-dpo-70b,15.982854374136648,1.1457861368237434,119,683,3,805,14.96894409937888,verified,1418,21.238610038371124,
+Meta-Llama-3.1-8B-Instruct-Turbo,21.841523410839937,1.2489757978275888,168,632,2,802,21.07231920199501,minimal,2181,20.85398744758185,0.7027366237502348
 Mistral-7B-ReMax-v0.1,15.999331369031056,1.1288683901451453,120,683,2,805,15.031055900621118,community,1478,20.55136770233589,
 Infinity-Instruct-3M-0625-Yi-1.5-9B,16.203844277153284,1.1057840624447524,123,681,1,805,15.341614906832298,community,1449,20.538372631222003,0.6401022229216694
 Starling-LM-7B-alpha-ExPO,18.17975592036216,1.2498324795896385,148,657,0,805,18.385093167701864,community,1821,19.4741654606294,

diff --git a/...ights/weighted_alpaca_eval_gpt4_turbo/length_controlled_v1/baseline_gpt4_1106_preview.csv b/...ights/weighted_alpaca_eval_gpt4_turbo/length_controlled_v1/baseline_gpt4_1106_preview.csv
@@ -174,4 +174,7 @@ gemma-2-9b-it-DPO,-1.0421098127771280,0.7544689135365252,0.9950063245939248
 gemma-2-9b-it-SimPO,-1.1421073244366444,0.6125150070394807,1.1709131554933978
 higgs-llama-3-70b-v2,-1.3408055191105048,0.9224458425462844,0.4939211483441316
 Llama-3-Instruct-8B-WPO-HB-v2,-0.6826032377655107,0.6712583034304377,0.2389794929137126
-example,-1.8366972159920483,0.7446561168325255,-6.8226040527680167
+example,-1.8366972159920485,0.7446561168325255,-6.8226040527680167
+Meta-Llama-3.1-70B-Instruct-Turbo,-1.3061714545512666,0.9336810427495166,-0.5316926357650757
+Meta-Llama-3.1-8B-Instruct-Turbo,-1.2423693493207115,0.8445600798571650,-1.6486315436074048
+Meta-Llama-3.1-405B-Instruct-Turbo,-1.2804290170826129,0.9380588083567104,-0.4617925323625654
diff --git a/src/alpaca_eval/models_configs/Meta-Llama-3.1-405B-Instruct-Turbo/configs.yaml b/src/alpaca_eval/models_configs/Meta-Llama-3.1-405B-Instruct-Turbo/configs.yaml
@@ -0,0 +1,11 @@
+Meta-Llama-3.1-405B-Instruct-Turbo:
+  prompt_template: "Mixtral-8x7B-Instruct-v0.1/togetherai_prompt.txt"
+  fn_completions: "openai_completions"
+  completions_kwargs:
+    model_name: "meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo"
+    max_tokens: 3072
+    requires_chatml: True
+    client_kwargs:
+      base_url: 'https://api.together.xyz'
+  pretty_name: "Llama 3.1 405B Instruct"
+  link: "https://huggingface.co/meta-llama/Meta-Llama-3.1-405B-Instruct"
diff --git a/src/alpaca_eval/models_configs/Meta-Llama-3.1-70B-Instruct-Turbo/configs.yaml b/src/alpaca_eval/models_configs/Meta-Llama-3.1-70B-Instruct-Turbo/configs.yaml
@@ -0,0 +1,12 @@
+Meta-Llama-3.1-70B-Instruct-Turbo:
+  prompt_template: "Mixtral-8x7B-Instruct-v0.1/togetherai_prompt.txt"
+  fn_completions: "openai_completions"
+  completions_kwargs:
+    model_name: "meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo"
+    max_tokens: 4096
+    requires_chatml: True
+    client_kwargs:
+      base_url: 'https://api.together.xyz'
+  pretty_name: "Llama 3.1 70B Instruct"
+  link: "https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct"
+
diff --git a/src/alpaca_eval/models_configs/Meta-Llama-3.1-8B-Instruct-Turbo/configs.yaml b/src/alpaca_eval/models_configs/Meta-Llama-3.1-8B-Instruct-Turbo/configs.yaml
@@ -0,0 +1,12 @@
+Meta-Llama-3.1-8B-Instruct-Turbo:
+  prompt_template: "Mixtral-8x7B-Instruct-v0.1/togetherai_prompt.txt"
+  fn_completions: "openai_completions"
+  completions_kwargs:
+    model_name: "meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo"
+    max_tokens: 4096
+    requires_chatml: True
+    client_kwargs:
+      base_url: 'https://api.together.xyz'
+  pretty_name: "Llama 3.1 8B Instruct"
+  link: "https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct"
+