[Fix] import issues of multilingual llava and olympiadbench

EvolvingLMMs-Lab · May 27, 2024 · 616edf4 · 616edf4
1 parent 4c5a99e
commit 616edf4
Show file tree

Hide file tree

Showing 15 changed files with 111 additions and 448 deletions.
diff --git a/lmms_eval/tasks/multilingual-llava-bench-in-the-wild/_default_template.yaml b/lmms_eval/tasks/multilingual-llava-bench-in-the-wild/_default_template.yaml
@@ -0,0 +1,35 @@
+test_split: train
+output_type: generate_until
+doc_to_visual: !function utils.llava_doc_to_visual
+doc_to_text: !function utils.llava_doc_to_text
+doc_to_target: "gpt_answer"
+generation_kwargs:
+  until:
+    - "ASSISTANT:"
+  image_aspect_ratio: original
+  max_new_tokens: 1024
+  temperature: 0
+  top_p: 0
+  num_beams: 1
+  do_sample: false
+process_results: !function utils.llava_process_results
+metric_list:
+  - metric: gpt_eval_llava_all
+    aggregation: !function utils.llava_all_aggregation
+    higher_is_better: true
+  - metric: gpt_eval_llava_conv
+    aggregation: !function utils.llava_conv_aggregation
+    higher_is_better: true
+  - metric: gpt_eval_llava_detail
+    aggregation: !function utils.llava_detail_aggregation
+    higher_is_better: true
+  - metric: gpt_eval_llava_complex
+    aggregation: !function utils.llava_complex_aggregation
+    higher_is_better: true
+metadata:
+  version: 0.0
+  gpt_eval_model_name: "gpt-4-0613"
+model_specific_prompt_kwargs:
+  default:
+    pre_prompt: ""
+    post_prompt: ""
diff --git a/lmms_eval/tasks/multilingual-llava-bench-in-the-wild/_generate_configs.py b/lmms_eval/tasks/multilingual-llava-bench-in-the-wild/_generate_configs.py
diff --git a/lmms_eval/tasks/multilingual-llava-bench-in-the-wild/arabic_llava_in_the_wild.yaml b/lmms_eval/tasks/multilingual-llava-bench-in-the-wild/arabic_llava_in_the_wild.yaml
@@ -1,42 +1,6 @@
-
-    dataset_path: "gagan3012/multilingual-llava-bench"
-    dataset_kwargs:
-        config: arabic
-        token: True
-    task: "llava_in_the_wild_arabic"
-    test_split: train
-    output_type: generate_until
-    doc_to_visual: !function utils.llava_doc_to_visual
-    doc_to_text: !function utils.llava_doc_to_text
-    doc_to_target: "gpt_answer"
-    generation_kwargs:
-    until:
-        - "ASSISTANT:"
-    image_aspect_ratio: original
-    max_new_tokens: 1024
-    temperature: 0
-    top_p: 0
-    num_beams: 1
-    do_sample: false
-    process_results: !function utils.llava_process_results
-    metric_list:
-    - metric: gpt_eval_llava_all
-        aggregation: !function utils.llava_all_aggregation
-        higher_is_better: true
-    - metric: gpt_eval_llava_conv
-        aggregation: !function utils.llava_conv_aggregation
-        higher_is_better: true
-    - metric: gpt_eval_llava_detail
-        aggregation: !function utils.llava_detail_aggregation
-        higher_is_better: true
-    - metric: gpt_eval_llava_complex
-        aggregation: !function utils.llava_complex_aggregation
-        higher_is_better: true
-    metadata:
-    version: 0.0
-    gpt_eval_model_name: "gpt-4-0613"
-    model_specific_prompt_kwargs:
-    default:
-        pre_prompt: ""
-        post_prompt: ""
-
+dataset_path: "gagan3012/multilingual-llava-bench"
+dataset_kwargs:
+    config: arabic
+    token: True
+task: "llava_in_the_wild_arabic"
+include: _default_template.yaml
diff --git a/lmms_eval/tasks/multilingual-llava-bench-in-the-wild/bengali_llava_in_the_wild.yaml b/lmms_eval/tasks/multilingual-llava-bench-in-the-wild/bengali_llava_in_the_wild.yaml
@@ -1,42 +1,6 @@
-
-    dataset_path: "gagan3012/multilingual-llava-bench"
-    dataset_kwargs:
-        config: bengali
-        token: True
-    task: "llava_in_the_wild_bengali"
-    test_split: train
-    output_type: generate_until
-    doc_to_visual: !function utils.llava_doc_to_visual
-    doc_to_text: !function utils.llava_doc_to_text
-    doc_to_target: "gpt_answer"
-    generation_kwargs:
-    until:
-        - "ASSISTANT:"
-    image_aspect_ratio: original
-    max_new_tokens: 1024
-    temperature: 0
-    top_p: 0
-    num_beams: 1
-    do_sample: false
-    process_results: !function utils.llava_process_results
-    metric_list:
-    - metric: gpt_eval_llava_all
-        aggregation: !function utils.llava_all_aggregation
-        higher_is_better: true
-    - metric: gpt_eval_llava_conv
-        aggregation: !function utils.llava_conv_aggregation
-        higher_is_better: true
-    - metric: gpt_eval_llava_detail
-        aggregation: !function utils.llava_detail_aggregation
-        higher_is_better: true
-    - metric: gpt_eval_llava_complex
-        aggregation: !function utils.llava_complex_aggregation
-        higher_is_better: true
-    metadata:
-    version: 0.0
-    gpt_eval_model_name: "gpt-4-0613"
-    model_specific_prompt_kwargs:
-    default:
-        pre_prompt: ""
-        post_prompt: ""
-
+dataset_path: "gagan3012/multilingual-llava-bench"
+dataset_kwargs:
+    config: bengali
+    token: True
+task: "llava_in_the_wild_bengali"
+include: _default_template.yaml
diff --git a/lmms_eval/tasks/multilingual-llava-bench-in-the-wild/chinese_llava_in_the_wild.yaml b/lmms_eval/tasks/multilingual-llava-bench-in-the-wild/chinese_llava_in_the_wild.yaml
@@ -1,42 +1,6 @@
-
-    dataset_path: "gagan3012/multilingual-llava-bench"
-    dataset_kwargs:
-        config: chinese
-        token: True
-    task: "llava_in_the_wild_chinese"
-    test_split: train
-    output_type: generate_until
-    doc_to_visual: !function utils.llava_doc_to_visual
-    doc_to_text: !function utils.llava_doc_to_text
-    doc_to_target: "gpt_answer"
-    generation_kwargs:
-    until:
-        - "ASSISTANT:"
-    image_aspect_ratio: original
-    max_new_tokens: 1024
-    temperature: 0
-    top_p: 0
-    num_beams: 1
-    do_sample: false
-    process_results: !function utils.llava_process_results
-    metric_list:
-    - metric: gpt_eval_llava_all
-        aggregation: !function utils.llava_all_aggregation
-        higher_is_better: true
-    - metric: gpt_eval_llava_conv
-        aggregation: !function utils.llava_conv_aggregation
-        higher_is_better: true
-    - metric: gpt_eval_llava_detail
-        aggregation: !function utils.llava_detail_aggregation
-        higher_is_better: true
-    - metric: gpt_eval_llava_complex
-        aggregation: !function utils.llava_complex_aggregation
-        higher_is_better: true
-    metadata:
-    version: 0.0
-    gpt_eval_model_name: "gpt-4-0613"
-    model_specific_prompt_kwargs:
-    default:
-        pre_prompt: ""
-        post_prompt: ""
-
+dataset_path: "gagan3012/multilingual-llava-bench"
+dataset_kwargs:
+    config: chinese
+    token: True
+task: "llava_in_the_wild_chinese"
+include: _default_template.yaml
diff --git a/lmms_eval/tasks/multilingual-llava-bench-in-the-wild/french_llava_in_the_wild.yaml b/lmms_eval/tasks/multilingual-llava-bench-in-the-wild/french_llava_in_the_wild.yaml
@@ -1,42 +1,6 @@
-
-    dataset_path: "gagan3012/multilingual-llava-bench"
-    dataset_kwargs:
-        config: french
-        token: True
-    task: "llava_in_the_wild_french"
-    test_split: train
-    output_type: generate_until
-    doc_to_visual: !function utils.llava_doc_to_visual
-    doc_to_text: !function utils.llava_doc_to_text
-    doc_to_target: "gpt_answer"
-    generation_kwargs:
-    until:
-        - "ASSISTANT:"
-    image_aspect_ratio: original
-    max_new_tokens: 1024
-    temperature: 0
-    top_p: 0
-    num_beams: 1
-    do_sample: false
-    process_results: !function utils.llava_process_results
-    metric_list:
-    - metric: gpt_eval_llava_all
-        aggregation: !function utils.llava_all_aggregation
-        higher_is_better: true
-    - metric: gpt_eval_llava_conv
-        aggregation: !function utils.llava_conv_aggregation
-        higher_is_better: true
-    - metric: gpt_eval_llava_detail
-        aggregation: !function utils.llava_detail_aggregation
-        higher_is_better: true
-    - metric: gpt_eval_llava_complex
-        aggregation: !function utils.llava_complex_aggregation
-        higher_is_better: true
-    metadata:
-    version: 0.0
-    gpt_eval_model_name: "gpt-4-0613"
-    model_specific_prompt_kwargs:
-    default:
-        pre_prompt: ""
-        post_prompt: ""
-
+dataset_path: "gagan3012/multilingual-llava-bench"
+dataset_kwargs:
+    config: french
+    token: True
+task: "llava_in_the_wild_french"
+include: _default_template.yaml
diff --git a/lmms_eval/tasks/multilingual-llava-bench-in-the-wild/hindi_llava_in_the_wild.yaml b/lmms_eval/tasks/multilingual-llava-bench-in-the-wild/hindi_llava_in_the_wild.yaml
@@ -1,42 +1,6 @@
-
-    dataset_path: "gagan3012/multilingual-llava-bench"
-    dataset_kwargs:
-        config: hindi
-        token: True
-    task: "llava_in_the_wild_hindi"
-    test_split: train
-    output_type: generate_until
-    doc_to_visual: !function utils.llava_doc_to_visual
-    doc_to_text: !function utils.llava_doc_to_text
-    doc_to_target: "gpt_answer"
-    generation_kwargs:
-    until:
-        - "ASSISTANT:"
-    image_aspect_ratio: original
-    max_new_tokens: 1024
-    temperature: 0
-    top_p: 0
-    num_beams: 1
-    do_sample: false
-    process_results: !function utils.llava_process_results
-    metric_list:
-    - metric: gpt_eval_llava_all
-        aggregation: !function utils.llava_all_aggregation
-        higher_is_better: true
-    - metric: gpt_eval_llava_conv
-        aggregation: !function utils.llava_conv_aggregation
-        higher_is_better: true
-    - metric: gpt_eval_llava_detail
-        aggregation: !function utils.llava_detail_aggregation
-        higher_is_better: true
-    - metric: gpt_eval_llava_complex
-        aggregation: !function utils.llava_complex_aggregation
-        higher_is_better: true
-    metadata:
-    version: 0.0
-    gpt_eval_model_name: "gpt-4-0613"
-    model_specific_prompt_kwargs:
-    default:
-        pre_prompt: ""
-        post_prompt: ""
-
+dataset_path: "gagan3012/multilingual-llava-bench"
+dataset_kwargs:
+    config: hindi
+    token: True
+task: "llava_in_the_wild_hindi"
+include: _default_template.yaml
diff --git a/lmms_eval/tasks/multilingual-llava-bench-in-the-wild/japanese_llava_in_the_wild.yaml b/lmms_eval/tasks/multilingual-llava-bench-in-the-wild/japanese_llava_in_the_wild.yaml
@@ -1,42 +1,6 @@
-
-    dataset_path: "gagan3012/multilingual-llava-bench"
-    dataset_kwargs:
-        config: japanese
-        token: True
-    task: "llava_in_the_wild_japanese"
-    test_split: train
-    output_type: generate_until
-    doc_to_visual: !function utils.llava_doc_to_visual
-    doc_to_text: !function utils.llava_doc_to_text
-    doc_to_target: "gpt_answer"
-    generation_kwargs:
-    until:
-        - "ASSISTANT:"
-    image_aspect_ratio: original
-    max_new_tokens: 1024
-    temperature: 0
-    top_p: 0
-    num_beams: 1
-    do_sample: false
-    process_results: !function utils.llava_process_results
-    metric_list:
-    - metric: gpt_eval_llava_all
-        aggregation: !function utils.llava_all_aggregation
-        higher_is_better: true
-    - metric: gpt_eval_llava_conv
-        aggregation: !function utils.llava_conv_aggregation
-        higher_is_better: true
-    - metric: gpt_eval_llava_detail
-        aggregation: !function utils.llava_detail_aggregation
-        higher_is_better: true
-    - metric: gpt_eval_llava_complex
-        aggregation: !function utils.llava_complex_aggregation
-        higher_is_better: true
-    metadata:
-    version: 0.0
-    gpt_eval_model_name: "gpt-4-0613"
-    model_specific_prompt_kwargs:
-    default:
-        pre_prompt: ""
-        post_prompt: ""
-
+dataset_path: "gagan3012/multilingual-llava-bench"
+dataset_kwargs:
+    config: japanese
+    token: True
+task: "llava_in_the_wild_japanese"
+include: _default_template.yaml