Add MCTest and MCTACO (#1197)

* add mctest and mctaco * Update mctaco.py * add task to suppported tasks
nyu-mll · Oct 29, 2020 · c00360f · c00360f
1 parent 76e2826
commit c00360f
Show file tree

Hide file tree

Showing 5 changed files with 246 additions and 1 deletion.
diff --git a/guides/tasks/supported_tasks.md b/guides/tasks/supported_tasks.md
@@ -4,6 +4,8 @@
 
 | Name | `task_name` | `jiant` | Downloader | `jiant_task_name` | Misc |
 |---|---|:---:|:---:|---|---|
+| MCTACO | mctaco | ✅ | | mctaco | |
+| MCTest | mctest160 or mctest500 | ✅ | | mctest | |
 | [Argument Reasoning Comprehension](https://arxiv.org/abs/1708.01425) | arct | ✅ | | arct | [Github](https://github.com/UKPLab/argument-reasoning-comprehension-task) |
 | Abductive NLI | abductive_nli | ✅ | ✅ | abductive_nli | |
 | SuperGLUE Winogender Diagnostic | superglue_axg | ✅ | ✅ | superglue_axg | SuperGLUE |

diff --git a/jiant/tasks/evaluate/core.py b/jiant/tasks/evaluate/core.py
@@ -73,7 +73,7 @@ def update(self, batch_logits, batch_loss, batch, batch_metadata):
  self.logits_list.append(batch_logits)
  batch_guid = batch_metadata.get("guid")
  if batch_guid is not None:
- self.guid_list.append(batch_guid)
+ self.guid_list.extend(batch_guid)
 
  def get_guids(self):
  if self.guid_list:
@@ -261,6 +261,48 @@ def compute_metrics_from_preds_and_labels(cls, preds, labels):
  return Metrics(major=acc, minor={"acc": acc})
 
 
+class MCTACOEvaluationScheme(BaseLogitsEvaluationScheme):
+ @classmethod
+ def get_preds_from_accumulator(self, task, accumulator):
+ logits = accumulator.get_accumulated()
+ pred = np.argmax(logits, axis=1)
+ guid = accumulator.guid_list
+ return guid, pred
+
+ @classmethod
+ def compute_metrics_from_accumulator(self, task, accumulator, tokenizer, labels) -> Metrics:
+ guid, pred = self.get_preds_from_accumulator(task=task, accumulator=accumulator)
+ em_ls = []
+ f1_ls = []
+ label_pred_by_question = {}
+
+ for one_guid, one_pred, one_label in zip(guid, pred, labels):
+ split, question_id, example_id = one_guid.split("-")
+ if question_id not in label_pred_by_question:
+ label_pred_by_question[question_id] = [], []
+ label_pred_by_question[question_id][0].append(one_label)
+ label_pred_by_question[question_id][1].append(one_pred)
+
+ em_ls = [
+ float(group_label == group_pred)
+ for group_label, group_pred in label_pred_by_question.values()
+ ]
+ f1_ls = [
+ f1_score(y_true=group_label, y_pred=group_pred)
+ for group_label, group_pred in label_pred_by_question.values()
+ ]
+
+ em = sum(em_ls) / len(em_ls)
+ f1 = sum(f1_ls) / len(f1_ls)
+ minor = {
+ "em": em,
+ "f1": f1,
+ "f1_em": (f1 + em) / 2,
+ }
+ metrics = Metrics(major=minor["f1_em"], minor=minor,)
+ return metrics
+
+
 class MultiLabelAccAndF1EvaluationScheme(BaseLogitsEvaluationScheme):
  def get_labels_from_cache_and_examples(self, task, cache, examples):
  return get_multi_label_ids_from_cache(cache=cache)
@@ -935,6 +977,8 @@ def get_evaluation_scheme_for_task(task) -> BaseEvaluationScheme:
  ),
  ):
  return SimpleAccuracyEvaluationScheme()
+ elif isinstance(task, tasks.MCTACOTask):
+ return MCTACOEvaluationScheme()
  elif isinstance(task, tasks.CCGTask):
  return CCGEvaluationScheme()
  elif isinstance(task, tasks.CommitmentBankTask):
@@ -953,6 +997,7 @@ def get_evaluation_scheme_for_task(task) -> BaseEvaluationScheme:
  tasks.MutualTask,
  tasks.MutualPlusTask,
  tasks.SocialIQATask,
+ tasks.MCTestTask,
  ),
  ):
  return MultipleChoiceAccuracyEvaluationScheme()

diff --git a/jiant/tasks/lib/mctaco.py b/jiant/tasks/lib/mctaco.py
@@ -0,0 +1,116 @@
+import numpy as np
+import torch
+from dataclasses import dataclass
+from typing import List
+
+from jiant.tasks.core import (
+ BaseExample,
+ BaseTokenizedExample,
+ BaseDataRow,
+ BatchMixin,
+ Task,
+ TaskTypes,
+)
+from jiant.tasks.lib.templates.shared import double_sentence_featurize, labels_to_bimap
+from jiant.utils.python.io import read_file_lines
+
+
+@dataclass
+class Example(BaseExample):
+ guid: str
+ sentence_question: str
+ answer: str
+ label: str
+
+ def tokenize(self, tokenizer):
+ return TokenizedExample(
+ guid=self.guid,
+ sentence_question=tokenizer.tokenize(self.sentence_question),
+ answer=tokenizer.tokenize(self.answer),
+ label_id=MCTACOTask.LABEL_TO_ID[self.label],
+ )
+
+
+@dataclass
+class TokenizedExample(BaseTokenizedExample):
+ guid: str
+ sentence_question: List
+ answer: List
+ label_id: int
+
+ def featurize(self, tokenizer, feat_spec):
+ return double_sentence_featurize(
+ guid=self.guid,
+ input_tokens_a=self.sentence_question,
+ input_tokens_b=self.answer,
+ label_id=self.label_id,
+ tokenizer=tokenizer,
+ feat_spec=feat_spec,
+ data_row_class=DataRow,
+ )
+
+
+@dataclass
+class DataRow(BaseDataRow):
+ guid: str
+ input_ids: np.ndarray
+ input_mask: np.ndarray
+ segment_ids: np.ndarray
+ label_id: int
+ tokens: list
+
+
+@dataclass
+class Batch(BatchMixin):
+ input_ids: torch.LongTensor
+ input_mask: torch.LongTensor
+ segment_ids: torch.LongTensor
+ label_id: torch.LongTensor
+ tokens: list
+
+
+class MCTACOTask(Task):
+ Example = Example
+ TokenizedExample = TokenizedExample
+ DataRow = DataRow
+ Batch = Batch
+
+ TASK_TYPE = TaskTypes.CLASSIFICATION
+ LABELS = ["yes", "no"]
+ LABEL_TO_ID, ID_TO_LABEL = labels_to_bimap(LABELS)
+
+ def get_train_examples(self):
+ return self._create_examples(
+ lines=read_file_lines(self.train_path, strip_lines=True), set_type="train"
+ )
+
+ def get_val_examples(self):
+ return self._create_examples(
+ lines=read_file_lines(self.val_path, strip_lines=True), set_type="val"
+ )
+
+ def get_test_examples(self):
+ return self._create_examples(
+ lines=read_file_lines(self.test_path, strip_lines=True), set_type="test"
+ )
+
+ @classmethod
+ def _create_examples(cls, lines, set_type):
+ # noinspection DuplicatedCode
+ examples = []
+ last_question = ""
+ question_count = -1
+ for (i, line) in enumerate(lines):
+ sentence, question, answer, label, category = line.split("\t")
+ if last_question != question:
+ question_count += 1
+ last_question = question
+ examples.append(
+ Example(
+ guid="%s-q%s-%s" % (set_type, question_count, i),
+ sentence_question=sentence + question,
+ answer=answer,
+ label=label if set_type != "test" else cls.LABELS[-1],
+ )
+ )
+ return examples
diff --git a/jiant/tasks/lib/mctest.py b/jiant/tasks/lib/mctest.py
@@ -0,0 +1,78 @@
+from dataclasses import dataclass
+
+from jiant.tasks.lib.templates.shared import labels_to_bimap
+from jiant.tasks.lib.templates import multiple_choice as mc_template
+from jiant.utils.python.io import read_file_lines
+
+
+@dataclass
+class Example(mc_template.Example):
+ @property
+ def task(self):
+ return MCTestTask
+
+
+@dataclass
+class TokenizedExample(mc_template.TokenizedExample):
+ pass
+
+
+@dataclass
+class DataRow(mc_template.DataRow):
+ pass
+
+
+@dataclass
+class Batch(mc_template.Batch):
+ pass
+
+
+class MCTestTask(mc_template.AbstractMultipleChoiceTask):
+ Example = Example
+ TokenizedExample = TokenizedExample
+ DataRow = DataRow
+ Batch = Batch
+
+ CHOICE_KEYS = ["A", "B", "C", "D"]
+ CHOICE_TO_ID, ID_TO_CHOICE = labels_to_bimap(CHOICE_KEYS)
+ NUM_CHOICES = len(CHOICE_KEYS)
+
+ def get_train_examples(self):
+ return self._create_examples(
+ lines=read_file_lines(self.train_path, strip_lines=True),
+ ans_lines=read_file_lines(self.path_dict["train_ans"], strip_lines=True),
+ set_type="train",
+ )
+
+ def get_val_examples(self):
+ return self._create_examples(
+ lines=read_file_lines(self.val_path, strip_lines=True),
+ ans_lines=read_file_lines(self.path_dict["val_ans"], strip_lines=True),
+ set_type="val",
+ )
+
+ def get_test_examples(self):
+ return self._create_examples(
+ lines=read_file_lines(self.test_path, strip_lines=True),
+ ans_lines=None,
+ set_type="test",
+ )
+
+ @classmethod
+ def _create_examples(cls, lines, ans_lines, set_type):
+ examples = []
+ if ans_lines is None:
+ ans_lines = ["\t".join([cls.CHOICE_KEYS[-1]] * 4) for line in lines]
+ for i, (line, ans) in enumerate(zip(lines, ans_lines)):
+ line = line.split("\t")
+ ans = ans.split("\t")
+ for j in range(4):
+ examples.append(
+ Example(
+ guid="%s-%s" % (set_type, i * 4 + j),
+ prompt=line[2].replace("\\newline", " ") + " " + line[3 + j * 5],
+ choice_list=line[4 + j * 5 : 8 + j * 5],
+ label=ans[j],
+ )
+ )
+ return examples
diff --git a/jiant/tasks/retrieval.py b/jiant/tasks/retrieval.py
@@ -20,6 +20,8 @@
 from jiant.tasks.lib.edge_probing.dpr import DprTask
 from jiant.tasks.lib.glue_diagnostics import GlueDiagnosticsTask
 from jiant.tasks.lib.hellaswag import HellaSwagTask
+from jiant.tasks.lib.mctaco import MCTACOTask
+from jiant.tasks.lib.mctest import MCTestTask
 from jiant.tasks.lib.mlm_simple import MLMSimpleTask
 from jiant.tasks.lib.mlm_premasked import MLMPremaskedTask
 from jiant.tasks.lib.mlm_pretokenized import MLMPretokenizedTask
@@ -94,6 +96,8 @@
  "dpr": DprTask,
  "glue_diagnostics": GlueDiagnosticsTask,
  "hellaswag": HellaSwagTask,
+ "mctaco": MCTACOTask,
+ "mctest": MCTestTask,
  "mlm_simple": MLMSimpleTask,
  "mlm_premasked": MLMPremaskedTask,
  "mlm_pretokenized": MLMPretokenizedTask,