mymusise · zwkkk · Apr 3, 2023 · mymusise · Apr 7, 2023 · mymusise
diff --git a/.DS_Store b/.DS_Store
diff --git a/infer.ipynb b/infer.ipynb
@@ -134,26 +134,25 @@
     "    for idx, item in enumerate(instructions[:3]):\n",
     "        feature = format_example(item)\n",
     "        input_text = feature['context']\n",
-    "        ids = tokenizer.encode(input_text)\n",
-    "        input_ids = torch.LongTensor([ids])\n",
-    "        out = model.generate(\n",
-    "            input_ids=input_ids,\n",
-    "            max_length=150,\n",
-    "            do_sample=False,\n",
-    "            temperature=0\n",
-    "        )\n",
-    "        out_text = tokenizer.decode(out[0])\n",
-    "        answer = out_text.replace(input_text, \"\").replace(\"\\nEND\", \"\").strip()\n",
+    "        input_ids = tokenizer.encode(input_text, return_tensors=\"pt\")\n",
+    "        inputs = model.prepare_inputs_for_generation(input_ids)\n",
+    "        for k,v in inputs.items():\n",
+    "            if v is not None:\n",
+    "                inputs[k] = v.to(\"cuda\")\n",
+    "        outputs = model.generate(**inputs, max_length=512, eos_token_id=tokenizer.eop_token_id)\n",
+    "        out = outputs[0].tolist()[input_ids.size()[-1]:]\n",
+    "        answer = tokenizer.decode(out)\n",
     "        item['infer_answer'] = answer\n",
-    "        print(out_text)\n",
+    "        print(input_text)\n",
+    "        print(answer)\n",
     "        print(f\"### {idx+1}.Answer:\\n\", item.get('output'), '\\n\\n')\n",
     "        answers.append({'index': idx, **item})"
    ]
   }
  ],
  "metadata": {
   "kernelspec": {
-   "display_name": "venv",
+   "display_name": "Python 3.9.6 64-bit",
    "language": "python",
    "name": "python3"
   },
@@ -167,12 +166,12 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.8.12"
+   "version": "3.9.6"
   },
   "orig_nbformat": 4,
   "vscode": {
    "interpreter": {
-    "hash": "25273a2a68c96ebac13d7fb9e0db516f9be0772777a0507fe06d682a441a3ba7"
+    "hash": "31f2aee4e71d21fbe5cf8b01ff0e069b9275f58929596ceb00d14d90e3e16cd6"
    }
   }
  },

diff --git a/tokenize_dataset_rows.py b/tokenize_dataset_rows.py
@@ -9,13 +9,15 @@
 def preprocess(tokenizer, config, example, max_seq_length):
     prompt = example["context"]
     target = example["target"]
-    prompt_ids = tokenizer.encode(prompt, max_length=max_seq_length, truncation=True)
+    prompt_ids = tokenizer.encode(prompt, max_length=max_seq_length, truncation=True,return_attention_mask=False,
+                add_special_tokens=False)
     target_ids = tokenizer.encode(
         target,
         max_length=max_seq_length,
         truncation=True,
+        return_attention_mask=False,
         add_special_tokens=False)
-    input_ids = prompt_ids + target_ids + [config.eos_token_id]
+    input_ids = prompt_ids + [150001, 150004] + target_ids + [150005]
     return {"input_ids": input_ids, "seq_len": len(prompt_ids)}