diff --git a/AI/LSTM_attention_test.ipynb b/AI/LSTM_attention_test.ipynb
new file mode 100644
index 0000000..47e6cd6
--- /dev/null
+++ b/AI/LSTM_attention_test.ipynb
@@ -0,0 +1,1681 @@
+{
+ "nbformat": 4,
+ "nbformat_minor": 0,
+ "metadata": {
+ "colab": {
+ "provenance": [],
+ "gpuType": "T4"
+ },
+ "kernelspec": {
+ "name": "python3",
+ "display_name": "Python 3"
+ },
+ "language_info": {
+ "name": "python"
+ },
+ "accelerator": "GPU"
+ },
+ "cells": [
+ {
+ "cell_type": "code",
+ "execution_count": 39,
+ "metadata": {
+ "colab": {
+ "base_uri": "https://localhost:8080/"
+ },
+ "id": "Ix1Jbg_xWTxg",
+ "outputId": "2b5f0a6a-2634-47a4-e269-b72e64d74705"
+ },
+ "outputs": [
+ {
+ "output_type": "stream",
+ "name": "stdout",
+ "text": [
+ "Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount(\"/content/drive\", force_remount=True).\n"
+ ]
+ }
+ ],
+ "source": [
+ "from google.colab import drive\n",
+ "drive.mount('/content/drive')"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "import pandas as pd\n",
+ "import numpy as np\n",
+ "import os\n",
+ "import json\n",
+ "import csv\n",
+ "\n",
+ "TL_sentence_path = '/content/drive/MyDrive/LSTM+attention/sentence_dataTL.csv'\n",
+ "VL_sentence_path = '/content/drive/MyDrive/LSTM+attention/sentence_dataVL.csv'\n",
+ "\n",
+ "# data파일 불러오기\n",
+ "TL_sentence_data = pd.read_csv(TL_sentence_path, encoding='utf-8')\n",
+ "VL_sentence_data = pd.read_csv(VL_sentence_path, encoding='utf-8')\n",
+ "\n",
+ "# 중복 제거, Pronuncication 열은 필요 없다고 생각\n",
+ "TL_sentence_data.drop('Pronunciation', axis=1, inplace=True)\n",
+ "TL_sentence_data = TL_sentence_data.drop_duplicates().reset_index(drop=True)\n",
+ "VL_sentence_data.drop('Pronunciation', axis=1, inplace=True)\n",
+ "VL_sentence_data = VL_sentence_data.drop_duplicates().reset_index(drop=True)"
+ ],
+ "metadata": {
+ "id": "xPCQBU1BWfcw"
+ },
+ "execution_count": 40,
+ "outputs": []
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "TL_sentence_data[:5]"
+ ],
+ "metadata": {
+ "colab": {
+ "base_uri": "https://localhost:8080/",
+ "height": 206
+ },
+ "id": "UZGjs0aPXrCe",
+ "outputId": "b61a98c7-d756-401d-dec3-e4cbea4a68c4"
+ },
+ "execution_count": 41,
+ "outputs": [
+ {
+ "output_type": "execute_result",
+ "data": {
+ "text/plain": [
+ " Dialect \\\n",
+ "0 여기는 옥수갱이 잘 된다 카던디 옥수갱이 말고는 무신 농사를 많이 짓습니껴 \n",
+ "1 장례 관련해서 초상집 같은 데 가가 하지 말아야 데는 기 있습니껴 \n",
+ "2 예전에는 집 안에서 여자들이 남자 위로 띠넘으면 안 덴다 캤습니껴 \n",
+ "3 음식을 많이 장만하려고 하면 일손이 모자라서 음식하기가 안 힘들었습니까 \n",
+ "4 이 구두 하나만 계속 신고 댕기이꺼네 인자 굽이 많이 닳아서 갈아야 되겠네 \n",
+ "\n",
+ " Standard \n",
+ "0 여기는 옥수수 잘 된다 하던데 옥수수 말고는 무슨 농사를 많이 짓습니까 \n",
+ "1 장례 관련해서 초상집 같은 데 가서 하지 말아야 데는 게 있습니까 \n",
+ "2 예전에는 집 안에서 여자들이 남자 위로 뛰어넘으면 안 된다 했습니까 \n",
+ "3 음식을 많이 장만하려고 하면 일손이 모자라서 음식하기가 안 힘들었습니까 \n",
+ "4 이 구두 하나만 계속 신고 다니니까 이제 굽이 많이 닳아서 갈아야 되겠네 "
+ ],
+ "text/html": [
+ "\n",
+ "
\n",
+ "
\n",
+ "\n",
+ "
\n",
+ " \n",
+ " \n",
+ " | \n",
+ " Dialect | \n",
+ " Standard | \n",
+ "
\n",
+ " \n",
+ " \n",
+ " \n",
+ " 0 | \n",
+ " 여기는 옥수갱이 잘 된다 카던디 옥수갱이 말고는 무신 농사를 많이 짓습니껴 | \n",
+ " 여기는 옥수수 잘 된다 하던데 옥수수 말고는 무슨 농사를 많이 짓습니까 | \n",
+ "
\n",
+ " \n",
+ " 1 | \n",
+ " 장례 관련해서 초상집 같은 데 가가 하지 말아야 데는 기 있습니껴 | \n",
+ " 장례 관련해서 초상집 같은 데 가서 하지 말아야 데는 게 있습니까 | \n",
+ "
\n",
+ " \n",
+ " 2 | \n",
+ " 예전에는 집 안에서 여자들이 남자 위로 띠넘으면 안 덴다 캤습니껴 | \n",
+ " 예전에는 집 안에서 여자들이 남자 위로 뛰어넘으면 안 된다 했습니까 | \n",
+ "
\n",
+ " \n",
+ " 3 | \n",
+ " 음식을 많이 장만하려고 하면 일손이 모자라서 음식하기가 안 힘들었습니까 | \n",
+ " 음식을 많이 장만하려고 하면 일손이 모자라서 음식하기가 안 힘들었습니까 | \n",
+ "
\n",
+ " \n",
+ " 4 | \n",
+ " 이 구두 하나만 계속 신고 댕기이꺼네 인자 굽이 많이 닳아서 갈아야 되겠네 | \n",
+ " 이 구두 하나만 계속 신고 다니니까 이제 굽이 많이 닳아서 갈아야 되겠네 | \n",
+ "
\n",
+ " \n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n"
+ ],
+ "application/vnd.google.colaboratory.intrinsic+json": {
+ "type": "dataframe",
+ "summary": "{\n \"name\": \"TL_sentence_data[:5]\",\n \"rows\": 5,\n \"fields\": [\n {\n \"column\": \"Dialect\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 5,\n \"samples\": [\n \"\\uc7a5\\ub840 \\uad00\\ub828\\ud574\\uc11c \\ucd08\\uc0c1\\uc9d1 \\uac19\\uc740 \\ub370 \\uac00\\uac00 \\ud558\\uc9c0 \\ub9d0\\uc544\\uc57c \\ub370\\ub294 \\uae30 \\uc788\\uc2b5\\ub2c8\\uaef4\",\n \"\\uc774 \\uad6c\\ub450 \\ud558\\ub098\\ub9cc \\uacc4\\uc18d \\uc2e0\\uace0 \\ub315\\uae30\\uc774\\uaebc\\ub124 \\uc778\\uc790 \\uad7d\\uc774 \\ub9ce\\uc774 \\ub2f3\\uc544\\uc11c \\uac08\\uc544\\uc57c \\ub418\\uaca0\\ub124\",\n \"\\uc608\\uc804\\uc5d0\\ub294 \\uc9d1 \\uc548\\uc5d0\\uc11c \\uc5ec\\uc790\\ub4e4\\uc774 \\ub0a8\\uc790 \\uc704\\ub85c \\ub760\\ub118\\uc73c\\uba74 \\uc548 \\ub374\\ub2e4 \\ucea4\\uc2b5\\ub2c8\\uaef4\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Standard\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 5,\n \"samples\": [\n \"\\uc7a5\\ub840 \\uad00\\ub828\\ud574\\uc11c \\ucd08\\uc0c1\\uc9d1 \\uac19\\uc740 \\ub370 \\uac00\\uc11c \\ud558\\uc9c0 \\ub9d0\\uc544\\uc57c \\ub370\\ub294 \\uac8c \\uc788\\uc2b5\\ub2c8\\uae4c\",\n \"\\uc774 \\uad6c\\ub450 \\ud558\\ub098\\ub9cc \\uacc4\\uc18d \\uc2e0\\uace0 \\ub2e4\\ub2c8\\ub2c8\\uae4c \\uc774\\uc81c \\uad7d\\uc774 \\ub9ce\\uc774 \\ub2f3\\uc544\\uc11c \\uac08\\uc544\\uc57c \\ub418\\uaca0\\ub124\",\n \"\\uc608\\uc804\\uc5d0\\ub294 \\uc9d1 \\uc548\\uc5d0\\uc11c \\uc5ec\\uc790\\ub4e4\\uc774 \\ub0a8\\uc790 \\uc704\\ub85c \\ub6f0\\uc5b4\\ub118\\uc73c\\uba74 \\uc548 \\ub41c\\ub2e4 \\ud588\\uc2b5\\ub2c8\\uae4c\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n }\n ]\n}"
+ }
+ },
+ "metadata": {},
+ "execution_count": 41
+ }
+ ]
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "VL_sentence_data[:5]"
+ ],
+ "metadata": {
+ "colab": {
+ "base_uri": "https://localhost:8080/",
+ "height": 206
+ },
+ "id": "a0cWFdpxDKN7",
+ "outputId": "d47ecea6-b4fc-4d39-fd3c-d1d7369da953"
+ },
+ "execution_count": 42,
+ "outputs": [
+ {
+ "output_type": "execute_result",
+ "data": {
+ "text/plain": [
+ " Dialect \\\n",
+ "0 오랫동안 한 동네에서 살았던 할머니이제 도주식하면 매매 아프네요 \n",
+ "1 혈압약은 시간을 맞춰 챙겨 드셔야지 안 그러면 효과가 없습니다 \n",
+ "2 집에 돌아와 보이꺼네 문이 열려 있고 뼈다지가 열어둔 돈 전부 없어지던 어이떼 \n",
+ "3 아들 오늘 중요한 시험 보니까에 이 생엿 하고 사가꼬 먹고 힘내서 시험 잘 봐레이 \n",
+ "4 옛날부터 조상꿈이나 돼지꿈 꾸만 집에 돈 많이 들어온다고 좋아 해지로 \n",
+ "\n",
+ " Standard \n",
+ "0 오랫동안 한 동네에서 살았던 할머니인데 돌아가겨서 마음이 아프네요 \n",
+ "1 혈압약은 시간을 맞춰 챙겨 드셔야지 안 그러면 효과가 없습니다 \n",
+ "2 집에 돌아와 보니까 문이 열려 있고 서랍이 열어둔 돈 전부 없어지던 어이떼 \n",
+ "3 아들 오늘 중요한 시험 보니까 이 생 엿 하고 사서 먹고 힘내서 시험 잘 봐 \n",
+ "4 옛날부터 조상꿈이나 돼지꿈 꾸면 집에 돈 많이 들어온다고 좋아 했죠 "
+ ],
+ "text/html": [
+ "\n",
+ " \n",
+ "
\n",
+ "\n",
+ "
\n",
+ " \n",
+ " \n",
+ " | \n",
+ " Dialect | \n",
+ " Standard | \n",
+ "
\n",
+ " \n",
+ " \n",
+ " \n",
+ " 0 | \n",
+ " 오랫동안 한 동네에서 살았던 할머니이제 도주식하면 매매 아프네요 | \n",
+ " 오랫동안 한 동네에서 살았던 할머니인데 돌아가겨서 마음이 아프네요 | \n",
+ "
\n",
+ " \n",
+ " 1 | \n",
+ " 혈압약은 시간을 맞춰 챙겨 드셔야지 안 그러면 효과가 없습니다 | \n",
+ " 혈압약은 시간을 맞춰 챙겨 드셔야지 안 그러면 효과가 없습니다 | \n",
+ "
\n",
+ " \n",
+ " 2 | \n",
+ " 집에 돌아와 보이꺼네 문이 열려 있고 뼈다지가 열어둔 돈 전부 없어지던 어이떼 | \n",
+ " 집에 돌아와 보니까 문이 열려 있고 서랍이 열어둔 돈 전부 없어지던 어이떼 | \n",
+ "
\n",
+ " \n",
+ " 3 | \n",
+ " 아들 오늘 중요한 시험 보니까에 이 생엿 하고 사가꼬 먹고 힘내서 시험 잘 봐레이 | \n",
+ " 아들 오늘 중요한 시험 보니까 이 생 엿 하고 사서 먹고 힘내서 시험 잘 봐 | \n",
+ "
\n",
+ " \n",
+ " 4 | \n",
+ " 옛날부터 조상꿈이나 돼지꿈 꾸만 집에 돈 많이 들어온다고 좋아 해지로 | \n",
+ " 옛날부터 조상꿈이나 돼지꿈 꾸면 집에 돈 많이 들어온다고 좋아 했죠 | \n",
+ "
\n",
+ " \n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n"
+ ],
+ "application/vnd.google.colaboratory.intrinsic+json": {
+ "type": "dataframe",
+ "summary": "{\n \"name\": \"VL_sentence_data[:5]\",\n \"rows\": 5,\n \"fields\": [\n {\n \"column\": \"Dialect\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 5,\n \"samples\": [\n \"\\ud608\\uc555\\uc57d\\uc740 \\uc2dc\\uac04\\uc744 \\ub9de\\ucdb0 \\ucc59\\uaca8 \\ub4dc\\uc154\\uc57c\\uc9c0 \\uc548 \\uadf8\\ub7ec\\uba74 \\ud6a8\\uacfc\\uac00 \\uc5c6\\uc2b5\\ub2c8\\ub2e4\",\n \"\\uc61b\\ub0a0\\ubd80\\ud130 \\uc870\\uc0c1\\uafc8\\uc774\\ub098 \\ub3fc\\uc9c0\\uafc8 \\uafb8\\ub9cc \\uc9d1\\uc5d0 \\ub3c8 \\ub9ce\\uc774 \\ub4e4\\uc5b4\\uc628\\ub2e4\\uace0 \\uc88b\\uc544 \\ud574\\uc9c0\\ub85c\",\n \"\\uc9d1\\uc5d0 \\ub3cc\\uc544\\uc640 \\ubcf4\\uc774\\uaebc\\ub124 \\ubb38\\uc774 \\uc5f4\\ub824 \\uc788\\uace0 \\ubf08\\ub2e4\\uc9c0\\uac00 \\uc5f4\\uc5b4\\ub454 \\ub3c8 \\uc804\\ubd80 \\uc5c6\\uc5b4\\uc9c0\\ub358 \\uc5b4\\uc774\\ub5bc\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"Standard\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 5,\n \"samples\": [\n \"\\ud608\\uc555\\uc57d\\uc740 \\uc2dc\\uac04\\uc744 \\ub9de\\ucdb0 \\ucc59\\uaca8 \\ub4dc\\uc154\\uc57c\\uc9c0 \\uc548 \\uadf8\\ub7ec\\uba74 \\ud6a8\\uacfc\\uac00 \\uc5c6\\uc2b5\\ub2c8\\ub2e4\",\n \"\\uc61b\\ub0a0\\ubd80\\ud130 \\uc870\\uc0c1\\uafc8\\uc774\\ub098 \\ub3fc\\uc9c0\\uafc8 \\uafb8\\uba74 \\uc9d1\\uc5d0 \\ub3c8 \\ub9ce\\uc774 \\ub4e4\\uc5b4\\uc628\\ub2e4\\uace0 \\uc88b\\uc544 \\ud588\\uc8e0\",\n \"\\uc9d1\\uc5d0 \\ub3cc\\uc544\\uc640 \\ubcf4\\ub2c8\\uae4c \\ubb38\\uc774 \\uc5f4\\ub824 \\uc788\\uace0 \\uc11c\\ub78d\\uc774 \\uc5f4\\uc5b4\\ub454 \\ub3c8 \\uc804\\ubd80 \\uc5c6\\uc5b4\\uc9c0\\ub358 \\uc5b4\\uc774\\ub5bc\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n }\n ]\n}"
+ }
+ },
+ "metadata": {},
+ "execution_count": 42
+ }
+ ]
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "standard_sentences_TL = TL_sentence_data['Standard']\n",
+ "dialect_sentences_TL = TL_sentence_data['Dialect']\n",
+ "standard_sentences_VL = VL_sentence_data['Standard']\n",
+ "dialect_sentences_VL = VL_sentence_data['Dialect']"
+ ],
+ "metadata": {
+ "id": "jlxCy4d3WyDB"
+ },
+ "execution_count": 43,
+ "outputs": []
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "standard_sentences_TL[:5]"
+ ],
+ "metadata": {
+ "colab": {
+ "base_uri": "https://localhost:8080/"
+ },
+ "id": "aj-awCcGFReV",
+ "outputId": "4cf3e645-11c4-4450-9615-0926f2306167"
+ },
+ "execution_count": 44,
+ "outputs": [
+ {
+ "output_type": "execute_result",
+ "data": {
+ "text/plain": [
+ "0 여기는 옥수수 잘 된다 하던데 옥수수 말고는 무슨 농사를 많이 짓습니까\n",
+ "1 장례 관련해서 초상집 같은 데 가서 하지 말아야 데는 게 있습니까\n",
+ "2 예전에는 집 안에서 여자들이 남자 위로 뛰어넘으면 안 된다 했습니까\n",
+ "3 음식을 많이 장만하려고 하면 일손이 모자라서 음식하기가 안 힘들었습니까\n",
+ "4 이 구두 하나만 계속 신고 다니니까 이제 굽이 많이 닳아서 갈아야 되겠네\n",
+ "Name: Standard, dtype: object"
+ ]
+ },
+ "metadata": {},
+ "execution_count": 44
+ }
+ ]
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "dialect_sentences_TL[:5]"
+ ],
+ "metadata": {
+ "colab": {
+ "base_uri": "https://localhost:8080/"
+ },
+ "id": "Ctrb-c6hFWAX",
+ "outputId": "6340fc72-eb4e-4ab8-9757-cabea9479748"
+ },
+ "execution_count": 45,
+ "outputs": [
+ {
+ "output_type": "execute_result",
+ "data": {
+ "text/plain": [
+ "0 여기는 옥수갱이 잘 된다 카던디 옥수갱이 말고는 무신 농사를 많이 짓습니껴\n",
+ "1 장례 관련해서 초상집 같은 데 가가 하지 말아야 데는 기 있습니껴\n",
+ "2 예전에는 집 안에서 여자들이 남자 위로 띠넘으면 안 덴다 캤습니껴\n",
+ "3 음식을 많이 장만하려고 하면 일손이 모자라서 음식하기가 안 힘들었습니까\n",
+ "4 이 구두 하나만 계속 신고 댕기이꺼네 인자 굽이 많이 닳아서 갈아야 되겠네\n",
+ "Name: Dialect, dtype: object"
+ ]
+ },
+ "metadata": {},
+ "execution_count": 45
+ }
+ ]
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "# 학습 데이터 중에서 겹치는 표준어 문장과 방언 문장 제거\n",
+ "filtered_data_TR = {\n",
+ " \"src\": [],\n",
+ " \"tar\": []\n",
+ "}\n",
+ "\n",
+ "for i in range(0, len(dialect_sentences_TL)):\n",
+ " if (standard_sentences_TL[i] != dialect_sentences_TL[i]):\n",
+ " filtered_data_TR[\"src\"].append(dialect_sentences_TL[i])\n",
+ " filtered_data_TR[\"tar\"].append(standard_sentences_TL[i])\n",
+ "\n",
+ "filtered_df_TR = pd.DataFrame(filtered_data_TR)\n",
+ "\n",
+ "print(filtered_df_TR[:10])\n",
+ "print(len(filtered_df_TR))"
+ ],
+ "metadata": {
+ "colab": {
+ "base_uri": "https://localhost:8080/"
+ },
+ "id": "GEIz3cMTXc76",
+ "outputId": "094b4095-e589-401a-ea7b-1d882bdd5963"
+ },
+ "execution_count": 46,
+ "outputs": [
+ {
+ "output_type": "stream",
+ "name": "stdout",
+ "text": [
+ " src \\\n",
+ "0 여기는 옥수갱이 잘 된다 카던디 옥수갱이 말고는 무신 농사를 많이 짓습니껴 \n",
+ "1 장례 관련해서 초상집 같은 데 가가 하지 말아야 데는 기 있습니껴 \n",
+ "2 예전에는 집 안에서 여자들이 남자 위로 띠넘으면 안 덴다 캤습니껴 \n",
+ "3 이 구두 하나만 계속 신고 댕기이꺼네 인자 굽이 많이 닳아서 갈아야 되겠네 \n",
+ "4 콩이파리는 가시가 있어가 꺼끄럽고 뻣뻣하고 묵어 보면 맛이 없어예 \n",
+ "5 여기에는 옥수갱이가 잘 된다 카던디 옥수갱이 말고는 무신 농사를 마이 짓습니껴 \n",
+ "6 여개는 옥수갱이가 잘 된다 카던디 옥수갱이 말고는 무신 농사를 마이 짓습니껴 \n",
+ "7 음식 먹으만 계속 설사하고 토하고 할 때는 물 많이 잡수고 병원에 가봐야 합니데이 \n",
+ "8 논두렁에 전선이 늘어져 있거나 정전이 됐을 때 두꺼비 집을 무짜로 만지만 위험합니더 \n",
+ "9 딱꾹지를 멈치지도 않고 점들 하는디 이럴 때는 우예 해야 합니껴 \n",
+ "\n",
+ " tar \n",
+ "0 여기는 옥수수 잘 된다 하던데 옥수수 말고는 무슨 농사를 많이 짓습니까 \n",
+ "1 장례 관련해서 초상집 같은 데 가서 하지 말아야 데는 게 있습니까 \n",
+ "2 예전에는 집 안에서 여자들이 남자 위로 뛰어넘으면 안 된다 했습니까 \n",
+ "3 이 구두 하나만 계속 신고 다니니까 이제 굽이 많이 닳아서 갈아야 되겠네 \n",
+ "4 콩잎은 가시가 있어서 껄끄럽고 뻣뻣하고 먹어 보면 맛이 없어요 \n",
+ "5 여기에는 옥수수가 잘 된다 하던데 옥수수 말고는 무슨 농사를 많이 짓습니까 \n",
+ "6 여기는 옥수수가 잘 된다 하던데 옥수수 말고는 무슨 농사를 많이 짓습니까 \n",
+ "7 음식 먹으면 계속 설사하고 토하고 할 때는 물 많이 잡수고 병원에 가봐야 합니다 \n",
+ "8 논두렁에 전선이 늘어져 있거나 정전이 됐을 때 두꺼비 집을 함부로 만지면 위험합니다 \n",
+ "9 딱꾹지를 멈추지도 않고 점들 하는데 이럴 때는 어떻게 해야 합니까 \n",
+ "211878\n"
+ ]
+ }
+ ]
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "# 검증 데이터 중에서 겹치는 표준어 문장과 방언 문장 제거\n",
+ "filtered_data_VL = {\n",
+ " \"src\": [],\n",
+ " \"tar\": []\n",
+ "}\n",
+ "\n",
+ "for i in range(0, len(dialect_sentences_VL)):\n",
+ " if (standard_sentences_VL[i] != dialect_sentences_VL[i]):\n",
+ " filtered_data_VL[\"src\"].append(dialect_sentences_VL[i])\n",
+ " filtered_data_VL[\"tar\"].append(standard_sentences_VL[i])\n",
+ "\n",
+ "filtered_df_VL = pd.DataFrame(filtered_data_VL)\n",
+ "\n",
+ "print(filtered_df_VL[:10])\n",
+ "print(len(filtered_df_VL))"
+ ],
+ "metadata": {
+ "colab": {
+ "base_uri": "https://localhost:8080/"
+ },
+ "id": "kv006ObsFwYF",
+ "outputId": "98d2caf3-6d41-46d2-d33c-871d77841043"
+ },
+ "execution_count": 47,
+ "outputs": [
+ {
+ "output_type": "stream",
+ "name": "stdout",
+ "text": [
+ " src \\\n",
+ "0 오랫동안 한 동네에서 살았던 할머니이제 도주식하면 매매 아프네요 \n",
+ "1 집에 돌아와 보이꺼네 문이 열려 있고 뼈다지가 열어둔 돈 전부 없어지던 어이떼 \n",
+ "2 아들 오늘 중요한 시험 보니까에 이 생엿 하고 사가꼬 먹고 힘내서 시험 잘 봐레이 \n",
+ "3 옛날부터 조상꿈이나 돼지꿈 꾸만 집에 돈 많이 들어온다고 좋아 해지로 \n",
+ "4 게얼에 먹을 채소나 과일 같은 것은 어데 보관을 했습니꺼 \n",
+ "5 촌구숙이라 젊은 사람들은 함부레 없고 전부 노인들만 있으이꺼네 농사 짓기가 힘들어요 \n",
+ "6 촌구석이라 젊은 사람들은 한 번이 없고 전부 노인들만 있으니까네 농사 짓기가 힘들어요 \n",
+ "7 소도 사람맨치로 잘 먹어야 근육도 붙고 심도 생겨서 일을 잘 하지로 \n",
+ "8 소도 사람 맨치로 잘 먹어야 근육도 붇고 힘도 생겨서 일을 잘 하지요 \n",
+ "9 옷가심을 짜를 때는 미리 선을 끟어 놓아야 쪽바리 잘 자를 수 있어예 \n",
+ "\n",
+ " tar \n",
+ "0 오랫동안 한 동네에서 살았던 할머니인데 돌아가겨서 마음이 아프네요 \n",
+ "1 집에 돌아와 보니까 문이 열려 있고 서랍이 열어둔 돈 전부 없어지던 어이떼 \n",
+ "2 아들 오늘 중요한 시험 보니까 이 생 엿 하고 사서 먹고 힘내서 시험 잘 봐 \n",
+ "3 옛날부터 조상꿈이나 돼지꿈 꾸면 집에 돈 많이 들어온다고 좋아 했죠 \n",
+ "4 겨울에 먹을 채소나 과일 같은 것은 어디에 보관을 했습니까 \n",
+ "5 촌구석이라 젊은 사람들은 아예 없고 전부 노인들만 있으니까 농사 짓기가 힘들어요 \n",
+ "6 촌구석이라 젊은 사람들은 한 번이 없고 전부 노인들만 있으니까 농사 짓기가 힘들어요 \n",
+ "7 소도 사람처럼 잘 먹어야 근육도 붙고 힘도 생겨서 일을 잘 하지요 \n",
+ "8 소도 사람 처럼 잘 먹어야 근육도 붇고 힘도 생겨서 일을 잘 하지요 \n",
+ "9 옷감을 자를 때는 미리 선을 그어 놓아야 똑바로 잘 자를 수 있어요 \n",
+ "27509\n"
+ ]
+ }
+ ]
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "import matplotlib\n",
+ "import matplotlib.pyplot as plt\n",
+ "\n",
+ "# 문장 길이 계산\n",
+ "def sentenceLengths(sentences):\n",
+ " return [len(sentence.split(' ')) for sentence in sentences]"
+ ],
+ "metadata": {
+ "id": "OFCJmuqdOo6m"
+ },
+ "execution_count": 48,
+ "outputs": []
+ },
+ {
+ "cell_type": "code",
+ "source": [
+ "plt.hist(sentenceLengths(filtered_data_TR['src']), bins=10)\n",
+ "plt.xlabel('length of dialect')\n",
+ "plt.ylabel('number of dialect')\n",
+ "plt.show()"
+ ],
+ "metadata": {
+ "colab": {
+ "base_uri": "https://localhost:8080/",
+ "height": 449
+ },
+ "id": "-zqR5FSPpN3X",
+ "outputId": "8c626b82-8e48-4504-f14a-98261e591f3f"
+ },
+ "execution_count": 49,
+ "outputs": [
+ {
+ "output_type": "display_data",
+ "data": {
+ "text/plain": [
+ "