diff --git a/en-docs/corpuslist/aihub_translation.md b/en-docs/corpuslist/aihub_translation.md index 55a8062..5f9717f 100644 --- a/en-docs/corpuslist/aihub_translation.md +++ b/en-docs/corpuslist/aihub_translation.md @@ -4,33 +4,33 @@ sort: 20 # AI Hub Ko-En Parallel Corpus -AI Hub 한국어-영어 번역 말뭉치는 AI Hub가 공개한 데이터입니다. -데이터 정보는 다음과 같습니다. +AI Hub Ko-En Parallel Corpus is the data released by AI Hub. +Data specification is as follows: - author: AI Hub - repository: [https://aihub.or.kr/aidata/87](https://aihub.or.kr/aidata/87) - references: [document](https://aihub.or.kr/sites/default/files/dataGuideline/01.%20%ED%95%9C%EC%98%81%20%EB%B2%88%EC%97%AD%20%EB%A7%90%EB%AD%89%EC%B9%98%20AI%20%EB%8D%B0%EC%9D%B4%ED%84%B0%20%EA%B5%AC%EC%B6%95%20%EA%B0%80%EC%9D%B4%EB%93%9C%EB%9D%BC%EC%9D%B8.pdf) - size: -| 데이터 종류 | 속성 | 데이터 갯수 | +| Data | Property | Volume | | --- | --- | --- | -| 구어(spoken) | train | 400,000 | -| 대화(conversation) | train | 100,000 | -| 뉴스(news) | train | 801,387 | -| 한국 문화(Korean culture) | train | 100,646 | -| 조례(decree) | train | 100,298 | -| 지자체웹사이트(government website) | train | 100,087 | +| Spoken language | train | 400,000 | +| Conversation | train | 100,000 | +| News | train | 801,387 | +| Korean culture | train | 100,646 | +| Decree | train | 100,298 | +| Government website | train | 100,087 | | TOTAL | train | 1,602,418 | ```warning -AI Hub 한국어-영어 번역 말뭉치는 라이센스 문제로 `Korpora` 패키지에서는 다운로드 기능을 제공하지 않고 로드 기능만 제공합니다. -해당 말뭉치를 사용하고 싶다면 [AI Hub](https://www.aihub.or.kr) 안내대로 인증 과정을 거쳐 수작업으로 말뭉치를 내려받아야 합니다. -한편 AI Hub 에서 제공하는 번역데이터는 압축파일 또는 엑셀파일 (확장자: xlsx) 형식입니다. -압축 해제 시 파일 이름이 한글로 되어 있습니다. -파일 이름을 한글로 기록할 경우 OS에 따라 예상치 못한 문제들이 발생할 수 있습니다. -`Korpora` 패키지에서는 말뭉치를 다운로드 받은 뒤 각 파일의 이름을 아래처럼 영어로 변경하였다고 가정합니다. - -| 한글 파일 이름 | 영어 파일 이름 | +Due to the license issue, in `Korpora' package, only the loading is provided for AI Hub Ko-En Parallel Corpus, not the downloading. +If you want to use the corpus, it should be downloaded manually from [AI Hub](https://www.aihub.or.kr), guided by the verification process. +Also, the translation data from AI Hub is in the file format of compressed or excel (.xlsx). +If the files are unzipped, the names are in Hangul, the letter for the Korean language. +Hangul in the file names might incur unexpected problems depending on the operating systems. +Thus, in `Korpora`, it is assumed that the corpus is downloaded and all the file names are modified to Latin alphabet as below. + +| Hangul file name | Latin alphabet file name | | --- | --- | | 1_구어체(1)_200226.xlsx | 1_spoken(1)_200226.xlsx | | 1_구어체(2)_200226.xlsx | 1_spoken(2)_200226.xlsx | @@ -44,9 +44,9 @@ AI Hub 한국어-영어 번역 말뭉치는 라이센스 문제로 `Korpora` 패 | 6_문어체_지자체웹사이트_200226.xlsx | 6_government_website_200226.xlsx | ``` -## 전체 데이터를 한번에 모두 읽기 +## Reading the whole data at once -AI Hub 한국어-영어 번역 말뭉치 전체를 파이썬 콘솔에서 읽어들이는 예제는 다음과 같습니다. +The example script for reading the whole AI Hub Ko-En Parallel Corpus in Python console is as follows: ```python from Korpora import Korpora @@ -54,12 +54,12 @@ corpus = Korpora.load("aihub_translation") ``` ```warning -위의 코드 예제는 해당 말뭉치가 `~/Korpora/AIHub_translation`에 압축이 해제된 상태로 존재하는 걸 전제로 작동합니다. -만일 루트 다렉토리가 `~/Korpora`와 다를 경우 `load` 함수 호출시 `root_dir=custom_path` 인자를 추가하시기 바랍니다. +The code above operates given the corpus is present unzipped in `~/Korpora/AIHub_translation`. +If the root directory differs from `~/Korpora`, please add `root_dir=custom_path` as you call `load` function. ``` -다음과 같이 실행해도 AI Hub 한국어-영어 번역 말뭉치 전체를 읽어들일 수 있습니다. -수행 결과는 위의 코드와 동일합니다. +You can also read AI Hub Ko-En Parallel Corpus as below; +the result is the same as the above operation. ```python from Korpora import AIHubTranslationKorpus @@ -67,12 +67,12 @@ corpus = AIHubTranslationKorpus() ``` ```warning -위의 코드는 해당 말뭉치가 사용자의 로컬 컴퓨터 루트 하위의 `~/Korpora/AIHub_translation` 디렉토리에 압축이 해제된 상태로 존재하는 걸 전제로 작동합니다. -만일 다른 디렉토리에 말뭉치가 존재한다면 `AIHubTranslationKorpus` 클래스 선언시 `root_dir_or_paths=custom_path` 인자를 추가하시기 바랍니다. +The code above operates given the corpus is present unzipped in the directory `~/Korpora/AIHub_translation` which is under the user's local computer root. +If the corpus exists in other directory, please add `root_dir_or_paths=custom_path` as you declare the class `AIHubTranslationKorpus`. ``` -위 코드 둘 중 하나를 택해 실행하면 `corpus`라는 변수에 말뭉치를 로드합니다. -`train`은 AI Hub 한국어-영어 번역 말뭉치의 train 데이터로 첫번째 인스턴스는 다음과 같이 확인할 수 있습니다. +Select and execute one between the above two codes, and the copus is assigned to the variable `corpus`. +`train` denotes the train data of AI Hub Ko-En Parallel Corpus, and you can check the first instance as: ``` >>> corpus.train[0] @@ -83,9 +83,9 @@ SentencePair(text="'Bible Coloring'은 성경의 아름다운 이야기를 체 Bible Coloring' is a coloring application that allows you to experience beautiful stories in the Bible. ``` -## 구어 데이터만 읽기 +## Reading only Spoken language data -AI Hub 한국어-영어 번역 말뭉치 가운데 구어 데이터를 파이썬 콘솔에서 읽어들이는 예제는 다음과 같습니다. +The example script for reading Spoken language data from AI Hub Ko-En Parallel Corpus in Python console is as follows: ```python from Korpora import Korpora @@ -93,12 +93,12 @@ corpus = Korpora.load("aihub_spoken_translation") ``` ```warning -위의 코드 예제는 해당 말뭉치가 `~/Korpora/AIHub_translation`에 압축이 해제된 상태로 존재하는 걸 전제로 작동합니다. -만일 루트 다렉토리가 `~/Korpora`와 다를 경우 `load` 함수 호출시 `root_dir=custom_path` 인자를 추가하시기 바랍니다. +The code above operates given the corpus is present unzipped in `~/Korpora/AIHub_translation`. +If the root directory differs from `~/Korpora`, please add `root_dir=custom_path` as you call `load` function. ``` -다음과 같이 실행해도 AI Hub 한국어-영어 번역 말뭉치 가운데 구어 데이터를 읽어들일 수 있습니다. -수행 결과는 위의 코드와 동일합니다. +You can also read Spoken language data from AI Hub Ko-En Parallel Corpus as below; +the result is the same as the above operation. ```python from Korpora import AIHubSpokenTranslationKorpus @@ -106,12 +106,12 @@ corpus = AIHubSpokenTranslationKorpus() ``` ```warning -위의 코드는 해당 말뭉치가 사용자의 로컬 컴퓨터 루트 하위의 `~/Korpora/AIHub_translation` 디렉토리에 압축이 해제된 상태로 존재하는 걸 전제로 작동합니다. -만일 다른 디렉토리에 말뭉치가 존재한다면 `AIHubSpokenTranslationKorpus` 클래스 선언시 `root_dir_or_paths=custom_path` 인자를 추가하시기 바랍니다. +The code above operates given the corpus is present unzipped in the directory `~/Korpora/AIHub_translation` which is under the user's local computer root. +If the corpus exists in other directory, please add `root_dir_or_paths=custom_path` as you declare the class `AIHubSpokenTranslationKorpus`. ``` -위 코드 둘 중 하나를 택해 실행하면 `corpus`라는 변수에 말뭉치를 로드합니다. -`train`은 AI Hub 한국어-영어 번역 말뭉치 가운데 구어 데이터의 train으로 첫번째 인스턴스는 다음과 같이 확인할 수 있습니다. +Select and execute one between the above two codes, and the copus is assigned to the variable `corpus`. +`train` denotes the train data of Spoken language data from AI Hub Ko-En Parallel Corpus, and you can check the first instance as: ``` >>> corpus.train[0] @@ -122,9 +122,9 @@ SentencePair(text="'Bible Coloring'은 성경의 아름다운 이야기를 체 Bible Coloring' is a coloring application that allows you to experience beautiful stories in the Bible. ``` -## 대화 데이터만 읽기 +## Reading only Conversation data -AI Hub 한국어-영어 번역 말뭉치 가운데 대화 데이터를 파이썬 콘솔에서 읽어들이는 예제는 다음과 같습니다. +The example script for reading Conversation data from AI Hub Ko-En Parallel Corpus in Python console is as follows: ```python from Korpora import Korpora @@ -132,12 +132,12 @@ corpus = Korpora.load("aihub_conversation_translation") ``` ```warning -위의 코드 예제는 해당 말뭉치가 `~/Korpora/AIHub_translation`에 압축이 해제된 상태로 존재하는 걸 전제로 작동합니다. -만일 루트 다렉토리가 `~/Korpora`와 다를 경우 `load` 함수 호출시 `root_dir=custom_path` 인자를 추가하시기 바랍니다. +The code above operates given the corpus is present unzipped in `~/Korpora/AIHub_translation`. +If the root directory differs from `~/Korpora`, please add `root_dir=custom_path` as you call `load` function. ``` -다음과 같이 실행해도 AI Hub 한국어-영어 번역 말뭉치 가운데 대화 데이터를 읽어들일 수 있습니다. -수행 결과는 위의 코드와 동일합니다. +You can also read Conversation data from AI Hub Ko-En Parallel Corpus as below; +the result is the same as the above operation. ```python from Korpora import AIHubConversationTranslationKorpus @@ -145,12 +145,12 @@ corpus = AIHubConversationTranslationKorpus() ``` ```warning -위의 코드는 해당 말뭉치가 사용자의 로컬 컴퓨터 루트 하위의 `~/Korpora/AIHub_translation` 디렉토리에 압축이 해제된 상태로 존재하는 걸 전제로 작동합니다. -만일 다른 디렉토리에 말뭉치가 존재한다면 `AIHubSpokenTranslationKorpus` 클래스 선언시 `root_dir_or_paths=custom_path` 인자를 추가하시기 바랍니다. +The code above operates given the corpus is present unzipped in the directory `~/Korpora/AIHub_translation` which is under the user's local computer root. +If the corpus exists in other directory, please add `root_dir_or_paths=custom_path` as you declare the class `AIHubConversationTranslationKorpus`. ``` -위 코드 둘 중 하나를 택해 실행하면 `corpus`라는 변수에 말뭉치를 로드합니다. -`train`은 AI Hub 한국어-영어 번역 말뭉치 가운데 대화 데이터의 train으로 첫번째 인스턴스는 다음과 같이 확인할 수 있습니다. +Select and execute one between the above two codes, and the copus is assigned to the variable `corpus`. +`train` denotes the train data of Conversation data from AI Hub Ko-En Parallel Corpus, and you can check the first instance as: ``` >>> corpus.train[0] @@ -162,9 +162,9 @@ How is the market's reaction to the newly released product? ``` -## 뉴스 데이터만 읽기 +## Reading only News data -AI Hub 한국어-영어 번역 말뭉치 가운데 뉴스 데이터를 파이썬 콘솔에서 읽어들이는 예제는 다음과 같습니다. +The example script for reading News data from AI Hub Ko-En Parallel Corpus in Python console is as follows: ```python from Korpora import Korpora @@ -172,12 +172,12 @@ corpus = Korpora.load("aihub_news_translation") ``` ```warning -위의 코드 예제는 해당 말뭉치가 `~/Korpora/AIHub_translation`에 압축이 해제된 상태로 존재하는 걸 전제로 작동합니다. -만일 루트 다렉토리가 `~/Korpora`와 다를 경우 `load` 함수 호출시 `root_dir=custom_path` 인자를 추가하시기 바랍니다. +The code above operates given the corpus is present unzipped in `~/Korpora/AIHub_translation`. +If the root directory differs from `~/Korpora`, please add `root_dir=custom_path` as you call `load` function. ``` -다음과 같이 실행해도 AI Hub 한국어-영어 번역 말뭉치 가운데 뉴스 데이터를 읽어들일 수 있습니다. -수행 결과는 위의 코드와 동일합니다. +You can also read News data from AI Hub Ko-En Parallel Corpus as below; +the result is the same as the above operation. ```python from Korpora import AIHubNewsTranslationKorpus @@ -185,12 +185,12 @@ corpus = AIHubNewsTranslationKorpus() ``` ```warning -위의 코드는 해당 말뭉치가 사용자의 로컬 컴퓨터 루트 하위의 `~/Korpora/AIHub_translation` 디렉토리에 압축이 해제된 상태로 존재하는 걸 전제로 작동합니다. -만일 다른 디렉토리에 말뭉치가 존재한다면 `AIHubNewsTranslationKorpus` 클래스 선언시 `root_dir_or_paths=custom_path` 인자를 추가하시기 바랍니다. +The code above operates given the corpus is present unzipped in the directory `~/Korpora/AIHub_translation` which is under the user's local computer root. +If the corpus exists in other directory, please add `root_dir_or_paths=custom_path` as you declare the class `AIHubNewsTranslationKorpus`. ``` -위 코드 둘 중 하나를 택해 실행하면 `corpus`라는 변수에 말뭉치를 로드합니다. -`train`은 AI Hub 한국어-영어 번역 말뭉치 가운데 뉴스 데이터의 train으로 첫번째 인스턴스는 다음과 같이 확인할 수 있습니다. +Select and execute one between the above two codes, and the copus is assigned to the variable `corpus`. +`train` denotes the train data of News data from AI Hub Ko-En Parallel Corpus, and you can check the first instance as: ``` >>> corpus.train[0] @@ -202,9 +202,9 @@ Skinner's reward is mostly eye-watering. ``` -## 한국문화 데이터만 읽기 +## Reading only Korean culture data -AI Hub 한국어-영어 번역 말뭉치 가운데 한국문화 데이터를 파이썬 콘솔에서 읽어들이는 예제는 다음과 같습니다. +The example script for reading Korean culture data from AI Hub Ko-En Parallel Corpus in Python console is as follows: ```python from Korpora import Korpora @@ -212,12 +212,12 @@ corpus = Korpora.load("aihub_korean_culture_translation") ``` ```warning -위의 코드 예제는 해당 말뭉치가 `~/Korpora/AIHub_translation`에 압축이 해제된 상태로 존재하는 걸 전제로 작동합니다. -만일 루트 다렉토리가 `~/Korpora`와 다를 경우 `load` 함수 호출시 `root_dir=custom_path` 인자를 추가하시기 바랍니다. +The code above operates given the corpus is present unzipped in `~/Korpora/AIHub_translation`. +If the root directory differs from `~/Korpora`, please add `root_dir=custom_path` as you call `load` function. ``` -다음과 같이 실행해도 AI Hub 한국어-영어 번역 말뭉치 가운데 한국문화 데이터를 읽어들일 수 있습니다. -수행 결과는 위의 코드와 동일합니다. +You can also read Korean culture data from AI Hub Ko-En Parallel Corpus as below; +the result is the same as the above operation. ```python from Korpora import AIHubKoreanCultureTranslationKorpus @@ -225,12 +225,12 @@ corpus = AIHubKoreanCultureTranslationKorpus() ``` ```warning -위의 코드는 해당 말뭉치가 사용자의 로컬 컴퓨터 루트 하위의 `~/Korpora/AIHub_translation` 디렉토리에 압축이 해제된 상태로 존재하는 걸 전제로 작동합니다. -만일 다른 디렉토리에 말뭉치가 존재한다면 `AIHubKoreanCultureTranslationKorpus` 클래스 선언시 `root_dir_or_paths=custom_path` 인자를 추가하시기 바랍니다. +The code above operates given the corpus is present unzipped in the directory `~/Korpora/AIHub_translation` which is under the user's local computer root. +If the corpus exists in other directory, please add `root_dir_or_paths=custom_path` as you declare the class `AIHubKoreanCultureTranslationKorpus`. ``` -위 코드 둘 중 하나를 택해 실행하면 `corpus`라는 변수에 말뭉치를 로드합니다. -`train`은 AI Hub 한국어-영어 번역 말뭉치 가운데 한국문화 데이터의 train으로 첫번째 인스턴스는 다음과 같이 확인할 수 있습니다. +Select and execute one between the above two codes, and the copus is assigned to the variable `corpus`. +`train` denotes the train data of Korean culture data from AI Hub Ko-En Parallel Corpus, and you can check the first instance as: ``` >>> corpus.train[0] @@ -242,9 +242,9 @@ SentencePair(text='강릉 기생 매화가 등장하는 판소리 열두마당 ``` -## 조례 데이터만 읽기 +## Reading only Decree data -AI Hub 한국어-영어 번역 말뭉치 가운데 조례 데이터를 파이썬 콘솔에서 읽어들이는 예제는 다음과 같습니다. +The example script for reading Decree data from AI Hub Ko-En Parallel Corpus in Python console is as follows: ```python from Korpora import Korpora @@ -252,12 +252,12 @@ corpus = Korpora.load("aihub_decree_translation") ``` ```warning -위의 코드 예제는 해당 말뭉치가 `~/Korpora/AIHub_translation`에 압축이 해제된 상태로 존재하는 걸 전제로 작동합니다. -만일 루트 다렉토리가 `~/Korpora`와 다를 경우 `load` 함수 호출시 `root_dir=custom_path` 인자를 추가하시기 바랍니다. +The code above operates given the corpus is present unzipped in `~/Korpora/AIHub_translation`. +If the root directory differs from `~/Korpora`, please add `root_dir=custom_path` as you call `load` function. ``` -다음과 같이 실행해도 AI Hub 한국어-영어 번역 말뭉치 가운데 조례 데이터를 읽어들일 수 있습니다. -수행 결과는 위의 코드와 동일합니다. +You can also read Decree data from AI Hub Ko-En Parallel Corpus as below; +the result is the same as the above operation. ```python from Korpora import AIHubDecreeTranslationKorpus @@ -265,12 +265,12 @@ corpus = AIHubDecreeTranslationKorpus() ``` ```warning -위의 코드는 해당 말뭉치가 사용자의 로컬 컴퓨터 루트 하위의 `~/Korpora/AIHub_translation` 디렉토리에 압축이 해제된 상태로 존재하는 걸 전제로 작동합니다. -만일 다른 디렉토리에 말뭉치가 존재한다면 `AIHubDecreeTranslationKorpus` 클래스 선언시 `root_dir_or_paths=custom_path` 인자를 추가하시기 바랍니다. +The code above operates given the corpus is present unzipped in the directory `~/Korpora/AIHub_translation` which is under the user's local computer root. +If the corpus exists in other directory, please add `root_dir_or_paths=custom_path` as you declare the class `AIHubDecreeTranslationKorpus`. ``` -위 코드 둘 중 하나를 택해 실행하면 `corpus`라는 변수에 말뭉치를 로드합니다. -`train`은 AI Hub 한국어-영어 번역 말뭉치 가운데 조례 데이터의 train으로 첫번째 인스턴스는 다음과 같이 확인할 수 있습니다. +Select and execute one between the above two codes, and the copus is assigned to the variable `corpus`. +`train` denotes the train data of Decree data from AI Hub Ko-En Parallel Corpus, and you can check the first instance as: ``` >>> corpus.train[0] @@ -282,9 +282,9 @@ Article 47(1) of the Members' Meeting Rules ``` -## 지자체웹사이트 데이터만 읽기 +## Reading only Government website data -AI Hub 한국어-영어 번역 말뭉치 가운데 지자체웹사이트 데이터를 파이썬 콘솔에서 읽어들이는 예제는 다음과 같습니다. +The example script for reading Government website data from AI Hub Ko-En Parallel Corpus in Python console is as follows: ```python from Korpora import Korpora @@ -292,12 +292,12 @@ corpus = Korpora.load("aihub_government_website_translation") ``` ```warning -위의 코드 예제는 해당 말뭉치가 `~/Korpora/AIHub_translation`에 압축이 해제된 상태로 존재하는 걸 전제로 작동합니다. -만일 루트 다렉토리가 `~/Korpora`와 다를 경우 `load` 함수 호출시 `root_dir=custom_path` 인자를 추가하시기 바랍니다. +The code above operates given the corpus is present unzipped in `~/Korpora/AIHub_translation`. +If the root directory differs from `~/Korpora`, please add `root_dir=custom_path` as you call `load` function. ``` -다음과 같이 실행해도 AI Hub 한국어-영어 번역 말뭉치 가운데 지자체웹사이트 데이터를 읽어들일 수 있습니다. -수행 결과는 위의 코드와 동일합니다. +You can also read Government website data from AI Hub Ko-En Parallel Corpus as below; +the result is the same as the above operation. ```python from Korpora import AIHubGovernmentWebsiteTranslationKorpus @@ -305,12 +305,12 @@ corpus = AIHubGovernmentWebsiteTranslationKorpus() ``` ```warning -위의 코드는 해당 말뭉치가 사용자의 로컬 컴퓨터 루트 하위의 `~/Korpora/AIHub_translation` 디렉토리에 압축이 해제된 상태로 존재하는 걸 전제로 작동합니다. -만일 다른 디렉토리에 말뭉치가 존재한다면 `AIHubGovernmentWebsiteTranslationKorpus` 클래스 선언시 `root_dir_or_paths=custom_path` 인자를 추가하시기 바랍니다. +The code above operates given the corpus is present unzipped in the directory `~/Korpora/AIHub_translation` which is under the user's local computer root. +If the corpus exists in other directory, please add `root_dir_or_paths=custom_path` as you declare the class `AIHubGovernmentWebsiteTranslationKorpus`. ``` -위 코드 둘 중 하나를 택해 실행하면 `corpus`라는 변수에 말뭉치를 로드합니다. -`train`은 AI Hub 한국어-영어 번역 말뭉치 가운데 지자체웹사이트 데이터의 train으로 첫번째 인스턴스는 다음과 같이 확인할 수 있습니다. +Select and execute one between the above two codes, and the copus is assigned to the variable `corpus`. +`train` denotes the train data of Government website data from AI Hub Ko-En Parallel Corpus, and you can check the first instance as: ``` >>> corpus.train[0]