Skip to content

Commit

Permalink
Merge pull request #146 from ko-nlp/pages-en-koparanews
Browse files Browse the repository at this point in the history
Translate ko-en parallel corpus (#139)
  • Loading branch information
warnikchow authored Oct 29, 2020
2 parents b2e280f + 74e9af1 commit afecdea
Showing 1 changed file with 31 additions and 32 deletions.
63 changes: 31 additions & 32 deletions en-docs/corpuslist/korean_parallel_koen_news.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,10 +2,10 @@
sort: 12
---

# 한영 병렬 말뭉치
# Ko-En Parallel Corpus

한영 병렬 말뭉치는 jungyeul@github 님이 공개한 데이터입니다.
데이터 정보는 다음과 같습니다.
Ko-En Parallel Corpus is the data released by jungyeul@github.
Data specification is as follows:

- author: jungyeul@github
- repository: [https://github.com/jungyeul/korean-parallel-corpora](https://github.com/jungyeul/korean-parallel-corpora)
Expand All @@ -14,56 +14,56 @@ sort: 12
- dev: 1,000 pairs
- test: 2,000 pairs

데이터 구조는 다음과 같습니다.
Data structure is as:

|속성명|내용|
|Attributes|Property|
|---|---|
|text|한국어 문장|
|pair|영어 문장|
|text|Korean sentence|
|pair|English sentence|

## 1. 파이썬에서 사용하기
## 1. In Python

파이썬 콘솔을 실행한 뒤 말뭉치를 내려받고 읽어들일 수 있습니다.
Execute Python console, download the corpus, and read it.

### 말뭉치 다운로드
### Downloading the corpus

한영 병렬 말뭉치를 로컬에 내려 받는 파이썬 예제는 다음과 같습니다.
You can download the Ko-En Parallel Corpus in the local by the following procedure.

```python
from Korpora import Korpora
Korpora.fetch("korean_parallel_koen_news")
```

```note
기본적으로 사용자의 로컬 컴퓨터 루트 하위의 Korpora라는 디렉토리에 말뭉치를 내려 받습니다(`~/Korpora`). 다른 경로에 말뭉치를 다운로드 받고 싶다면
fetch 함수 실행시 `root_dir=custom_path`라는 인자를 추가하세요.
First, download the corpus to Korpora, a directory under the user's local computer root (`~/Korpora`).
If you want to download it in other path, please assign `root_dir=custom_path` when you execute fetch function.
```

```tip
fetch 함수 실행시 `force_download=True`라는 인자를 줄 경우 해당 말뭉치가 이미 로컬에 있더라도 이를 무시하고 다시 내려 받습니다. 기본값은 `False`입니다.
If you assign `force_download=True` when you execute the fetch function, the corpus is downloaded again regardless of its presence in the local. The default is `False`.
```


### 말뭉치 읽어들이기
### Reading the corpus

한영 병렬 말뭉치를 파이썬 콘솔에서 읽어들이는 예제는 다음과 같습니다.
말뭉치가 로컬에 없다면 다운로드도 함께 수행합니다.
You can read the Ko-En Parallel Corpus in Python console with the following scheme.
If the corpus is not in the local, the downloading is accompanied.

```python
from Korpora import Korpora
corpus = Korpora.load("korean_parallel_koen_news")
```

다음과 같이 실행해도 한영 병렬 말뭉치를 읽어들일 수 있습니다.
수행 결과는 위의 코드와 동일합니다.
You can read the Ko-En Parallel Corpus as below;
the result is the same as the above operation.

```python
from Korpora import KoreanParallelKOENNewsKorpus
corpus = KoreanParallelKOENNewsKorpus()
```

위 코드 둘 중 하나를 택해 실행하면 `corpus`라는 변수에 말뭉치를 로드합니다.
`train`은 한영 병렬 말뭉치의 train 데이터로 첫번째 인스턴스는 다음과 같이 확인할 수 있습니다.
Execute one of the above, and the copus is assigned to the variable `corpus`.
`train` denotes the train data of Ko-En Parallel Corpus, and you can check the first instance as:

```
>>> corpus.train[0]
Expand All @@ -74,7 +74,7 @@ SentencePair(text='개인용 컴퓨터 사용의 상당 부분은 "이것보다
Much of personal computing is about "can you top this?"
```

`dev`, `test`는 각각 한영 병렬 말뭉치의 dev, test 데이터로 첫번째 인스턴스는 다음과 같이 확인할 수 있습니다.
`dev`, `test` denote dev and test data of Ko-En Parallel Corpus, and you can check the first instance as:

```
>>> corpus.test[0]
Expand All @@ -83,15 +83,15 @@ SentencePair(text='토론에 참여한 사람들은 법 집행과 국가 ...', p
SentencePair(text='세계 에서 가장 강력한 수퍼컴퓨터를 1년...', pair="After keeping the world's most powerful supercomputer ...")
```

`get_all_texts`라는 메소드를 실행하면 한영 병렬 말뭉치의 모든 text(한국어 문장)를 확인할 수 있습니다.
The method `get_all_texts` lets you check all the texts (Korean sentences) in Ko-En Parallel Corpus.

```
>>> corpus.get_all_texts()
['세계 에서 가장 강력한 수퍼컴퓨터를 1년...', ... ]
```

`corpus.train`에서 `get_all_texts`, `get_all_pairs`라는 메소드를 각각 실행하면 한영 병렬 말뭉치 train의 모든 text(한국어 문장), pair(영어 문장)를 확인할 수 있습니다.
이는 `corpus.dev`, `corpus.test`에서도 마찬가지입니다.
In `corpus.train`, if you execute the method `get_all_texts` and `get_all_pairs` each, you can check all the text (Korean sentenceas) and pair (English sentences) in the train set of Ko-En Parallel Corpus.
This also holds in `corpus.dev` and `corpus.test`.

```
>>> corpus.train.get_all_texts()
Expand All @@ -101,21 +101,20 @@ SentencePair(text='세계 에서 가장 강력한 수퍼컴퓨터를 1년...', p
```


## 2. 터미널에서 사용하기
## 2. In terminal

파이썬 콘솔 실행 없이 바로 말뭉치를 다운받을 수 있습니다.
다음과 같이 실행하면 됩니다.
You can download the corpus without executing Python console.
The command is as below.

```bash
korpora fetch --corpus korean_parallel_koen_news
```

```note
기본적으로 사용자의 로컬 컴퓨터 루트 하위의 Korpora라는 디렉토리에 말뭉치를 내려 받습니다(`~/Korpora`). 다른 경로에 말뭉치를 다운로드 받고 싶다면
터미널에서 fetch 함수 실행시 `--root_dir custom_path`라는 인자를 추가하세요.
First, download the corpus to Korpora, a directory under the user's local computer root (`~/Korpora`).
If you want to download it in other path, please assign `--root_dir custom_path` when you execute fetch function in the terminal.
```

```tip
터미널에서 fetch 함수 실행시 `--force_download`라는 인자를 줄 경우 해당 말뭉치가 이미 로컬에 있더라도 이를 무시하고 다시 내려 받습니다.
If you assign `--force_download` when you execute fetch function in the terminal, the corpus is downloaded again regardless of its presence in the local.
```

0 comments on commit afecdea

Please sign in to comment.