-
Notifications
You must be signed in to change notification settings - Fork 284
코퍼스
세종 코퍼스는 국립국어원에서 1998년부터 2007년까지 10년간 진행한 "21세기 세종계획" 사업의 결과물 중 코퍼스 부분을 말합니다. 여기에는 다양한 코퍼스가 있지만 그중에서 형태 분석 말뭉치가 바로 khaiii의 학습 데이터입니다. 세종 코퍼스에 관한 자세한 내용은 황용주 님이 새국어생활에 2016년에 게재한 글을 참고하시기 바랍니다. [참고: 황용주 2016]
세종 결과물 배포 이후 이를 활용한 여러 논문이 발표되고, 여러 차례 시스템 경진대회의 개최와 오픈소스 바람으로 인해 세종 코퍼스와 품사 집합은 사실상 표준으로 자리 잡고 있습니다. 그러나 천만 어절이라는 방대한 양에 걸맞게 오류 또한 많이 포함하고 있습니다.
저희 카카오에서는 이러한 오류 중 약 30만 개 이상의 어절을 수정하였고 여전히 발견되는 오류를 수정하고 있습니다. 내부적으로 저희는 "문종 프로젝트"라는 이름으로 진행하고 있습니다. 그리고 문종 프로젝트의 결과물을 공개하여 협력을 통해 발전해 가고자 제안을 드렸지만, 아쉽게도 저작권 문제로 그렇게 할 수 없게 되었습니다. [참고: 한경은 2017]
세종 코퍼스를 수정한 천만 어절에 더해 저희가 자체적으로 구축한 6만 어절의 코퍼스를 합하여 학습에 사용했습니다. CNN 모델 문서에서 설명한 음절과 형태소의 정렬을 거치고 나면 최종적으로 약 85만 문장, 1,003만 어절이 전체 학습 코퍼스입니다. 이 중 1만 문장을 제외하고 학습을 하고, 1만 문장은 다시 5천 문장씩 나눠 각각 dev, test 코퍼스로 활용했습니다.
분류 | 품사 | 설명 | 분류 | 품사 | 설명 |
---|---|---|---|---|---|
체언 | NNG | 일반 명사 | 의존 형태 | EP | 선어말 어미 |
체언 | NNP | 고유 명사 | 의존 형태 | EF | 종결 어미 |
체언 | NNB | 의존 명사 | 의존 형태 | EC | 연결 어미 |
체언 | NP | 대명사 | 의존 형태 | ETN | 명사형 전성 어미 |
체언 | NR | 수사 | 의존 형태 | ETM | 관형형 전성 어미 |
용언 | VV | 동사 | 의존 형태 | XPN | 체언 접두사 |
용언 | VA | 형용사 | 의존 형태 | XSN | 명사 파생 접미사 |
용언 | VX | 보조 용언 | 의존 형태 | XSV | 동사 파생 접미사 |
용언 | VCP | 긍정 지정사 | 의존 형태 | XSA | 형용사 파생 접미사 |
용언 | VCN | 부정 지정사 | 의존 형태 | XR | 어근 |
수식언 | MM | 관형사 | 기호 | SF | 마침표, 물음표, 느낌표 |
수식언 | MAG | 일반 부사 | 기호 | SP | 쉼표, 가운뎃점, 콜론, 빗금 |
수식언 | MAJ | 접속 부사 | 기호 | SS | 따옴표, 괄호표, 줄표 |
독립언 | IC | 감탄사 | 기호 | SE | 줄임표 |
관계언 | JKS | 주격 조사 | 기호 | SO | 붙임표(물결, 숨김, 빠짐) |
관계언 | JKC | 보격 조사 | 기호 | SL | 외국어 |
관계언 | JKG | 관형격 조사 | 기호 | SH | 한자 |
관계언 | JKO | 목적격 조사 | 기호 | SW | 기타 기호(논리, 수학 기호, 화폐 기호 등) |
관계언 | JKB | 부사격 조사 | 기호 | SWK | 한글 자소 |
관계언 | JKV | 호격 조사 | 기호 | SN | 숫자 |
관계언 | JKQ | 인용격 조사 | 추정 | ZN | 분석 불능(명사 추정) |
관계언 | JX | 보조사 | 추정 | ZV | 분석 불능(용언 추정) |
관계언 | JC | 접속 조사 | 추정 | ZZ | 분석 불능(기타) |
세종 코퍼스의 품사 집합을 대부분 그대로 따르고 있지만, SWK, ZN, ZV, ZZ 4가지만 원본 품사 집합과 다릅니다. ZN, ZV, ZZ는 세종 품사 집합에서 각각 NF, NV, NA와 동일합니다. SWK의 경우 한글 자모만으로 이뤄진 형태소에 한해 사용했고 SW에 완전히 포함되는 하위 품사입니다.
NF, NV의 경우 품사는 정의되어 있지만 세종 코퍼스에 한 번도 나타나지 않습니다. 추정 범주에 해당하는 품사는 NA만 나타나고 있는데, 저희는 한글 자모가 나타나거나 띄어쓰기 오타에 한해 제한적으로 사용하였습니다. 아래는 그러한 예시들입니다.
어절 | 형태소 분석 |
---|---|
생ㄱ가한다 | 생ㄱ가/ZN + 하/XSV + ㄴ다/EC |
최그ㅓㄴ | 최그ㅓㄴ/ZN |
가운ㄷㅔ과거 | 가운ㄷㅔ/ZN + 과거/NNG |
쓴ㄷ | 쓴ㄷ/ZV |
씃다 | 씃다/ZV |
규모ㅂ니다 | 규모/NNG + ㅂ니다/ZZ |
가ㄴㅡ데 | 가/VV + ㄴㅡ데/ZZ |
증권가에서는ㄴ | 증권가/NNG + 에서/JKB + 는/JX + ㄴ/SWK |