Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

readme 파일 줄바꿈 정리 #1

Open
wants to merge 2 commits into
base: master
Choose a base branch
from
Open
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
120 changes: 60 additions & 60 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,74 +1,74 @@
KNU �ѱ��� ��������
KNU 한국어 감성사전


�ۼ��� : �º���, �ڻ��, ��ö��
�ۼ��� : 2018.05.11
�Ҽ� : ������б� ����Ʈ�������հ��а� Data Intelligence Lab
Ȩ������ : http://dilab.kunsan.ac.kr/
작성자 : 온병원, 박상민, 나철원
작성일 : 2018.05.11
소속 : 군산대학교 소프트웨어융합공학과 Data Intelligence Lab
홈페이지 : http://dilab.kunsan.ac.kr/


<> ����
- ����, ������, ��ȭ, ����, �ڵ���, ����Ʈ��, ����, ��ǻ�� �� Ư�� �����ο��� ���Ǵ� �������ٴ� �ΰ��� �������� �⺻ ���� ǥ���� ��Ÿ���� �������� �����ȴ�. �������� ���� ǥ�����δ� �������޴١�, ����ġ �ִ١�, �������ϴ١��� �������� ���� ǥ�����δ� ������ �׷��١�, �������� ~�� ���١�, ���� �޴١� ���� �� �� �ִ�.
- �� �������� ���������� ������ �����ϱ� ���� ���� �ڷ�� Ȱ���ϱ� ���� ���ߵǾ���
- �� �ѱ��� ���������� ������ ���� �ҽ��κ��� ���յǾ� ���ߵǾ���
(1) ��������� ǥ�ر��������� ��Ǯ��(glosses) �м��� ���� ����� ����(�� ����� ���� ��κ��� ������� ����)
(2) ������(2004)�� ������� ���
(3) SentiWordNet �� SenticNet-5.0���� �ַ� ���Ǵ� ������� ����
(4) �ֱ� �¶��ο��� ���� ���Ǵ� ���� �� ����� �̸�Ƽ�� ���
- �� 14,843���� 1-gram, 2-gram, ���뱸, ����, ����, �̸�Ƽ�� � ���� ����, �߸�, ���� �Ǻ� �� ����(degree)�� ���
<> 개요
- 음식, 여행지, 영화, 음악, 자동차, 스마트폰, 강의, 컴퓨터 등 특정 도메인에서 사용되는 긍부정어보다는 인간의 보편적인 기본 감정 표현을 나타내는 긍부정어로 구성된다. 보편적인 긍정 표현으로는 ‘감동받다’, ‘가치 있다’, ‘감사하다’와 보편적인 부정 표현으로는 ‘그저 그렇다’, ‘도저히 ~수 없다’, ‘열 받다’ 등을 둘 수 있다.
- 각 도메인의 감성사전을 빠르게 구축하기 위한 기초 자료로 활용하기 위해 개발되었음
- 본 한국어 감성사전은 다음과 같은 소스로부터 통합되어 개발되었음
(1) 국립국어원 표준국어대사전의 뜻풀이(glosses) 분석을 통한 긍부정 추출(이 방법을 통해 대부분의 긍부정어 추출)
(2) 김은영(2004)의 긍부정어 목록
(3) SentiWordNet SenticNet-5.0에서 주로 사용되는 긍부정어 번역
(4) 최근 온라인에서 많이 사용되는 축약어 및 긍부정 이모티콘 목록
- 14,843개의 1-gram, 2-gram, 관용구, 문형, 축약어, 이모티콘 등에 대한 긍정, 중립, 부정 판별 및 정도(degree)값 계산


<> Ư¡
- ǥ�ر��������� �����ϴ� �� �ܾ��� ��Ǯ�̸� �м��Ͽ� ������ �����Ͽ���
- 1-gram, 2-gram, n-gram(�, ����), ����, �̸�Ƽ�� ���� �پ��� ������ ������� ����
- ��ȭ, ����, �ڵ��� �� � �����ο��� ���� �� �ִ� �������� �������� ����
<> 특징
- 표준국어대사전을 구성하는 각 단어의 뜻풀이를 분석하여 긍부정어를 추출하였음
- 1-gram, 2-gram, n-gram(어구, 문형), 축약어, 이모티콘 등의 다양한 종류의 긍부정어 포함
- 영화, 음악, 자동차 등 어떤 도메인에도 사용될 수 있는 보편적인 긍부정어로 구성


<> �ѱ��� �������� ���� ���
- ǥ�ر��������� �����ϴ� �����, �λ�, ����, ������ ��� ��Ǯ�̿� ���� ����, �߸�, �������� �з��ϱ� ���� Bi-LSTM �� ���� �� ���
- Bi-LSTM ���� �� ��Ǯ���� Ȯ�� ���� ����Ͽ� ���������� 300,000���� ���ϴ� ��Ǯ�̸� ����, �߸�, �������� �з��ϸ�, �������� �з��� ��Ǯ�� �׷쿡�� top-2500 ������ �����ϸ�, ����� ������� top-2500 ������ ���� (���� 2,500���� ��Ǯ�̸��� ������� ������ ã�� ������ 2,500�� �̻� �Ѿ�� ������� ���������� �ݺ������� ����DZ� ����)
- �ּ� 3���� ���ڵ��� �� �ܾ��� ����, �߸�, ������ �Ǻ��ϰ�, ���ǰ� ���� ��� ����� ���� ���Ǹ� �̷�� ��� ��� (voting ���)
- �� �ܾ��� ����� �Ǻ��� (1) �ſ� ���� (2) ���� (3) �߸� (4) ���� (5) �ſ� ���� �� ��ĿƮ ô���� �̿��Ͽ� ���ڵ��� ���Ǹ� ���� ����
<> 한국어 감성사전 개발 방법
- 표준국어대사전을 구성하는 형용사, 부사, 동사, 명사의 모든 뜻풀이에 대한 긍정, 중립, 부정으로 분류하기 위해 Bi-LSTM 딥 러닝 모델 사용
- Bi-LSTM 모델은 각 뜻풀이의 확률 값을 계산하여 최종적으로 300,000개에 달하는 뜻풀이를 긍정, 중립, 부정으로 분류하며, 긍정으로 분류된 뜻풀이 그룹에서 top-2500 긍정어 추출하며, 비슷한 방식으로 top-2500 부정어 추출 (상위 2,500개의 뜻풀이만을 대상으로 긍부정어를 찾는 이유는 2,500개 이상 넘어가면 기추출된 긍부정어들이 반복적으로 추출되기 때문)
- 최소 3명의 평가자들이 각 단어의 긍정, 중립, 부정을 판별하고, 이의가 있을 경우 토론을 통해 합의를 이루는 방식 사용 (voting 방식)
- 각 단어의 긍부정 판별은 (1) 매우 부정 (2) 부정 (3) 중립 (4) 긍정 (5) 매우 긍정 등 리커트 척도를 이용하여 평가자들의 합의를 통해 선택


<> ������� ���
-----------------------
������� : �ܾ��
-----------------------
1-gram ������� : 6,223
2-gram ������� : 7,861
����� � : 278
����� ���� : 253
����� ���� : 174
����� �̸�Ƽ�� : 54
-----------------------
1-gram ������� : 6,451
2-gram ������� : 8,135
3-gram ������� : 226
4-gram ������� : 20
5-gram ������� : 5
6-gram ������� : 3
7-gram ������� : 2
8-gram ������� : 1
-----------------------
�ſ� ���� : 2,597
�� �� : 2,266
�� �� : 154
�� �� : 5,029
�ſ� ���� : 4,797
<> 긍부정어 통계
-----------------------
긍부정어 : 단어개수
-----------------------
1-gram 긍부정어 : 6,223
2-gram 긍부정어 : 7,861
긍부정 어구 : 278
긍부정 문형 : 253
긍부정 축약어 : 174
긍부정 이모티콘 : 54
-----------------------
1-gram 긍부정어 : 6,451
2-gram 긍부정어 : 8,135
3-gram 긍부정어 : 226
4-gram 긍부정어 : 20
5-gram 긍부정어 : 5
6-gram 긍부정어 : 3
7-gram 긍부정어 : 2
8-gram 긍부정어 : 1
-----------------------
매우 긍정 : 2,597
: 2,266
: 154
: 5,029
매우 부정 : 4,797


<> ��� ���
- knusl.py���� ����
- �ܾ� �Է��� ���� �ش� �ܾ��� ���¼� �� �ؼ� ������ ���
<> 사용 방법
- knusl.py파일 실행
- 단어 입력을 통해 해당 단어의 행태소 및 극성 정도값 출력


<> ��������
[1] ǥ�ر������� ��Ǯ��, https://github.com/mrchypark/stdkor
[2] ����� ����, https://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EC%9D%B8%ED%84%B0%EB%84%B7_%EC%8B%A0%EC%A1%B0%EC%96%B4_%EB%AA%A9%EB%A1%9D
[3] ����� �̸�Ƽ��, https://ko.wikipedia.org/wiki/%EC%9D%B4%EB%AA%A8%ED%8B%B0%EC%BD%98
[4] SentiWordNet_3.0.0_20130122, http://sentiwordnet.isti.cnr.it/
[5] SenticNet-5.0, http://sentic.net/
[6] �����ܾ����0603, http://datascience.khu.ac.kr/board/bbs/board.php?bo_table=05_01&wr_id=91
[7] ������, ������ �������� ������, 2004.02, ��������(�ڻ�) - �������б� ������а� ���п�
[8] Ʈ���� ���¼� �м���, https://github.com/twitter/twitter-korean-text
<> 참고문헌
[1] 표준국어대사전 뜻풀이, https://github.com/mrchypark/stdkor
[2] 긍부정 축약어, https://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EC%9D%B8%ED%84%B0%EB%84%B7_%EC%8B%A0%EC%A1%B0%EC%96%B4_%EB%AA%A9%EB%A1%9D
[3] 긍부정 이모티콘, https://ko.wikipedia.org/wiki/%EC%9D%B4%EB%AA%A8%ED%8B%B0%EC%BD%98
[4] SentiWordNet_3.0.0_20130122, http://sentiwordnet.isti.cnr.it/
[5] SenticNet-5.0, http://sentic.net/
[6] 감정단어사전0603, http://datascience.khu.ac.kr/board/bbs/board.php?bo_table=05_01&wr_id=91
[7] 김은영, “국어 감정동사 연구”, 2004.02, 학위논문(박사) - 전남대학교 국어국문학과 대학원
[8] 트위터 형태소 분석기, https://github.com/twitter/twitter-korean-text