Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Translated korean_hate_speech.md (#139) #141

Merged
merged 1 commit into from
Oct 20, 2020
Merged

Translated korean_hate_speech.md (#139) #141

merged 1 commit into from
Oct 20, 2020

Conversation

warnikchow
Copy link
Contributor

Pull Request

1. 해당 PR은 어떤 내용인가요?

2. PR과 관련된 이슈가 있나요?

  • fetch 함수는 일단 fetch function으로 기재하였습니다.
  • `get_all_texts' 메소드는 처음 등장할 때는 method라는 표현을 써 주고, 두 번째에서는 생략하였습니다.
  • Korean Hate Speech Corpus는 크게 gender_bias (binary label), bias (ternary; gender-related/others/none), hate (ternary; hate/offensive/none) 으로 구성되어 있는데, bias와 hate가 각각 ternary라는 점이 한국어 버젼에 나타나 있지 않은 것 같아 영어 버젼에는 이를 반영하였습니다. 배포가 진행된 캐글 링크에서 이를 확인하실 수 있습니다.
    https://www.kaggle.com/c/korean-gender-bias-detection
    https://www.kaggle.com/c/korean-bias-detection
    https://www.kaggle.com/c/korean-hate-speech-detection
    만약 원본 데이터셋의 레이블에 대한 별도 수정이 없이 업로드된 것이라면, 이에 관하여 한국어 버젼의 수정이 필요할 수도 있을 것 같습니다.
  • 또한, Property에서 Attribute의 세부 레이블을 데이터 형식과 통일해야 한다면 (예컨대 gender-related/other/none이 아니라 gender/others/none으로, 배포된 데이터와 동일하게 해야 한다면) 그 점을 반영해야 할지도 생각해 보아야 할 것 같고, 이 부분은 별도의 통일이 필요 없다면 (다른 문서에서도) 넘어가도 괜찮을 것 같습니다.

@warnikchow warnikchow requested review from lovit and ratsgo October 18, 2020 16:33
Copy link
Member

@lovit lovit left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

한글 문서를 복사 후 번역을 하니 어느 부분이 어떻게 번역되었는지 diff 가 잘 보여서 좋습니다. 이후 다른 문서도 동일한 절차로 번역하면 리뷰에 도움이 될 것 같아요

  1. 한글 파일을 복사
  2. 번역 후 한 파일 당 한 번의 commit

이후 typo 야 편하게 추가 커밋을 하면 될듯합니다. (물론 타이포를 발견하지 못했습니다!)

@lovit
Copy link
Member

lovit commented Oct 19, 2020

fetch 함수는 일단 fetch function으로 기재하였습니다.
`get_all_texts' 메소드는 처음 등장할 때는 method라는 표현을 써 주고, 두 번째에서는 생략하였습니다.

위 두 의견 감사합니다. 확인하였습니다.

@lovit
Copy link
Member

lovit commented Oct 19, 2020

Korean Hate Speech Corpus는 크게 gender_bias (binary label), bias (ternary; gender-related/others/none), hate (ternary; hate/offensive/none) 으로 구성되어 있는데, bias와 hate가 각각 ternary라는 점이 한국어 버젼에 나타나 있지 않은 것 같아 영어 버젼에는 이를 반영하였습니다. 배포가 진행된 캐글 링크에서 이를 확인하실 수 있습니다.
https://www.kaggle.com/c/korean-gender-bias-detection
https://www.kaggle.com/c/korean-bias-detection
https://www.kaggle.com/c/korean-hate-speech-detection
만약 원본 데이터셋의 레이블에 대한 별도 수정이 없이 업로드된 것이라면, 이에 관하여 한국어 버젼의 수정이 필요할 수도 있을 것 같습니다.

위의 내용은 새로운 이슈로 제안해주시면 이후에 잊지 않고 수정할 듯 합니다. 이슈 제안 요청드립니다.

@lovit
Copy link
Member

lovit commented Oct 19, 2020

또한, Property에서 Attribute의 세부 레이블을 데이터 형식과 통일해야 한다면 (예컨대 gender-related/other/none이 아니라 gender/others/none으로, 배포된 데이터와 동일하게 해야 한다면) 그 점을 반영해야 할지도 생각해 보아야 할 것 같고, 이 부분은 별도의 통일이 필요 없다면 (다른 문서에서도) 넘어가도 괜찮을 것 같습니다.

위의 커멘트에서 gender/others/none으로, 배포된 데이터와 동일하게 해야 한다면 라는 의미를 잘 이해하지 못했습니다.
원 데이터의 값을 수정한다는 말씀이신거죠?

Korpora 는 원 데이터의 변형없이 로딩의 기능만을 제공하는 것이 목적이므로 저자의 의견을 따를 예정입니다.
다른 말뭉치와의 통일성은 고려하지 않으셔도 될 듯 합니다.

  • 정보 1. 이 PR 을 보내주신분은 Korean Hate Speech Corpus 의 저자 중 한명이시기에 데이터에 관련된 논의를 PR 에서 진행한 것입니다.

@lovit
Copy link
Member

lovit commented Oct 19, 2020

@warnikchow 원익님과의 작업에서 PR merge 의 조건을 @ratsgo, @lovit 중 한 명 이상 approve 로 논의하였기에, 위의 커멘트와 관계없이 merge 진행하셔도 좋습니다.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants