부적절한 단어를 댓글 속에서 감지하고 상응하는 이모지로 변경합니다.
🤟🏻MEMBER🤟🏻
이사빈 | 정찬영 | 이명진 | 이성진 |
---|---|---|---|
우리는 바람직한 인터넷 문화를 만들고자 합니다.
요즘 거대한 커뮤니티가 여기저기 있고 각자 대화를 나누지만, 댓글들을 보면 모두 클린하다고 볼 수는 없습니다.
그래서 우리는 댓글 속 비적절한 단어를 적절하게 바꿀 필요가 있다고 생각했습니다. 단순히 부정적인 댓글을 지우거나 ** 처리하는 것이 아니라 해당 단어를 상응하는 이모지로 변경함으로써 사용자에게 사소한 재미를 제공하고자 합니다.
Classification | KcElectra | KoBERT | RoBERTa-base | RoBERTa-large |
---|---|---|---|---|
Validation Accuracy | 0.88680 | 0.85721 | 0.83421 | 0.86994 |
Validation Loss | 1.00431 | 1.23237 | 1.30012 | 1.16179 |
Training Loss | 0.09908 | 0.03761 | 0.0039 | 0.06255 |
Epoch | 10 | 40 | 20 | 20 |
Batch-size | 8 | 32 | 16 | 32 |
learning rate | 2e-06 | 5e-5 | 2e-06 | 5e-6 |
pretrained-model | beomi/KcELECTRA-base | skt/kobert-base-v1 | xlm-roberta-base | klue/roberta-large |
-
Smilegate-AI / https://github.com/smilegate-ai/korean_unsmile_dataset
-
naver 뉴스 기사 크롤링
- naver papago
- google translator
- 모델 선정 -> Fine tuning
- pseudo labeling
- masking the cursing words to predict which word is bad
- binary classification for each comments
- multi classification for each comments
- calculation speed inhanced -> put batchs, split the sentences /.....
- similarity(early deprecated😂)
- pos tagging(also early deprecated...😂)
- scaling
- substitute cursing word with emoji
- add more data with pseudo labeling
- launch server with django
- increasing the model accuracy with hyperparameter tuning(Wandb)
- add more data with pseudo labeling
- deploy server
- expand to another task using mask
- add neologism to vocab -> which could increase 7~8% accuracy
- use light model / SOTA
- Teacher student learning
- transfer learning not the parameter but the experience