Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Beomjin ai #50

Merged
merged 29 commits into from
May 15, 2024
Merged

Beomjin ai #50

merged 29 commits into from
May 15, 2024

Conversation

edcrfv458
Copy link
Collaborator

No description provided.

#38 문장의 길이의 최대는 200을 넘어가고 평균은 20이라서 문장의 길이가 50이 넘어가는 문장들은 버리는 작업을 수행
#38 50 이상의 문장을 걸러낸 후 모든 문장을 50으로 패딩 진행
#38 토큰들 간의 유사도를 알아내기 위해 Word2Vec 과정 추가
#38 토큰의 수가 50이 넘는 문장 제거하고 word2vec 재수행
방언 문장과 표준어 문장의 각각 토큰 수가 다르다는 것을 까먹고 각각 필터링을 해서 문장의 수가 달랐던 것을 수정
정수화를 한 데이터를 이용해 패딩 진행
모델의 성능을 개선시키기 위해 CNN 모델과 LSTM 모델을 결합하여 학습하려 헀는데 현재 데이터의 차원 문제를 해결하지 못함
@edcrfv458 edcrfv458 merged commit f578042 into main May 15, 2024
1 check passed
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

1 participant