GitHub - darkasevgen/sentiment-analysis: Репозиторий для определения тональности отзыва.

Этот репозиторий содержит код для задачи "Sentiment analysis", или анализ настроений.

Исходная задача: Обучение классификатора, определящего вероятность того, что комментарий о банке является негативным.

Данные

Датасет найден на kaggle и содержит 7,5к отзывов про банковское приложение.

Из признаков:

сам отзыв (русский текст);
заголовок, дата публикации;
имя пользователя;
ответ на отзыв со стороны банка;
флаг: правилось ли сообщение пользователем.

GT в данном случае является рейтинг, который пользователь выставляет приложению. Из числового формата отзыва (1 - 5 звезд) был получен таргет, используя бинаризацию: отзыв признается негативным, если рейтинг < 2.

Начало работы

conda create --name test python=3.7
pip3 install -r requirements.txt
Для тренировки: python train.py

Для тестирования: python inference.py --review 'Очень классно'

Обучение

Файл train.py содержит обучение лучшей модели из найденных. Файл 'sentiment analysis.ipynb' содержит исследования и отбор лучшей модели. inference.py содержит код для прогноза тональности, написанного на клавиатуре отзыва.

Для нахождения оптимальных гиперпараметров модели использовалась кросс валидация.

В качестве основы использовались модели RuBert (top-7) и Sbert (top-2). Бенчмарк.

Метрика

В качестве целевой метрики использовался f1. Мотивация в бизнесовом моменте о важности найти все единички, или найти все единички точно. Зависит от компании/ситуации.

Бенчмарк

Модель	Используемые фичи	Кол-во признаков	F1
Модель	RuBert	Отзыв	3	0.674
RuBert	Отзыв + Заголовок	6	0.723
RuBert + LogReg	Отзыв + Заголовок	6	0.825
RuBert + SVC	Отзыв + Заголовок	6	0.825
RuBert + KNN	Отзыв + Заголовок	6	0.826
RuBert + Ensemble	Отзыв + Заголовок	6	0.824
RuBert + LogReg	Отзыв + Заголовок + sin/cos/onehot date	34	0.826
SBert + LogReg	Отзыв	1024	0.829
SBert + KNN	Отзыв	1024	0.826

Итоговая модель здесь. Является надстройкой над фичами Sbert и находится в git lfs.

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
.gitattributes		.gitattributes
README.md		README.md
inference.py		inference.py
logreg.sav		logreg.sav
requirements.txt		requirements.txt
sber_app.csv		sber_app.csv
sentiment analysis.ipynb		sentiment analysis.ipynb
train.py		train.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Этот репозиторий содержит код для задачи "Sentiment analysis", или анализ настроений.

Данные

Начало работы

Обучение

Метрика

Бенчмарк

About

Releases

Packages

Languages

darkasevgen/sentiment-analysis

Folders and files

Latest commit

History

Repository files navigation

Этот репозиторий содержит код для задачи "Sentiment analysis", или анализ настроений.

Данные

Начало работы

Обучение

Метрика

Бенчмарк

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages