Skip to content

Задания, выполненные для учебного курса по NLP в СПбГУ.

Notifications You must be signed in to change notification settings

Cinnamy/DocumentsClassification

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

DocumentsClassification

В этом репозитории содержатся задания, выполненные мной для учебного курса по NLP в СПбГУ.

В 1_2.ipynb производится предобработка малой выборки текстовых данных с использованием NLTK и pymorphy2. Далее эти данные векторизуются через TF-IDF и кластеризуются через k-means и аггломеративную кластеризацию.

В 3.ipynb аналогичные действия выполняются для большей выборки данных из датасета 20newsgroups.

Далее используется та же выборка.

В 4.ipynb данные векторизуются с помощью BERT, RoBERTa и DistilBERT, затем выполняется и оценивается кластеризация через k-means и аггломеративную кластеризацию.

В 5.ipynb вычисляется bag of words, затем выполянется векторизация с помощью LDA и LSI и кластеризация аналогично предыдущему.

В 6_7.ipynb сравнивается качество классификации данных. Для векторизации используются TF-IDF, DistilBERT и LDA, для классификации SVM, наивный байесовский классификатор, деревья решений, Random Forest, AdaBoost и многослойный персептрон.

About

Задания, выполненные для учебного курса по NLP в СПбГУ.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published