Проект по обработке естественного языка. Был выполнен студентами Эльбрус Буткемп:
Данный проект является мультистраничным приложением для обработки естественного языка (Natural Language Processing) и был разработан с использованием платформы Hugging Face
и фреймворка Streamlit
.
Ознакомиться с работой приложения можно по ссылке.
Использованные инструменты:
- классические ML-алгоритмы
- Нейросети - семейство BERT моделей, LSTM, GPT-2
В этой части проекта была разработана система классификации отзывов на фильмы на английском языке. Пользователь может ввести свой отзыв в поле ввода, после чего система предсказывает его класс (позитивный/негативный) с помощью трех моделей:
- Классический ML-алгоритм, обученный на представлении
BagOfWords/TF-IDF
LSTM
модельBERT
(предобученная модель для работы с естественным языком)
Результаты предсказания каждой модели выводятся на экран вместе со временем, затраченным на их получение.
В данном разделе проекта была реализована генерация текста с использованием модели GPT-2
(Generative Pre-trained Transformer). Пользователь может ввести определенное начало (prompt) текста, а также настроить параметры генерации, включая длину выходной последовательности и число генераций. Также можно контролировать температуру или использовать top-k и top-p (nucleus) для управления разнообразием и качеством генерируемого текста. Модель была дополнительно обучена на произведении М. Булгакова "Марстер и Маргарита"
.
В этой части проекта была разработана система вопросно-ответной обработки текста с использованием модели ROBERTA-base
, файнтюненной на данных SQuAD 2.0. Пользователь может ввести вопрос и контекст (в котором содержится ответ), и модель применяя алгоритм вопросно-ответного моделирования выведет ответ.
This is a natural language processing project completed by students from Elbrus Bootcamp:
This project is a multi-page application for natural language processing (NLP) developed using the Hugging Face
platform and the Streamlit
framework. You can explore the application here.
Tools Used:
- Classic ML algorithms
- Neural Networks - BERT models, LSTM, GPT-2
In this part of the project, a film review classification system for English language reviews was developed. Users can enter their review in the input field, and the system predicts its sentiment (positive/negative) using three models:
- Classic ML algorithm trained on
BagOfWords/TF-IDF
representation. LSTM
model.BERT
(a pretrained model for natural language processing).
The predictions of each model are displayed along with the time taken to generate them.
This section of the project focuses on text generation using the GPT-2 (Generative Pre-trained Transformer) model. Users can enter a specific starting prompt and adjust generation parameters, including the length of the output sequence and the number of generations. Temperature control or top-k and top-p (nucleus) methods can be used to manage the diversity and quality of the generated text. The model was additionally trained on the work Mikhail Bulgakov's "The Master and Margarita"
.
In this part of the project, a question-answering system using the ROBERTA-base
model trained on the SQuAD 2.0 dataset was developed. Users can input a question and the corresponding context containing the answer, and the model applies question-answering algorithms to provide the answer.