Приложение для распознавания русской речи в реальном времени с использованием искусственного интеллекта.
Это приложение позволяет преобразовывать русскую речь в текст в реальном времени. Оно использует модель Wav2Vec2 для точного распознавания речи и предоставляет удобный графический интерфейс для управления процессом записи.
- Python 3.8 или выше
- PyQt5
- PyTorch
- Transformers
- SoundDevice
- NumPy
- SciPy
- Клонируйте репозиторий:
git clone https://github.com/yourusername/russian-speech-recognition.git
cd russian-speech-recognition- Установите необходимые зависимости:
pip install -r requirements.txt- Создайте новое окружение Conda:
conda create -n speech_rec python=3.8
conda activate speech_rec- Установите PyTorch через Conda:
conda install pytorch cpuonly -c pytorch- Установите остальные зависимости:
conda install -c conda-forge pyqt
conda install -c conda-forge transformers
conda install -c conda-forge sounddevice
conda install numpy scipy- Клонируйте репозиторий:
git clone https://github.com/yourusername/russian-speech-recognition.git
cd russian-speech-recognition- Запустите приложение:
python run.py- Основные функции:
- Нажмите кнопку "Record (R)" или клавишу R для начала записи
- Нажмите кнопку "Pause (P)" или клавишу P для паузы
- Нажмите кнопку "Stop (S)" или клавишу S для остановки записи
- Используйте "Copy Text (Ctrl+C)" для копирования текста
- Используйте "Clear Text (Ctrl+L)" для очистки текста
- R - Начать запись
- P - Пауза/Продолжить
- S - Остановить запись
- Ctrl+C - Копировать текст
- Ctrl+L - Очистить текст
- Esc - Выход
- Распознавание речи в реальном времени
- Поддержка длинных записей
- Возможность паузы и возобновления записи
- Автоматическое сохранение текста
- Удобный интерфейс в стиле Windows
- Поддержка горячих клавиш
Приложение использует модель Wav2Vec2 (jonatasgrosman/wav2vec2-large-xlsr-53-russian) для распознавания речи. Модель оптимизирована для работы на CPU и обеспечивает высокую точность распознавания русской речи.
-
Если приложение не запускается:
- Убедитесь, что все зависимости установлены
- Проверьте версию Python (должна быть 3.8 или выше)
- Проверьте наличие микрофона и его работоспособность
- При использовании Conda убедитесь, что окружение активировано
-
Если распознавание работает неточно:
- Говорите четко и в нормальном темпе
- Убедитесь, что микрофон правильно настроен
- Проверьте уровень шума в помещении
MIT License
Если у вас возникли проблемы или есть предложения по улучшению, пожалуйста, создайте issue в репозитории проекта.
