Skip to content

A Python application for real-time Russian voice-to-text transcription and speech processing, featuring a PyQt GUI and leveraging the Wav2Vec2 model for accuracy.

License

Notifications You must be signed in to change notification settings

bivex/voice_to_text

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Распознавание Русской Речи

Heard by 🎙️

Приложение для распознавания русской речи в реальном времени с использованием искусственного интеллекта.

Russian Speech Recognition

Описание

Это приложение позволяет преобразовывать русскую речь в текст в реальном времени. Оно использует модель Wav2Vec2 для точного распознавания речи и предоставляет удобный графический интерфейс для управления процессом записи.

Требования

  • Python 3.8 или выше
  • PyQt5
  • PyTorch
  • Transformers
  • SoundDevice
  • NumPy
  • SciPy

Установка

Вариант 1: Установка через pip

  1. Клонируйте репозиторий:
git clone https://github.com/yourusername/russian-speech-recognition.git
cd russian-speech-recognition
  1. Установите необходимые зависимости:
pip install -r requirements.txt

Вариант 2: Установка через Conda

  1. Создайте новое окружение Conda:
conda create -n speech_rec python=3.8
conda activate speech_rec
  1. Установите PyTorch через Conda:
conda install pytorch cpuonly -c pytorch
  1. Установите остальные зависимости:
conda install -c conda-forge pyqt
conda install -c conda-forge transformers
conda install -c conda-forge sounddevice
conda install numpy scipy
  1. Клонируйте репозиторий:
git clone https://github.com/yourusername/russian-speech-recognition.git
cd russian-speech-recognition

Использование

  1. Запустите приложение:
python run.py
  1. Основные функции:
    • Нажмите кнопку "Record (R)" или клавишу R для начала записи
    • Нажмите кнопку "Pause (P)" или клавишу P для паузы
    • Нажмите кнопку "Stop (S)" или клавишу S для остановки записи
    • Используйте "Copy Text (Ctrl+C)" для копирования текста
    • Используйте "Clear Text (Ctrl+L)" для очистки текста

Горячие клавиши

  • R - Начать запись
  • P - Пауза/Продолжить
  • S - Остановить запись
  • Ctrl+C - Копировать текст
  • Ctrl+L - Очистить текст
  • Esc - Выход

Особенности

  • Распознавание речи в реальном времени
  • Поддержка длинных записей
  • Возможность паузы и возобновления записи
  • Автоматическое сохранение текста
  • Удобный интерфейс в стиле Windows
  • Поддержка горячих клавиш

Технические детали

Приложение использует модель Wav2Vec2 (jonatasgrosman/wav2vec2-large-xlsr-53-russian) для распознавания речи. Модель оптимизирована для работы на CPU и обеспечивает высокую точность распознавания русской речи.

Устранение неполадок

  1. Если приложение не запускается:

    • Убедитесь, что все зависимости установлены
    • Проверьте версию Python (должна быть 3.8 или выше)
    • Проверьте наличие микрофона и его работоспособность
    • При использовании Conda убедитесь, что окружение активировано
  2. Если распознавание работает неточно:

    • Говорите четко и в нормальном темпе
    • Убедитесь, что микрофон правильно настроен
    • Проверьте уровень шума в помещении

Лицензия

MIT License

Поддержка

Если у вас возникли проблемы или есть предложения по улучшению, пожалуйста, создайте issue в репозитории проекта.

About

A Python application for real-time Russian voice-to-text transcription and speech processing, featuring a PyQt GUI and leveraging the Wav2Vec2 model for accuracy.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages