Мы в «Наносемантике» имеем большой опыт в разработке голосовых помощников, поэтому решили разобраться в перспективном направлении TTS и создали свою технологию синтеза речи NLab Speech TTS на русском языке.

Синтез речи работает на разных цифровых устройствах: компьютеры, смартфоны, планшеты. Все, что для него нужно, — это текст, который требуется воспроизвести. Если простыми словами, то синтез речи — это формирование речевого сигнала по печатному тексту, то есть искусственное производство речи человека.

Как работает NLab Speech TTS

Для разработки и запуска технологии синтеза речи мы обучили несколько голосовых моделей, используя для этого нейронные сети.

Поэтапный процесс синтеза речи:

  • Сначала nlp-препроцессор отвечает за подготовку данных и используется в ситуациях когда, например, необходимо расставить ударения, «е/ё» и так далее. Этот процесс осуществляется автоматически с помощью словарей и нейронных сетей;
  • Движок переводит текст в мелспектограммы;
  • Вокодер переводит мелспектограммы в голос (для каждого диктора обучается обучается своя модель);
  • Постобработка — корректируется скорость, тон и громкость синтезируемого аудио.

Особенности NLab Speech TTS

Работа в нашем облаке или в периметре заказчика
Real-time factor скорость обработки данных ~0.1 на GPU и ~1 на CPU
Кастомизация под нужную предметную область
Возможен параллельный синтез сразу нескольких текстовых потоков
Наработки по русскому синтезу речи находятся в открытом доступе
Возможность управлять скоростью, тоном и громкостью голоса
Сохранность и безопасность данных
Расстановка пауз и ударений. Поддержка основных тегов SSML

Проверьте, как это работает в демо-версии

Протестировать наш продукт можно по этой ссылке

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *