Мы в «Наносемантике» имеем большой опыт в разработке голосовых помощников, поэтому решили разобраться в перспективном направлении TTS и создали свою технологию синтеза речи NLab Speech TTS на русском языке.
Синтез речи работает на разных цифровых устройствах: компьютеры, смартфоны, планшеты. Все, что для него нужно, — это текст, который требуется воспроизвести. Если простыми словами, то синтез речи — это формирование речевого сигнала по печатному тексту, то есть искусственное производство речи человека.
Как работает NLab Speech TTS
Для разработки и запуска технологии синтеза речи мы обучили несколько голосовых моделей, используя для этого нейронные сети.
Поэтапный процесс синтеза речи:
- Сначала nlp-препроцессор отвечает за подготовку данных и используется в ситуациях когда, например, необходимо расставить ударения, «е/ё» и так далее. Этот процесс осуществляется автоматически с помощью словарей и нейронных сетей;
- Движок переводит текст в мелспектограммы;
- Вокодер переводит мелспектограммы в голос (для каждого диктора обучается обучается своя модель);
- Постобработка — корректируется скорость, тон и громкость синтезируемого аудио.
Особенности NLab Speech TTS
Проверьте, как это работает в демо-версии
Протестировать наш продукт можно по этой ссылке