TTS — это компьютерное моделирование человеческой речи из текстового представления с использованием методов машинного обучения. Обычно синтез речи используется разработчиками для создания голосовых роботов, таких как IVR (Interactive Voice Response).
TTS экономит время и деньги бизнеса, поскольку автоматически генерирует звук, тем самым избавляя компанию от необходимости вручную записывать (и перезаписывать) аудиофайлы.
Вы можете прочитать любой текст вслух голосом, максимально приближенным к естественному, благодаря синтезу TTS. Чтобы синтезированная речь TTS звучала естественно, кропотливый процесс оттачивания ее тембра, плавности, расстановки акцентов и пауз, интонации и других направлений является длительным и неизбежным бременем.
Разработчики могут сделать это двумя способами:
Конкатенативный – склеивание фрагментов записанного звука. Эта синтезированная речь имеет высокое качество, но требует много данных для машинного обучения.
Параметрический — построение вероятностной модели, подбирающей акустические свойства звукового сигнала для заданного текста. Используя этот подход, можно синтезировать речь, практически неотличимую от реальной человеческой.
Чтобы преобразовать текст в речь, система ML должна выполнить следующее:
Преобразование текста в слова
Во-первых, алгоритм ML должен преобразовывать текст в удобочитаемый формат. Сложность здесь в том, что текст содержит не только слова, но и цифры, сокращения, даты и т. д.
Они должны быть переведены и написаны словами. Затем алгоритм делит текст на отдельные фразы, которые затем система читает с соответствующей интонацией. При этом программа следит за пунктуацией и устойчивыми структурами в тексте.
Полная фонетическая транскрипция
Каждое предложение может произноситься по-разному в зависимости от смысла и эмоционального тона. Для понимания правильного произношения система использует встроенные словари.
Если требуемое слово отсутствует, алгоритм создает транскрипцию по общим академическим правилам. Алгоритм также проверяет записи говорящих и определяет, на какие части слов они делают акцент.
Затем система подсчитывает, сколько 25-миллисекундных фрагментов содержится в скомпилированной транскрипции. Это известно как обработка фонем.
Фонема – это минимальная единица звуковой структуры языка.
Система описывает каждое произведение по разным параметрам: частью какой фонемы оно является, какое место в ней занимает, какому слогу принадлежит эта фонема и т.д. После этого система воссоздает соответствующую интонацию, используя данные фраз и предложений.
Преобразование транскрипции в речь
Наконец, система использует акустическую модель для чтения обработанного текста. Алгоритм ML устанавливает связь между фонемами и звуками, придавая им точную интонацию.
Система использует генератор звуковых волн для создания вокального звука. Частотные характеристики фраз, полученные из акустической модели, в итоге загружаются в генератор звуковых волн.
Отраслевые приложения TTS
Голосовые уведомления и напоминания. Это позволяет доставлять любую информацию вашим клиентам по всему миру с помощью телефонного звонка. Хорошей новостью является то, что сообщения доставляются на родных языках клиентов.
Прослушивание письменного содержания. Вы можете услышать синтезированный голос, читающий вашу любимую книгу, электронную почту или содержимое веб-сайта. Это очень важно для людей с ограниченными способностями к чтению и письму или для тех, кто предпочитает слушать чтение.
Локализация. Если вы работаете на международном уровне, наем сотрудников, говорящих на нескольких языках клиентов, может оказаться дорогостоящим. TTS позволяет практически мгновенно озвучивать английский (или другие языки) на любой иностранный язык. Это при условии, что вы пользуетесь надлежащей службой перевода.