Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the all-in-one-seo-pack domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/html/wp-includes/functions.php on line 6121 Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the logo-carousel-free domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/html/wp-includes/functions.php on line 6121 Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the ninja-forms domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/html/wp-includes/functions.php on line 6121 Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the wp-yandex-metrika domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/html/wp-includes/functions.php on line 6121 Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the antispam-bee domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/html/wp-includes/functions.php on line 6121 Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the luckywp-glossary domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/html/wp-includes/functions.php on line 6121 Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the rise-builder domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/www/html/wp-includes/functions.php on line 6121 Warning: Cannot modify header information - headers already sent by (output started at /var/www/html/wp-includes/functions.php:6121) in /var/www/html/wp-content/plugins/advanced-iframe/advanced-iframe.php on line 390 Структура преобразования текста в речь (TTS) - Портал по разметке данных

Это схема высокого уровня различных компонентов, используемых в системе TTS. Входными данными для нашей модели является текст, который проходит через несколько блоков и в конечном итоге преобразуется в звук. Давайте разберемся, что каждый из этих блоков вносит в процесс.

Препроцессор

Токенизация: предложение разбиваются на слова.

Фонемы/произношение: вводимый текст разбивается на фонемы в зависимости от их произношения. Например, «Hello, Have a good day» преобразуется в HH AH0 L OW1, HH AE1 V AH0 G UH1 DD EY1.

Продолжительность фонемы: представляет общее время, затрачиваемое каждой фонемой в аудио.

Высота тона: ключевая функция для передачи эмоций, она сильно влияет на просодию речи.

Энергия: указывает величину мел-спектрограмм на уровне кадра и напрямую влияет на громкость и просодию речи.

Лингвистическая функция содержит только фонемы. Энергия, высота тона и продолжительность фактически используются для обучения предсказателя энергии, предсказателя основного тона и предсказателя продолжительности соответственно, которые используются моделью для получения более естественного вывода.

Кодер

Кодер вводит лингвистические признаки (фонемы) и выводит n-мерное вложение. Это вложение между кодером и декодером известно как скрытая функция. Скрытые функции имеют решающее значение, потому что другие функции, такие как встраивание динамиков, объединяются с ними и передаются декодеру. Кроме того, скрытые функции также используются для прогнозирования энергии, высоты тона и продолжительности, которые, в свою очередь, играют решающую роль в управлении естественностью звука.

Декодер

Декодер используется для преобразования информации, встроенной в латентный обработанный признак, в акустический признак, т.е. мел-спектрограмму.

Но зачем выводить мел-спектрограммы вместо того, чтобы напрямую воспроизводить речь/аудио из декодера?

Это связано с тем, что звук содержит больше информации о дисперсии (например, фазы), чем Mel-спектрограммы. Это вызывает больший информационный разрыв между входом и выходом для преобразования текста в аудио по сравнению с генерацией текста в спектрограмму. Следовательно, предпочтительно использовать Mel-спектрограммы.

Вокодер

Он преобразует акустическую характеристику (Mel-спектрограмму) в выходной сигнал (аудио). Это можно сделать с помощью математической модели, такой как Гриффин Лим, или мы также можем обучить нейронную сеть обучению отображению мел-спектрограммы в формы сигналов. На самом деле методы, основанные на обучении, обычно превосходят метод Гриффина Лима.

Таким образом, вместо прямого предсказания формы сигнала с помощью декодера, мы разделили эту сложную и изощренную задачу на два этапа: сначала предсказываем мел-спектрограмму из скрытых обработанных признаков, а затем генерируем звук с помощью мел-спектрограммы.

One thought on “Структура преобразования текста в речь (TTS)

  1. Аноним:

    Супер!

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *