Название статьи:
АСПЕКТЫ ЧЕЛОВЕКО-МАШИННОГО ВЗАИМОДЕЙСТВИЯ В TTS-СИСТЕМАХ РЕАЛЬНОГО ВРЕМЕНИ
Авторы:
Белоножко П. Е., Федоров В. О.
Ключевые слова: Мел-спектрограмма, человеко-машинное взаимодействие, преобразование текста в речь, Tacotron, WaveNet
Страницы: 65-72
Аннотация: Рассмотрено человеко-машинное взаимодействие в системах преобразования текста в речь (TTS) с использованием анализа мел-спектрограмм. Представлены основные концепции в TTS-системах, построенных на генеративных архитектурах WaveNet и Tacotron-2. Показан конвейерный процесс преобразования текста в речь, в котором ключевые функции выполняют WaveNet и Tacotron. Анализ мел-спектрограммы рассмотрен как важный метод для понимания звукового содержания, внесший изменения в представление спектральной информации. Подчеркнуто влияние распределения энергии по частотам и динамики изменений во времени на выделение звуковых элементов и контекста звука. Сделан вывод о уникальности платформы, позволяющей обучение моделей отдельно на различных наборах данных для повышения устойчивости к шуму.
Полный текст статьи недоступен
Скачать полный текст статьи
Журнал индексируется в Российском индексе научного цитирования (РИНЦ)
Журнал "Оригинальные исследования (ОРИС)" (включен в РИНЦ) ведет прием статей в ближайший номер до 31 декабря 2024 г.
Архив выпусков
- 2024 - Том 14, Выпуск 11
- 2024 - Том 14, Выпуск 10
- 2024 - Том 14, Выпуск 9
- 2024 - Том 14, Выпуск 8
- 2024 - Том 14, Выпуск 7
- 2024 - Том 14, Выпуск 6
- 2024 - Том 14, Выпуск 5
- 2024 - Том 14, Выпуск 4
- 2024 - Том 14, Выпуск 3
- 2024 - Том 14, Выпуск 2
-
Весь архив