Система синтеза естественной русской речи «VitalVoice»

Синтез речи

Технология автоматического синтеза речи позволяет преобразовать произвольный текст в звучащую речь. Иными словами, с помощью синтеза речи компьютер может «прочитать» естественным человеческим голосом любую текстовую информацию. Для того чтобы синтезированная речь звучала натурально, необходимо решить целый комплекс задач, связанных как с обеспечением естественности голоса на уровне плавности звучания и интонации, так и с правильной расстановкой ударений, расшифровкой сокращений, чисел, аббревиатур и специальных знаков с учетом особенностей грамматики русского языка.

 

Технология синтеза речи
 

Существует много подходов к созданию систем синтеза речи. Однако до последнего времени не существовало по-настоящему естественно звучащих систем синтеза русской речи. Системы аллофонного синтеза, которые были популярны еще несколько лет назад, обеспечивают стабильное, но недостаточно естественное, роботизированное звучание. Современные системы, основанные на подходе Unit Selection, звучат гораздо более естественно, однако могут содержать фрагменты речи с резкими провалами качества, вплоть до потери разборчивости. Стабильное естественное звучание на акустическом уровне в системе «VitalVoice» достигается за счет новой, разработанной в компании Центр речевых технологий гибридной технологии, основанной на подходе Unit Selection, дополненный единицами аллофонного синтеза.

 

«VitalVoice»

Технология «VitalVoice» реализует основное требование пользователей к системам синтеза речи: она позволяет озвучить любые, пусть даже очень нестандартные тексты (SMS, электронные письма, Интернет-форумы и т.п.) таким образом, что у слушателя складывается ощущение, что он слышит естественный человеческий голос.
Текст может быть прочтен различными голосами синтеза. Каждый голос основан на использовании речевой базы диктора объемом около 10 часов речи, размеченной на 9 уровнях, включающих текстовую расшифровку, разметку на слова, слоги, аллофоны, паузы, маркеры словных и фразовых ударений, типы интонации, неречевые явления и другие фонетические явления.
Для правильного интонирования и определения места ударения в словах разработан мощный модуль автоматической обработки русского текста, использующий морфологический, синтаксический и семантический виды анализа. Использование данного модуля, также как и столь объемные и тщательно размеченные голосовые базы, делают «VitalVoice» уникальной технологией синтеза русской речи.

 

Преимущества «VitalVoice»


• Высокая естественность звучания на произвольном тексте.
• Учет фонетических, морфологических и грамматических особенностей русского языка.
• Технология клонирования естественной интонации.
• Правильная расстановка ударений.
• Правильная расшифровка сокращений, чисел, аббревиатур и специальных знаков.
• Высокое качество звучания синтезированной речи на различных вычислительных устройствах.
• Простота использования и внедрения.
• Поддержка стандартных протоколов обмена данными и языков разметки (MRCP, SAPI, SSML).
• 8 различных голосов синтеза.
• Возможность создания уникального голоса «на заказ».
• Наличие пользовательского словаря.
• Возможность изменения высоты голоса и темпа речи в широком диапазоне.

 

Примеры практического применения синтеза речи


Корпоративные решения:
• Построение автоматизированных информационно-справочных телефонных систем голосового самообслуживания в Call-центрах;
• Интеграция в корпоративные информационные системы;
• Системы оповещения;
Мобильные устройства:
• Навигационные системы;
• Чтение информации с интернет сайтов (новостные ленты, блоги и т.д.);
• Автоматические переводчики;
• Портативные устройства для людей с ограниченными возможностями по зрению и речи;
Приложения на базе ПК:
• Чтение электронной почты, быстрый доступ к бизнес информации;
• Программы обучения русскому языку;
• Создание аудиокниг;
• Компьютерные игры;
• Интеграция в устройства (терминалы оплаты, автоматические газетные киоски).

Продукты семейства «VitalVoice»

Синтез русской речи в виде приложений для конечных пользователей:
• «VitalVoice PC» - для персонального компьютера на базе MS Windows;
«VitalVoice Mobile» - для мобильных устройств на базе MS Windows Mobile;
 

Синтез русской речи для многоканальных сервисов:
«VitalVoice IVR MRCP» - MRCP-ресурс синтеза речи для систем голосового самообслуживания;
«VitalVoice IVR SAPI» - для использования в телефонных, смс и интернет сервисах с поддержкой SAPI 5;
 

Синтез русской речи для интегрирования в конечные продукты:
«VitalVoice PC SDK» - для встраивания в устройства или программное обеспечение на базе MS Windows;
«VitalVoice Mobile SDK» - для встраивания в устройства или программное обеспечение на базе MS Windows

Наверх