Преобразование текста в речь ОБЗОР На сегодняшний день наше общение с компьютером сводится к использованию клавиатуры, мыши, монитора и других устройств ввода- вывода. Это стало так естественно, что редко кто задумывается об их альтернативах. Но если вернуться во времена создания первых ЭВМ, то уже тогда разработчики думали о компьютерах, которые могли бы общаться с человеком на его языке. Человеческий язык при кажущейся простоте и доступности плохо изучен. Еще не создано достаточно хорошей модели его построения, хотя работы в этой области напряженно ведутся. А без построения алгоритма синтеза речи невозможно создание речевых программ.
Поэтому “читающие” программы до сих пор не реализованы в полной мере. Для нормального синтеза недостаточно простого чтения слов в предложении, необходим глубокий анализ смысла читаемого текста и, как следствие, правильная расстановка ударений, нужные интонации и темп генерируемой речи.
- Озвучка любого текста, голос красивый, подстраиваюсь под ситуацию (голосом в тексте).
- Именно с этих позиций и будут рассмотрены имеющиеся сегодня программы обработки русскоязычных текстов. В общем, программа Mystem производит морфологический анализ литературного нормативного текста на русском языке.
- Программы для чтения текста. Одно из применений Palm компьютеров - чтение текста. Полезно знать, что Doc и некоторые другие форматы могут немного сжимать файл, причем на русских текстах это не так эффективно, как на английских.
- По словам одного из создателей алгоритма, Ивана Ямщикова, для написания текстов программа использовала технологию нейронных сетей. Роботу «показали» некий сборник русской поэзии, а затем «скормили» тексты Летова.
И это лишь видимая часть айсберга. За долгую историю создания “говорящих” программ было пройдено несколько этапов решения этой задачи. Первыми появились озвученные словари (самые старые и ограниченные в применении). Такой подход годится только для областей, где достаточно небольшого озвученного набора слов. Примером являются электронные справочные системы, зачитывающие по телефону железнодорожное расписание, а также всем известная служба точного московского времени “1. Позже стали появляться программы моделирования работы голосовых связок и ротовой полости человека, использующие хорошо изученные сведения из области физиологии. И наконец, самая перспективная технология - TTS (Text to Speech), получившая в последнее время широкое распространение.
Реализация этой технологии стимулировала создание новых компактных голосовых продуктов с ранее немыслимыми возможностями. Технология TTSТехнология TTS, известная на компьютерном рынке уже более 1.
Основной чертой, выделяющей TTS из голосовых программ, разработанных ранее, является способность произносить слова на основе фонетических правил и заранее озвученного или синтезированного машиной набора звуков. Приближенно процесс синтеза речи можно представить как склеивание по правилам фонетики заранее озвученных фрагментов языка (дифтонгов или более длинных фрагментов) в слова и затем - в предложения. Из этого вытекают достоинства технологии TTS: - возможность озвучивания любых слов данного языка, как только появившихся в обиходе, так и никогда не существовавших; - низкие требования к оперативной памяти компьютера, в которой находятся только озвученные фонемы, а не целые словари, как это реализовано в других технологиях синтеза речи; - более быстрый процесс, поскольку синтез речи проходит скорее, чем поиск в громадной базе заранее озвученных слов (особенно это преимущество проявляется, когда необходимо воспроизвести большое число разнообразных слов); - простота выделения ударений и интонаций в синтезированных словах; - возможность изменить темп чтения, не нарушая тембра голоса. Конечно, это не означает, что технология TTS является окончательным этапом. Например, в автоматизированных системах синтеза речи с использованием ограниченного набора слов более дешевым и качественным (на сегодняшний день!) будет решение, основанное на небольшом озвученном словаре.
Но это лишь тенденция ближайшего времени, а позже непременно получат распространение программы, построенные по технологии TTS с внедренными средствами искусственного интеллекта для “понимания” смысла произносимой речи. Следует учесть, что синтез речи основан на знании многих научных дисциплин: лингвистики, психологии, физиологии человека, компьютерных технологий. Необходим анализ структуры предложения, в результате которого определяется произношение отдельных слов, интонация и оптимальный ритм синтезированной речи (с учетом синтаксиса и семантики). Должны правильно произноситься имена собственные, телефоны, почтовые адреса и другие специфические элементы генерируемого текста, без которых немыслим современный Интернет. Недавно появилась новая разработка - Visual TTS (см. Реалистичное движение губ позволяет улучшить не только восприятие синтезированной речи, но и разборчивость произносимого. Голосовой интерфейс между человеком и компьютером можно представить в виде замкнутого круга.
Процесс начинается с регистрации микрофоном аналоговой звуковой волны, возникающей при звучании человеческой речи. Далее звуковая плата конвертирует ее в цифровой сигнал, который программа распознавания речи преобразует сначала в набор фонем, а затем в слова. Программное приложение анализирует этот текст и вырабатывает на него ответ в виде нового набора слов для синтеза. Теперь программа TTS переводит эти слова в фонемы, а затем, например, методом склеивания звуков и используя другие особенности технологии - в цифровой сигнал. И наконец на последнем этапе круг замыкается: звуковая плата через акустические колонки воспроизводит компьютерную речь, предназначенную для человека. Готовые решения. По технологии TTS построено уже довольно много приложений.
Речевые технологии используются в широком спектре задач: чтение электронной почты, веб- страничек, баз данных, в интеллектуальных бортовых системах или, в идеальном случае, при обучении произношению слов иностранного языка. Но большинство этих приложений строится на основе готовых речевых “движков” таких фирм, как Microsoft, Lucent, Lernout & Hauspie, Unisys, Elan и др. Последовательно расмотрим технологии TTS этих фирм.
Microsoft Corporation (www. IIT/): Microsoft Text- to- Speech engine. Технология Microsoft Text- to- Speech предназначена для синтеза речи из компьютерных текстовых файлов, возможно, содержащих информацию, полученную механизмами распознавания человеческой речи. Выходной сигнал может быть сгенерирован для двух различных случаев - чтения по телефону (частота дискретизации 8 к. Гц) или воспроизведения через звуковую плату ПК с частотой дискретизации около. Гц. Предусмотрена также возможность сохранения сгенерированной речи в разнообразных звуковых форматах.
Корпорация создала программный интерфейс для работы со звуком - SAPI 4. Speech Application Programming Interface) и дополняет его набором инструментов и утилит для быстрого построения речевых приложений. В него входят функции распознавания речи ASR (Automated Speech Recognition) и технология TTS.
Интерактивность присутствует по контексту материала для чтения, но основная работа выполняется на отдельных страницах с названием «Практикум». Параллельно продолжается работа по осваиванию приёмов набора текста c клавиатуры.
Cool Reader - это удобная программа для чтения электронных книг. Незаменима для тех, кому приходится читать большой объем текста с экрана. Автоматически распознает русские кодировки dos, win, koi-8, а также latin, utf-8 и unicode.
В настоящее время идет разработка нового интерфейса SAPI 5. Для разработчиков речевых приложений предложено несколько вариантов SAPI SDK. Наиболее полный из них - SAPI Speech SDK 4. Suit - включает подробное описание интерфейсных библиотек SAPI, документацию, примеры исходного кода и приложений, утилиты для тестирования, а также речевой инструментарий Microsoft Speech engines. В архиве этот набор занимает более 3. Мб. Но если отказаться от Microsoft Speech engines, то получится набор SAPI Speech SDK 4. Мб и свободно доступный на сайте компании.
Этот пакет лишает возможности использовать речь в приложениях, а позволяет только создать программную оболочку управления ею. В речевой технологии TTS от Microsoft можно выбрать три различных типа голосов: “Майк”, “Мэри” и “Сэм”. Речевой инструментарий поддерживает операционные системы Windows 9. NT 4. 0 или 2. 00.
Pentium, ОЗУ от 1. Мб. Unisys Corporation (www. Natural Language Speech Assistant. Пакет корпорации Unisys построен по технологии NLU (natural language understanding), позволяющей распознавать и “понимать” человеческую речь, а также вести полноценный диалог с компьютером.
Разработан полный набор утилит и тестов для создания речевых приложений. NLSA на ежегодной конференции AVIOS (American Voice Input/Output Society) назван лучшим продуктом 1. Best Industrial/Professional Application. Очень интересна совместная инициатива Unisys и Microsoft по созданию нового сайта www.
Естественно, сайт предоставляет информацию только по продуктам и новациям этих компаний. Lucent Technologies (www. LTTS3. 1 (Lucent TTS 3. Text to Speech. Разработанный в лаборатории Bell Labs (являющейся собственностью Lucent Technologies), новый многоязычный синтезатор речи поддерживает множество разнообразных языков, в том числе и русский, но особенно хорошо “разговаривает” на английском, испанском, французском и немецком языках. Небольшой размер, и высокое качество синтезатора не могли остаться незамеченными на рынке, и уже несколько компаний, в том числе Intellivoice Communications и Pronexus, объявили о его интеграции в свои продукты.
Использовать этот синтезатор можно на любом компьютере, оснащенном процессором Pentium 1. Windows 9x и NT, Solaris, Unix.
Ware; больших вычислительных мощностей не требуется. А можно приобрести пакет разработчика за $5.
На сайте Bell Labs есть множество синтезированных примеров, включая песни. При желании можно с заранее выбранным голосом (мужской, женский, детский, или писк комара, если хотите) воспроизвести любой английский текст или получить звуковой файл (реализована поддержка форматов aiff, au и wav) и прослушать его у себя на компьютере в автономном режиме.
Elan Informatique (www. В отличие от других эта компания предлагает широкий спектр продуктов, использующих технологию TTS: Speech cube, Speech platform, Speech unit, Speech engine, Speech engine for Windows CE, Elan talk embedded. В совокупности они могут читать электронную почту, факсы, веб- страницы, применяются в качестве электронного ассистента в автомобилях, конвертируют текстовые базы данных в голосовые. Поражает количество партнеров Elan Corporation, использующих ее технологию TTS: это такие громкие имена, как Dialogic, Novavox, France Telecom, Dragon System (уже подразделение L& H), BMW, Bosch, OKI и множество других. Речевой синтезатор Elan поддерживает SAPI 4. MIME), примеры кода на Си и Visual C++; осуществляет поддержку всех популярных операционных систем: Windows 9x, 2.
NT, UNIX SCO, UNIX Solaris, Linux; работает с английским, француским, испанским, немецким, русским и португальским языками. Lernout & Hauspie (L& H, www.