Программа Робот Для Чтения Русского Текста

3/23/2017

Преобразование текста в речь ОБЗОР На сегодняшний день наше общение с компьютером сводится к использованию клавиатуры, мыши, монитора и других устройств ввода- вывода. Это стало так естественно, что редко кто задумывается об их альтернативах. Но если вернуться во времена создания первых ЭВМ, то уже тогда разработчики думали о компьютерах, которые могли бы общаться с человеком на его языке. Человеческий язык при кажущейся простоте и доступности плохо изучен. Еще не создано достаточно хорошей модели его построения, хотя работы в этой области напряженно ведутся. А без построения алгоритма синтеза речи невозможно создание речевых программ.

Поэтому “читающие” программы до сих пор не реализованы в полной мере. Для нормального синтеза недостаточно простого чтения слов в предложении, необходим глубокий анализ смысла читаемого текста и, как следствие, правильная расстановка ударений, нужные интонации и темп генерируемой речи.

Озвучка любого текста, голос красивый, подстраиваюсь под ситуацию (голосом в тексте).
Именно с этих позиций и будут рассмотрены имеющиеся сегодня программы обработки русскоязычных текстов. В общем, программа Mystem производит морфологический анализ литературного нормативного текста на русском языке.
Программы для чтения текста. Одно из применений Palm компьютеров - чтение текста. Полезно знать, что Doc и некоторые другие форматы могут немного сжимать файл, причем на русских текстах это не так эффективно, как на английских.
По словам одного из создателей алгоритма, Ивана Ямщикова, для написания текстов программа использовала технологию нейронных сетей. Роботу «показали» некий сборник русской поэзии, а затем «скормили» тексты Летова.

И это лишь видимая часть айсберга. За долгую историю создания “говорящих” программ было пройдено несколько этапов решения этой задачи. Первыми появились озвученные словари (самые старые и ограниченные в применении). Такой подход годится только для областей, где достаточно небольшого озвученного набора слов. Примером являются электронные справочные системы, зачитывающие по телефону железнодорожное расписание, а также всем известная служба точного московского времени “1. Позже стали появляться программы моделирования работы голосовых связок и ротовой полости человека, использующие хорошо изученные сведения из области физиологии. И наконец, самая перспективная технология - TTS (Text to Speech), получившая в последнее время широкое распространение.

Реализация этой технологии стимулировала создание новых компактных голосовых продуктов с ранее немыслимыми возможностями. Технология TTSТехнология TTS, известная на компьютерном рынке уже более 1.

Основной чертой, выделяющей TTS из голосовых программ, разработанных ранее, является способность произносить слова на основе фонетических правил и заранее озвученного или синтезированного машиной набора звуков. Приближенно процесс синтеза речи можно представить как склеивание по правилам фонетики заранее озвученных фрагментов языка (дифтонгов или более длинных фрагментов) в слова и затем - в предложения. Из этого вытекают достоинства технологии TTS: - возможность озвучивания любых слов данного языка, как только появившихся в обиходе, так и никогда не существовавших; - низкие требования к оперативной памяти компьютера, в которой находятся только озвученные фонемы, а не целые словари, как это реализовано в других технологиях синтеза речи; - более быстрый процесс, поскольку синтез речи проходит скорее, чем поиск в громадной базе заранее озвученных слов (особенно это преимущество проявляется, когда необходимо воспроизвести большое число разнообразных слов); - простота выделения ударений и интонаций в синтезированных словах; - возможность изменить темп чтения, не нарушая тембра голоса. Конечно, это не означает, что технология TTS является окончательным этапом. Например, в автоматизированных системах синтеза речи с использованием ограниченного набора слов более дешевым и качественным (на сегодняшний день!) будет решение, основанное на небольшом озвученном словаре.

Но это лишь тенденция ближайшего времени, а позже непременно получат распространение программы, построенные по технологии TTS с внедренными средствами искусственного интеллекта для “понимания” смысла произносимой речи. Следует учесть, что синтез речи основан на знании многих научных дисциплин: лингвистики, психологии, физиологии человека, компьютерных технологий. Необходим анализ структуры предложения, в результате которого определяется произношение отдельных слов, интонация и оптимальный ритм синтезированной речи (с учетом синтаксиса и семантики). Должны правильно произноситься имена собственные, телефоны, почтовые адреса и другие специфические элементы генерируемого текста, без которых немыслим современный Интернет. Недавно появилась новая разработка - Visual TTS (см. Реалистичное движение губ позволяет улучшить не только восприятие синтезированной речи, но и разборчивость произносимого. Голосовой интерфейс между человеком и компьютером можно представить в виде замкнутого круга.

Процесс начинается с регистрации микрофоном аналоговой звуковой волны, возникающей при звучании человеческой речи. Далее звуковая плата конвертирует ее в цифровой сигнал, который программа распознавания речи преобразует сначала в набор фонем, а затем в слова. Программное приложение анализирует этот текст и вырабатывает на него ответ в виде нового набора слов для синтеза. Теперь программа TTS переводит эти слова в фонемы, а затем, например, методом склеивания звуков и используя другие особенности технологии - в цифровой сигнал. И наконец на последнем этапе круг замыкается: звуковая плата через акустические колонки воспроизводит компьютерную речь, предназначенную для человека. Готовые решения. По технологии TTS построено уже довольно много приложений.

Речевые технологии используются в широком спектре задач: чтение электронной почты, веб- страничек, баз данных, в интеллектуальных бортовых системах или, в идеальном случае, при обучении произношению слов иностранного языка. Но большинство этих приложений строится на основе готовых речевых “движков” таких фирм, как Microsoft, Lucent, Lernout & Hauspie, Unisys, Elan и др. Последовательно расмотрим технологии TTS этих фирм.

Программа Робот Для Чтения Русского Текста

Microsoft Corporation (www. IIT/): Microsoft Text- to- Speech engine. Технология Microsoft Text- to- Speech предназначена для синтеза речи из компьютерных текстовых файлов, возможно, содержащих информацию, полученную механизмами распознавания человеческой речи. Выходной сигнал может быть сгенерирован для двух различных случаев - чтения по телефону (частота дискретизации 8 к. Гц) или воспроизведения через звуковую плату ПК с частотой дискретизации около. Гц. Предусмотрена также возможность сохранения сгенерированной речи в разнообразных звуковых форматах.

Корпорация создала программный интерфейс для работы со звуком - SAPI 4. Speech Application Programming Interface) и дополняет его набором инструментов и утилит для быстрого построения речевых приложений. В него входят функции распознавания речи ASR (Automated Speech Recognition) и технология TTS.

Интерактивность присутствует по контексту материала для чтения, но основная работа выполняется на отдельных страницах с названием «Практикум». Параллельно продолжается работа по осваиванию приёмов набора текста c клавиатуры.

Cool Reader - это удобная программа для чтения электронных книг. Незаменима для тех, кому приходится читать большой объем текста с экрана. Автоматически распознает русские кодировки dos, win, koi-8, а также latin, utf-8 и unicode.

В настоящее время идет разработка нового интерфейса SAPI 5. Для разработчиков речевых приложений предложено несколько вариантов SAPI SDK. Наиболее полный из них - SAPI Speech SDK 4. Suit - включает подробное описание интерфейсных библиотек SAPI, документацию, примеры исходного кода и приложений, утилиты для тестирования, а также речевой инструментарий Microsoft Speech engines. В архиве этот набор занимает более 3. Мб. Но если отказаться от Microsoft Speech engines, то получится набор SAPI Speech SDK 4. Мб и свободно доступный на сайте компании.

Этот пакет лишает возможности использовать речь в приложениях, а позволяет только создать программную оболочку управления ею. В речевой технологии TTS от Microsoft можно выбрать три различных типа голосов: “Майк”, “Мэри” и “Сэм”. Речевой инструментарий поддерживает операционные системы Windows 9. NT 4. 0 или 2. 00.

Pentium, ОЗУ от 1. Мб. Unisys Corporation (www. Natural Language Speech Assistant. Пакет корпорации Unisys построен по технологии NLU (natural language understanding), позволяющей распознавать и “понимать” человеческую речь, а также вести полноценный диалог с компьютером.

Разработан полный набор утилит и тестов для создания речевых приложений. NLSA на ежегодной конференции AVIOS (American Voice Input/Output Society) назван лучшим продуктом 1. Best Industrial/Professional Application. Очень интересна совместная инициатива Unisys и Microsoft по созданию нового сайта www.

Естественно, сайт предоставляет информацию только по продуктам и новациям этих компаний. Lucent Technologies (www. LTTS3. 1 (Lucent TTS 3. Text to Speech. Разработанный в лаборатории Bell Labs (являющейся собственностью Lucent Technologies), новый многоязычный синтезатор речи поддерживает множество разнообразных языков, в том числе и русский, но особенно хорошо “разговаривает” на английском, испанском, французском и немецком языках. Небольшой размер, и высокое качество синтезатора не могли остаться незамеченными на рынке, и уже несколько компаний, в том числе Intellivoice Communications и Pronexus, объявили о его интеграции в свои продукты.

Использовать этот синтезатор можно на любом компьютере, оснащенном процессором Pentium 1. Windows 9x и NT, Solaris, Unix.

Ware; больших вычислительных мощностей не требуется. А можно приобрести пакет разработчика за $5.

На сайте Bell Labs есть множество синтезированных примеров, включая песни. При желании можно с заранее выбранным голосом (мужской, женский, детский, или писк комара, если хотите) воспроизвести любой английский текст или получить звуковой файл (реализована поддержка форматов aiff, au и wav) и прослушать его у себя на компьютере в автономном режиме.

Elan Informatique (www. В отличие от других эта компания предлагает широкий спектр продуктов, использующих технологию TTS: Speech cube, Speech platform, Speech unit, Speech engine, Speech engine for Windows CE, Elan talk embedded. В совокупности они могут читать электронную почту, факсы, веб- страницы, применяются в качестве электронного ассистента в автомобилях, конвертируют текстовые базы данных в голосовые. Поражает количество партнеров Elan Corporation, использующих ее технологию TTS: это такие громкие имена, как Dialogic, Novavox, France Telecom, Dragon System (уже подразделение L& H), BMW, Bosch, OKI и множество других. Речевой синтезатор Elan поддерживает SAPI 4. MIME), примеры кода на Си и Visual C++; осуществляет поддержку всех популярных операционных систем: Windows 9x, 2.

NT, UNIX SCO, UNIX Solaris, Linux; работает с английским, француским, испанским, немецким, русским и португальским языками. Lernout & Hauspie (L& H, www.

0 Comments

Программа Робот Для Чтения Русского Текста

Leave a Reply.

Author

Archives

Categories