Меню

Два сервиса распознавания речи и перевода в текст онлайн. Качество работы распознающей системы обычно оценивается с помощью такого показателя как норма ошибки

Стены

Название устройства (фирма, страна) Метод анализа и распо­зна­вания Вид распознаваемой речи Объем словаря, слова Надежность распознава­ния, % Допусти­мый уро­вень помех Способ адаптации к директору Наличие телефонного интерфейса Наличие синтеза­тора речи Область применения
РЕЧЬ-121 (СССР) Полос­ный, ДП Изолирован­ные слова (слитная речь) 99 (93 на 200 слов) (1-10)-крат­ное произне­сение Есть Есть САПР, АСУ, АСУПТ
БАРС (СССР) То же Изолирован­ные слова Однократное произнесение То же То же САПР
СИБИРЬ-1 (СССР) » То же То же Нет » Диспет­чер­ские системы
СИРИУС-1 (СССР) Клиппи­ро­ванный сигнал, ДП » » То же » Специаль­ное

4.4. Перспективные зарубежные системы
речевого общения

Из всего разнообразия зарубежных промышленных СРО рассмотрим системы, которые, на наш взгляд, являются наиболее перспективными в плане реализации в них как новых теоретических моделей, так и достигнутых показателей качества синтеза и распознавания речи.

Примером высококачественного синтезатора, с помощью ко­торого можно воспроизвести близкую к естественной речь различ­ного темпа и оттенков непосредственно по тексту неограниченного словаря, является устройство DES-talk. Устройство DES-talk (см. табл. 1.1) представляет собой блок размером 10 ´ 45 ´ 30 см, на задней панели которого расположены разъемы для подключения ЭВМ, видеотерминала и печатающего устройства, различных устройств вывода информации, в том числе телефона, индикатора на светодиодах, регулятора громкости. Высокое качество синтезатора DES-talk обусловлено большой библиотекой используемых правил, возможностью выбора словаря по желанию пользователя, качеством аппаратных средств для преобразования речи. Пользователь может выбрать семь различных голосов, в том числе стандартные женский, мужской, детский, а также низкий мужской и голос пожилого человека.

В устройстве DES-talk процесс преобразования текстовой информации в речевую разделяется на три уровня. На первом слова преобразуются в цифровую форму в соответствии с кодом ASCII и разбиваются на фонемы. При этом используются набор правил преобразования букв в звуки и два словаря. Один содержит 6000 слов, другой - около 150 специфических терминов, иностранных слов и аббревиатур, вводимых самим пользователем. Преобразования первого уровня начинаются с поиска эталон­ных слов, соответствующих вводимому орфографическому тексту, в большом словаре. Если эталоны найдены, то текст, преобразованный в фонемную форму, сразу передается на второй уровень обработки. Если эталоны не найдены ни в одном из словарей, то вводимый текст обрабатывается в соответствии с правилами преобразования букв в звуки и затем передается на второй уровень. На втором уровне производится считывание фонем, синтаксический анализ, определяются интонация, продолжительность и ударение в словах, выполняются акустические расчеты. На третьем уровне осуществляются окончательные преобразо­вания входной текстовой информации и синтез речи. Синтезирван­ные цифровые сигналы передаются со скоростью не менее 120 Кбит/с в стандартный цифроаналоговый преобразователь (ЦАП). В синтезаторе DES-talk используются эвристические правила для оценки влияния окружающих слов на произношение, интонацию, продолжительность и ударение в данном слове.

Программное обеспечение для синтезатора DES-talk практически аналогично программному обеспечению для существую­щих алфавитно-цифровых терминалов, работающих в стандарте ASCII, за исключением модулей, определяющих формат данных. Поэтому создание программного обеспечения не вызывает труд­ностей, что открывает синтезатору DES-talk широкие области применения.

Создание перспективных моделей распознавания речи свя­зано со стремлением достичь высокой надежности при работе с большими словарями (свыше 1000 слов) в режиме слитного произнесения. Наиболее близко к такому идеалу подходит система KVS-3000, словарь которой содержит 10 000 слов, а точность распознавания 95 %. Для подготовки устройства к работе весь на­бор эталонных слов должен быть произнесен трижды, поэтому па­мять устройства KVS-30 000 рассчитана на хранение 30 000 слов. Среднее время распознавания - около 500 мс.

Фирма «Verbex» (США) разработала мощную систему распознавания непрерывной речи - модель Verbex-30 000, позво­ляющую распознавать предложения любой длины, состоящие из отдельных или слитно произносимых слов. Эта система ориентирована на голос одного диктора, при смене диктора необходима перезапись в ОЗУ для хранения эталонов слов. Модель Verbex-30 000, построенная по архитектуре «звезды», включает 2-4 таких речевых процессора и может оперировать 120-360 словами. Каждый процессор содержит ЗУ емкостью 0,25 Мбайт для хранения данных, а также ЗУ для хранения 4000 микрокодовых инструкций, каждая длиной 64 бит. Кроме того, гибкость конструкции системы, обеспеченная развитой структурой элементов сопряжения, позволяет использовать память центральной ЭВМ. Быстродействие речевого процессора - 5 млн опер./с.

Микропроцессорная архитектура системы позволяет производить операции с высоким быстродействием, что является необходимым условием для выполнения алгоритма распознавания непрерывной речи. Процесс распознавания, который заключается в подборе последовательности эталонных слов, максимально соот­ветствующей произнесенной пользователем, осуществляется ДП-методом. Входные речевые сигналы усиливаются, фильтруют­ся и кодируются аудипроцессором, а затем передаются в управляющий процессор с интервалом 10 мкс. Управляющий процессор распределяет сигнал между речевыми процессорами, которые выделяют его фонетические характеристики. Разработчики системы определили, что для обеспечения точности распознавания 99 % достаточно 16 таких характеристик. Процесс распознавания в управляющем процессоре и поиск эталона производятся одновременно, т. е. когда процессор «улавливает» окончание речи.

Во избежание влияния на окончательный результат распознавания ошибок, возможных на первом этапе, система постоянно проверяет множество параллельных гипотез, сравнивая ввод данных с грамматически обозначенным набором всех нормальных произношений. Ответ задерживается до момента проверки всех гипотез и совпадения произнесенного с эталоном.

4.5. Тенденции применения средств
речевого общения

До последнего времени большинство работ, связанных с созданием СРО, базировалось на идее формирования акустических эталонов речевых элементов разных уровней (фонем, слогов, слов). При этом распознавание было реализовано как обнаружение и идентификация в потоке речи этих акустических эталонов. В настоящее время стало очевидным, что такой подход ма­лоперспективен из-за значительной вариативности акустических характеристик речевого сигнала, связанной как с лингвистическими (эффекты коартикуляции, редукции, ассимиляции), так и с экстралингвистическими факторами (индивидуальные особенности голосов дикторов, различия в их произносительных навыках, состояние проводящей среды и др.). Особенно большую вариантность имеют акустические характеристики фонем. Поэтому в большинстве промышленных систем распознавания речи отказались от пофонемного анализа и приняли слово в качестве минимального распознаваемого элемента. Данный подход, хотя и дал на определенном этапе речевых исследований зримые результаты, оказался неплодотворным при решении сложных задач распознавания, таких, как распознавание речи без подстройки под диктора или создание систем с большими словарями. Это заставило вернуться к идее пофонемного анализа речи на новом качественном уровне, который предполагает моделирование различных аспектов процесса переработки информации человеком при восприя­тии речи, использование знаний, накопленных в лингвистике, те­о­­рии восприятия и психологии. При таком подходе одной из карди­нальных задач распознавания речи является задача обнаружения и моделирования тех механизмов восприятия речи человеком, которые обеспечивают устойчивость и стабильность воспри­ни­маемых речевых элементов в условиях их огромной акустической вариативности.

Все большее распространение получает подход к решению задачи распознавания речи, связанный с чтением динамических спектрограмм неизвестного речевого сигнала фонетистом-экспер­том. Интерес к экспериментам по чтению спектрограммы связан, во-первых, с тем, что они демонстрируют богатство фонетической информации, заключенной в речевом сигнале, представленном в виде трехмерной (частота - время - интенсивность) спектральной картины, а во-вторых, с тем, что они позволяют во­плотить знания и процедурные навыки эксперта в системах распознавания речи. Исследования по чтению спектрограммы ведутся в разных странах, и в настоящее время главным в этих исследованиях является проблема выявления и формализации знаний
и процедурных навыков экспертов. Оказалось, что это весьма сложный процесс, т. к. эксперты не всегда способны выразить принципы и правила, которыми они руководствуются в ходе акустико-фонетического декодирования речевых спектрограмм. Одной из существенных проблем является воплощение в алгоритме правил и знаний, которые кажутся эксперту очевидными (например, F 420 не может быть выше 2500 Гц) либо сложно формулируемыми (например, правило определения компактности взрыва смычных). Для преодоления этих трудностей, связанных с извлечением и записью знаний эксперта, используются экспертные системы. Экспертные системы отличаются от обычных компьютерных программ тем, что они могут решать задачи, не имеющие жестких алгоритмических решений, и осуществлять выводы, осно­ванные на неполной или недостоверной информации. Поэтому они гораздо более приспособлены для моделирования гибкой дея­тельности человека, что и было использовано в речевых исследованиях. Необходимо подчеркнуть, что в этих исследованиях ЭС применяются именно как инструмент анализа для накопления ба­зы знаний в процессе взаимодействия системы и эксперта. Исполь­зование ЭС в качестве системы распознавания неэффективно.

Вторая существенная трудность при моделировании деятельности фонетиста-эксперта заключается в том, что визуальный анализ спектрограмм, лежащий в основе декодирующих действий эксперта, не менее сложен, чем слуховая обработка речевого сигнала. При формализации чтения спектрограмм возникает сложная проблема извлечения акустических признаков, легко выделяемых зрительной системой человека. При разработке ЭС многие исследователи эту трудность просто обходят. Однако уже из самого рассмотрения возникшей ситуации логически вытекает представление о наличии некоторого промежуточного уровня кодирования речевой информации при переходе от параметрического описания спектра к его фонетической интерпретации. Более того, необходимость разработки принципов промежуточного описания речевых сигналов выделяется в качестве центральной проблемы автоматического распознавания речи. Отмечается, что только промежуточное описание позволяет перекинуть мост между непосредственно наблюдаемым непрерывным акустическим сигналом и дискретным лингвистическим описанием. Промежуточное представление описывает «поведение» акустических характеристик, которое в значительной степени является инвариантным при переходе от диктора к диктору и зависит, главным образом, от контекстного взаимодействия фонетических единиц. При этом промежуточное представление, как правило, выражается в качественном виде и описывается в терминах наличия - отсутствия определенных акустических объектов, высокого - низкого положения в спектре или сильного - слабого проявления той или иной энергетической составляющей.

Таким образом, в процессе акустико-фонетического декодирования осуществляется вначале переход от количественных изменений к качественному описанию, а затем от качественных описаний к признакам фонем. Как правило, единицы промежуточного уровня представления речевой информации называются акустическими ключами, акустическими признаками или дискрипторами.

В России работы по чтению спектрограмм фонетистами-экспертами, выработке правил их фонемной и словесной интер­претации проводятся с 1980 года. Полученные результаты поз­волили приступить к созданию аппаратно-программной модели анализа речи, в основу которой положены алгоритмы чтения спектрограмм.

Как хорошо было раньше! Позвонив в справочную, можно было побеседовать с девушкой-оператором и даже назначить ей свидание. Теперь же на том конце провода слышится приятный, но неживой женский голос, предлагающий набрать 1 для получения такой-то информации, 2 - для связи с тем-то, 3 - для выхода в меню и т.д. Все чаще доступ к информации контролируется системой, а не человеком. В этом есть своя логика: однообразная, неинтересная работа выполняется не человеком, а машиной. И для пользователя процедура получения информации упрощается: назвал определенный набор цифр - получил нужную информацию.

ак же работает такая система? Давайте попробуем разобраться.

Двумя основными типами программ для распознавания речи являются:

Программы для диктовки — ввод текста и цифровых данных.

Сразу оговоримся, что системы Text-to-speech и speech-to-text, то есть переводящие текст в устную речь и наоборот, мы рассматривать не будем. Ограничимся только системами автоматического распознавания команд, или голосовыми навигаторами.

САРР — что это такое?

истемы автоматического распознавания речи (САРР) - это элемент процесса обработки речи, назначение которого - обеспечить удобный диалог между пользователем и машиной. В широком понимании речь идет о системах, которые осуществляют фонемное декодирование речевого акустического сигнала при произношении речевых сообщений свободным стилем, произвольным диктором, без учета проблемной ориентации и ограничений на объем словаря. В узком смысле САРР облегчают решение частных задач, накладывая некоторые ограничения на требования к распознаванию естественно звучащей речи в классическом его понимании. Таким образом, диапазон разновидностей САРР простирается от простых автономных устройств и детских игрушек, которые способны распознавать или синтезировать раздельно произносимые слова, цифры, города, имена и т.п., до суперсложных систем распознавания естественно звучащей речи и ее синтеза для использования, например, в качестве секретаря-референта (IBM VoiceType Simply Speaking Gold).

Являясь основной составляющей любого дружественного интерфейса между машиной и человеком, САРР может быть встроена в различные приложения, например в системы голосового контроля, голосового доступа к информационным ресурсам, обучения языку с помощью компьютера, помощи недееспособным, доступа к чему-либо через системы голосовой верификации/идентификации.

САРР весьма полезна как средство поиска и сортировки записанных аудио- и видеоданных. Распознавание речи также используется при вводе информации, что особенно удобно, когда глаза или руки человека заняты. САРР позволяет людям, работающим в напряженной обстановке (врачи в больницах, рабочие на производстве, водители), применять компьютер для получения или ввода необходимой информации.

Обычно САРР используется в таких системах, как телефонные приложения, встроенные системы (системы набора номера, работа с карманным компьютером, управление автомобилем и т.д.), мультимедийные приложения (системы обучения языку).

Голосовые ключи

олосовыми ключами иногда называют системы автоматического распознавания личности по речи. Обычно это биометрические системы либо санкционированного доступа к информации, либо физического доступа к объектам. Следует различать две разновидности таких систем: системы верификации и системы идентификации. При верификации пользователь предварительно предъявляет свой код, то есть заявляет о себе тем или иным способом, а затем вслух произносит пароль или какую-нибудь произвольную фразу. Система проверяет, соответствует ли данный голос тем эталонам, которые были вызваны из памяти компьютера по предъявленному коду.

При идентификации предварительного заявления о пользователе не делается. В этом случае выполняется сравнение данного голоса со всеми эталонами и затем конкретно определяется, кем является опознаваемый по голосу человек. Сегодня известно множество подходов и методов для реализации таких систем, и все они, как правило, отличаются друг от друга - сколько разработчиков, столько и их разновидностей. То же самое можно сказать и о системах распознавания речи. Поэтому судить о характеристиках конкретных систем распознавания речи и распознавания личности по речи допустимо только с помощью специальных тестовых баз данных.

Немного истории

оединенные Штаты Америки, конец 60-х годов XX века: «Три», - сказал Валтер Кронкит (Walter Cronkite), ведущий научно-популярной программы «XXI век», во время демонстрации новейших разработок в области распознавания речи. Компьютер распознал это слово как «четыре». «Идиот», - пробормотал Валтер. «Этого слова нет в словаре», - ответил компьютер.

Хотя первые разработки в области распознавания речи относятся еще к 1920-м годам, первая система была создана только в 1952 году компанией Bell Laboratories (сегодня она входит в состав Lucent Technologies). А первая коммерческая система была создана еще позже: в 1960 году IBM объявила о разработке такой системы, но на рынок программа так и не вышла.

Затем, в 1970-х годах, авиакомпания Eastern Airlines в США установила дикторозависимую систему отправки багажа: оператор называл пункт назначения - и багаж отправлялся в путь. Однако из-за количества допущенных ошибок система так и не прошла испытательный срок.

После этого разработки в данной области если и велись, то достаточно вяло. Даже в 1980-х годах реальных коммерческих приложений с использованием систем распознавания речи было довольно мало.

Сегодня в этом направлении работают уже не десятки, а сотни исследовательских коллективов в научных и учебных заведениях, а также в крупных корпорациях. Об этом можно судить по таким международным форумам ученых и специалистов в области речевых технологий, как ICASSP, EuroSpeech, ICPHS и др. Результаты работы, на которую, как у нас образно говорят, «навалились всем миром», трудно переоценить.

Уже в течение нескольких лет голосовые навигаторы, или системы распознавания команд, успешно применяются в различных областях деятельности. Например, call-центр OmniTouch, поставленный Ватикану компанией Alcatel, использовался для обслуживания мероприятий, проходивших в рамках празднования 2000-летия Христа. Паломник, звонивший в call-центр, излагал свой вопрос, и система автоматического распознавания речи «выслушивала» его. Если система определяла, что вопрос задан по часто встречающейся теме, например о расписании мероприятий или адресах гостиниц, то включалась предварительно сделанная запись. При необходимости уточнить вопрос предлагалось речевое меню, в котором голосом надо было указать один из пунктов. Если же система распознавания определяла, что предварительно записанного ответа на заданный вопрос нет, то происходило соединение паломника с оператором-человеком.

В Швеции не так давно была открыта автоматическая телефонная справочная служба, использующая программу распознавания речи компании Philips. За первый месяц работы службы Autosvar, которая начала действовать без официального объявления, ее услугами воспользовались 200 тыс. клиентов. Человек должен набрать определенный номер и после ответа автоматического секретаря назвать интересующий его раздел информационного справочника.

Новая услуга предназначена в основном для частных клиентов, которые предпочтут ее из-за значительно меньшей стоимости услуг. Служба Autosvar является первой системой такого рода в Европе (в США испытания аналогичной службы в компании AT&T были начаты в декабре прошлого года).

Вот несколько примеров использования этой технологии в США.

Риэлтеры часто обращаются к услугам компании Newport Wireless. Когда риэлтер проезжает на машине по улице и видит возле какого-нибудь дома табличку «Продается», он звонит в Newport Wireless и запрашивает сведения о доме с таким-то номером, находящемся на такой-то улице. Автоответчик приятным женским голосом рассказывает ему о метраже дома, дате постройки и владельцах. Вся эта информация находится в базе данных Newport Wireless. Риэлтерам остается только выдать сообщение клиенту. Абонентская плата - около 30 долл. в месяц.

Джули, виртуальный агент компании Amtrak, обслуживает железнодорожных пассажиров с октября 2001 года. Она по телефону сообщает о расписании поездов, об их прибытии и отправлении, а также производит бронирование билетов. Джули - это продукт компании SpeechWorks Software и Intervoice Hardware. Она уже увеличила показатель удовлетворенности пассажиров на 45%; 13 из 50 клиентов получают всю нужную информацию из «уст» Джули. Раньше компания Amtrak использовала тоновую систему справки, однако показатель удовлетворенности тогда был меньше: всего 9 клиентов из 50.

В Amtrak признаются, что свою цену (4 млн. долл.) Джули окупила за 12-18 месяцев. Она позволила не нанимать на работу целую команду служащих. А British Airways экономит 1,5 млн. долл. в год, используя технологию от Nuance Communications, которая тоже автоматизирует справочную службу.

Недавно Sony Computer Entertainment America представила Socom - первую видеоигру, в которой игроки могут отдавать устные приказы бойцам из «Deploy grenades». В игре стоимостью 60 долл. применена технология ScanSoft. В прошлом году было продано 450 тыс. таких игр, что сделало Socom безусловным лидером продаж компании.

В дорогих автомобилях типа Infinity и Jaguar уже несколько лет используется устный контроль за панелью управления: радио, температурный режим и навигационная система понимают голос владельца машины и беспрекословно слушаются хозяина. Но сейчас технология распознавания голоса начинает применяться и в машинах среднего класса. Так, с 2003 года Honda Accord имеет встроенный голосовой определитель от IBM. Он называется ViaVoice и является частью навигационной системы за 2000 долл. По сообщению компании-поставщика, одна пятая часть покупателей Honda Accord сделала выбор в пользу модели с голосовой системой навигации.

Даже в медицине технология распознавания голоса нашла свое место. Уже разработаны аппараты осмотра желудка, послушные голосу врача. Правда, эти аппараты, по словам специалистов, пока еще несовершенны: у них замедленная реакция на приказы врача. Но все еще впереди. В Мемфисе VA Medical Center вложил 277 тыс. долл. в программу Dragon, позволяющую врачам и медсестрам надиктовывать информацию в базу данных компьютера. Вероятно, скоро не нужно будет мучиться, чтобы разобрать в медицинской карте почерк врача.

Уже сотни крупных компаний используют технологию распознавания голоса в своей продукции или в услугах; в их числе - AOL, FedEx, Honda, Sony, Sprint, T. Rowe Price, United Airlines и Verizo. По оценкам экспертов, рынок голосовой технологии достиг в 2002 году порядка 695 млн. долл., что на 10% выше, чем в 2001 году.

Авиакомпания United Airways внедрила автоматическую справочную службу еще в 1999 году. Автоматические системы обработки телефонных звонков эксплуатируются такими компаниями, как инвестиционный банк Charles Schwab & Co, розничная сеть Sears, сеть супермаркетов Roebuck. Американские операторы беспроводной связи (AT&T Wireless и Sprint PCS) уже больше года используют подобные программы и предоставляют услуги голосового набора. И хотя сейчас лидером по количеству call-центров такого типа является Америка, в последнее время выгоду от систем распознавания речи начали осознавать и в Европе. Например, швейцарская служба железных дорог уже предоставляет своим немецкоязычным пассажирам услуги, аналогичные тем, что предлагает United Airways.

Прогнозы аналитиков

егодня технологии распознавания речи считаются одними из наиболее перспективных в мире. Так, по прогнозам американской исследовательской компании Cahners In-Stat, мировой рынок ПО распознавания речи к 2005 году увеличится с 200 млн. до 2,7 млрд. долл. По мнению же фирмы Datamonitor, объем рынка голосовых технологий будет расти в среднем на 43% в год: с 650 млн. долл. в 2000 году до 5,6 млрд. долл. в 2006-м (рис. 1). Эксперты, сотрудничающие с медиакорпорацией CNN, отнесли распознавание речи к одной из восьми наиболее перспективных технологий нынешнего года. А аналитики из IDC заявляют, что к 2005 году распознавание речи вообще вытеснит с рынка все остальные речевые технологии (рис. 2).

Основные сложности

лавная проблема, возникающая при разработке САРР, заключается в вариативном произношении одного и того же слова как разными людьми, так и одним и тем же человеком в различных ситуациях. Человека это не смутит, а вот компьютер - может. Кроме того, на входящий сигнал влияют многочисленные факторы, такие как окружающий шум, отражение, эхо и помехи в канале. Осложняется это и тем, что шум и искажения заранее неизвестны, то есть система не может быть подстроена под них до начала работы.

Однако более чем полувековая работа над различными САРР дала свои плоды. Практически любая современная система может работать в нескольких режимах. Во-первых, она может быть зависимой или независимой от диктора. Зависимая от диктора система требует специального обучения под конкретного пользователя, чтобы точно распознавать то, что он говорит. Для обучения системы пользователю надо произнести несколько определенных слов или фраз, которые система проанализирует и запомнит результаты. Этот режим обычно используется в системах диктовки, когда с системой работает один пользователь.

Дикторонезависимая система может быть использована любым пользователем без обучающей процедуры. Этот режим обычно применяется там, где процедура обучения невозможна, например в телефонных приложениях. Очевидно, что точность распознавания дикторозависимой системы выше, чем у дикторонезависимой. Однако независимая от диктора система удобнее в использовании, например она может работать с неограниченным кругом пользователей и не требует обучения.

Во-вторых, системы делятся на работающие только с изолированными командами и на способные распознавать связную речь. Распознавание речи является значительно более сложной задачей, чем распознавание отдельно произносимых слов. Например, при переходе от распознавания изолированных слов к распознаванию речи при словаре в 1000 слов процент ошибок увеличивается с 3,1 до 8,7, кроме того, для обработки речи требуется в три раза больше времени.

Режим изолированного произнесения команд наиболее простой и наименее ресурсоемкий. При работе в этом режиме после каждого слова пользователь делает паузу, то есть четко обозначает границы слов. Системе не требуется самой искать начало и конец слова в фразе. Затем система сравнивает распознанное слово с образцами в словаре, и наиболее вероятная модель принимается системой. Этот тип распознавания широко используется в телефонии вместо обычных DTMF-методов .

Дополнительные вариации в речи возникают также из-за произвольных интонаций, ударений, нестрогой структуры фраз, пауз, повторов и т.д.

На стыке слитного и раздельного произнесения слов возник режим поиска ключевых слов. В этом режиме САРР находит заранее определенное слово или группу слов в общем потоке речи. Где это может быть использовано? Например, в подслушивающих устройствах, которые включаются и начинают запись при появлении в речи определенных слов, или в электронных справочных. Получив запрос в произвольной форме, система выделяет смысловые слова и, распознав их, выдает необходимую информацию.

Размер используемого словаря - важная составляющая САРР. Очевидно, что чем больше словарь, тем выше вероятность того, что система ошибется. Во многих современных системах есть возможность или дополнять словари по мере необходимости новыми словами, или подгружать новые словари. Обычный уровень ошибок для дикторонезависимой системы с изолированным произнесением команд - около 1% для словаря в 100 слов, 3% - для словаря в 600 слов и 10% - для словаря в 8000 слов.

Предложения современного рынка САРР

а рынке сегодня представлены CАРР различных компаний. Рассмотрим некоторые из них.

Aculab

Точность узнавания 97%.

Дикторонезависимая система. Разработчики системы проанализировали различные базы данных для многих языков, чтобы учесть все вариации речи, возникающие в зависимости от возраста, голоса, пола и акцента. Собственные алгоритмы обеспечивают распознавание речи независимо от особенностей оборудования (наушников, микрофона) и характеристик канала.

Система поддерживает возможность создания дополнительных словарей, учитывающих особенности произношения и акцентов. Это особенно полезно в тех случаях, когда системой пользуются люди, произношение которых сильно отличается от общепринятого.

Система поддерживает наиболее распространенные языки, такие как британский и американский английский, французский, немецкий, итальянский, североамериканский испанский. Словарь может быть настроен на любой из этих языков, но невозможно одновременно использовать несколько языков в составе одного словаря.

Продукт доступен на базе Windows NT/2000, Linux и Sun SPARC Solaris.

Babear SDK Version 3.0

Дикторонезависимая система, не требующая обучения под конкретного пользователя. Адаптация под пользователя происходит во время работы и обеспечивает наилучший результат распознавания. Автоматическая подстройка на голосовую активность позволяет распознавать речь в сильно зашумленной среде, например в салоне автомобиля. Система не определяет слова, не занесенные в словарь. Предусмотрена возможность поиска ключевых слов. Система может быть настроена на работу как с маленьким словарем (изолированное произнесение команд), так и с большим по объему словарем (речь).

Система поддерживает следующие языки: британский и американский английский, испанский немецкий, французский, датский, шведский, турецкий, греческий, исландский и арабский.

Система работает на базе Windows 98 (SE)/NT 4.0/2000/CE, Mac OS X и Linux.

Loquendo ASR

Дикторонезависимая система, оптимизированная для использования в телефонии. Предусмотрена возможность распознавания отдельных слов и речи, поиска ключевых слов (словарь до 500 слов). Позволяет создавать дружественные пользователю приложения за счет большого объема словаря и гибкости системы.

Поддерживает 12 языков, включая наиболее распространенные европейские языки (итальянский, испанский, британский и американский английский, французский, немецкий, греческий, шведский и др.).

Входит в состав продукта Loquendo Speech Suite вместе с системой text-to-speech и программой Loquendo VoiceXML Interpreter, поддерживающей использование различных голосов и языков.

Система работает на базе MS Windows NT/2000, UNIX и Linux.

LumenVox

Дикторонезависимая система, не требующая обучения, но после адаптации под конкретного пользователя результаты распознавания становятся гораздо лучше: точность распознавания превышает 90%.

Поддерживает различные форматы аудиофайлов: (u-law 8 кГц, РСМ 8 кГц, РСМ 16 кГц). Не имеет жестких требований к аппаратным ресурсам. Работает на базе Windows NT/2000/XP и Linux.

Требования к системе (на базе Windows):

Windows NT 4.0 c Service Pack 6a, Windows 2000 или Windows XP Pro;

Минимальный размер памяти 512 Mбайт.

Требования к системе (на базе Red Hat Linux):

Red Hat Linux 7.2;

Intel Pentium III 800 MГц или выше;

Объем памяти 256 Mбайт;

Размер диска 17 Mбайт (после декомпрессии).

Nuance

По словам производителей, система оптимизирована для наименьшего потребления памяти и других системных ресурсов. Точность распознавания - до 96%, причем остается высокой даже в зашумленном помещении.

Есть возможность самообучения системы и ее подстройки под каждого пользователя.

Работает на базе Windows 2000 и Linux.

SPIRIT

Язык может быть любой (словарь составляется под конкретные требования клиента и включает те слова и на том языке, которые клиент указал в требованиях к настройкам системы. В словарь могут быть включены слова из разных языков, то есть, не меняя настроек, система может распознавать слова, например, как на китайском, так и на финском языке, если они были заранее внесены в словарь). Таким образом, эта система может работать с любым языком, тогда как другие системы - лишь с определенным их набором.

Это автоматическая система распознавания речи, обеспечивающая высокое качество распознавания даже в сильно зашумленной среде. Система может быть легко настроена на работу в одном из двух режимов: распознавание фраз с фиксированным числом команд (произнесение отдельных команд, режим PIN-кода) и распознавание фраз с произвольным числом команд (слитное произнесение команд, «режим связной речи»). Есть возможность поиска ключевых слов. Данное решение работает в условиях аддитивного нестационарного шума. Требуемое соотношение «сигнал/шум» до 0 дБ в «режиме PIN-кода» и до +15 дБ в режиме связной речи.

Задержка распознавания — 0,2 с. Параметры акустического канала: полоса пропускания в пределах 300-3500 Гц. Адаптация к акустической среде производится по фрагментам шума суммарной длиной не менее 3 с.

Для «режима PIN-кода»:

Словарь — 50 команд;

Вероятность правильного распознавания - 95-99% при SNR = 0…6 дБ;

Требуемые акустические условия: аддитивный широкополосный статичный шум с SNR (отношение «сигнал/шум») >= 15 дБ.

Для режима распознавания связной речи:

Словарь — 12 слов /цифр;

Вероятность правильного распознавания цепочки слов - 98-99%.

Специфика: адаптация к произвольным шумам.

Автоматическая система распознавания речи от SPIRIT доступна в форме приложения для PC под MS Windows или ассемблерного кода. По запросу клиентов решение может быть портировано на любую DSP- или RISC-платформу.

VoiceWare

Система может работать как в дикторозависимом, так и в дикторонезависимом режиме, поэтому специального обучения системы для работы с конкретным пользователем не требуется.

Обеспечивается высокая точность распознавания и работа в реальном времени, даже в зашумленной среде.

Система распознает связную речь и последовательный перечень цифр.

Слова, не занесенные в словарь, и посторонний шум не воспринимаются ею, а ничего не значащие слова, такие как «а», «ну» и пр., отбрасываются.

Новые слова могут быть добавлены в словарь.

Система автоматически подстраивается под тон, произношение и другие речевые особенности пользователя.

VoiceWare поддерживает американский английский и корейский языки; китайский и японский - в разработке.

Система работает на базе Windows 95/98/NT 4.0, UNIX и Linux.

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

хорошую работу на сайт">

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ВВЕДЕНИЕ

Изучением человеческой речи занимаются давно. В середине ХХ века возникает проблема автоматического распознавания речи вычислительными машинами. За полвека ученым удалось накопить огромное количество знаний о предмете исследований. Стало понятным, что распознавание речи - очень непростая задача.

Основной техникой для многих систем распознавания речи является статистический метод, называемый скрытым Марковским моделированием (HMM). Такие системы разрабатываются во многих центрах и способны на хорошее распознавание слов речи. Вероятность распознавания слов достигает 80 - 90 %.

Области применения систем автоматического распознавания речи самые разнообразные. Например, с начала девяностых годов в нескольких американских и канадских компаниях по заказу министерства обороны США ведется разработка систем распознавания, предназначенных для перехвата телефонных переговоров. В последнее время системы распознавания применяются в компьютерных курсах обучения иностранному языку, системах подготовки текстовых документов. Перспективными направлениями являются разработка систем помощи людям с ограниченными возможностями и совершенствование человеко-машинного интерфейса .

Факторами, сдерживающими широкое внедрение систем автоматического распознавания речи, являются:

Сложность реализации в малогабаритной мобильной аппаратуре из-за высоких вычислительных расходов и их значительной неравномерности, а так же необходимость хранения в памяти большого словаря (набора моделей распознаваемых речевых единиц);

Значительное ухудшение параметров качества в условиях помех.

В данной работе представлены основные принципы построения систем распознавания речи, предварительной обработки исходного сигнала, построения акустических и языковых моделей, рассмотрен современный подход к помехоустойчивости систем распознавания. Рассматриваются способы оценки качества распознающих систем.

Уделяется так же внимание проблемам разработки, перспективам развития и непрерывного совершенствования распознающих систем.

1. СИСТЕМЫ РАСПОЗНАВАНИЯ РЕЧИ

Распознавание речи - процесс преобразования акустического сигнала, преобразованного в электрический, в последовательность слов. Распознанные слова могут быть конечным результатом, если целью системы является управление, ввод данных или подготовка документа. Они могут также быть основой для последующей лингвистической обработки для достижения понимания речи .

1.1 Классификация и структура систем распознавания речи

Классификация

Системы распознавания речи характеризуются множеством параметров, основные из которых приведены в таблице 1.1.

Таблица 1.1. Общие параметры систем распознавания речи

Параметр

Диапазон изменения

Связность

Отдельные слова или непрерывная речь

Речь по написанному тексту или спонтанная

Подстройка

Зависимость или независимость от говорящего

От малого(<20 слов) до большого(>20000)

Языковая модель

С набором состояний или зависимая от контекста

Перплексность

От малой (< 10) до большой (> 100)

От большого (>30dB) до малого (<10dB)

Если система предназначена для распознавания отдельных слов, то говорящий должен делать между ними паузы, если - для непрерывной речи, то нет. Спонтанная речь обычно содержит гораздо больше бессвязностей, чем речь читающего письменный текст, следовательно, ее труднее распознавать. Некоторые системы требуют подстройки под говорящего, когда пользователь перед применением системы должен произнести какие-то слова или фразы для подстройки системы, в то же время другие системы этого не требуют. Распознавание в целом является более сложной задачей, когда объем словаря большой и содержит много похоже звучащих слов.

Простейшую модель языка можно описать сетью с определенным числом состояний. В ней множество допустимых слов, следующих за каждым словом, является определенным. Модели, приближающиеся к естественному языку, определяются с помощью контекстно-зависимых грамматик.

Широко используемым показателем сложности задачи, решаемой системой распознавания, является перплексность (perplexity, трудность, сложность, запутанность). Перплексность определяется как число возможных слов, следующих за данным словом в данной языковой модели.

Распознающую систему характеризует так же такой параметр как максимально допустимое отношение сигнал-шум (signal to noise ratio, SNR).

Распознавание речи - сложная задача, в основном из-за большого числа источников, влияющих на параметры речевого сигнала:

Акустическое звучание фонем, наименьших речевых единиц, сильно зависит от окружающего их фонетического контекста (/t/ в словах two, true, butter), в словосочетаниях контекстная зависимость становится еще сильнее («освоить производство», «усвоить хорошие манеры»);

Акустические вариации сигнала из-за различия акустики помещений, характеристик и расположения микрофона;

Физическое и эмоциональное состояние говорящего;

Его возраст, пол, социальное положение, диалект.

Общая структура системы распознавания речи представлена на рисунке 1.1.

Рисунок 1.1 - Структура системы распознавания речи.

Речевой сигнал делится на участки, для каждого участка рассчитывается набор параметров. Эти параметры используются для поиска самого подходящего слова - кандидата в пределах имеющихся акустических, лексических и языковых моделей. Лексические модели в современных системах включены в языковую модель как принципы и способы создания словаря на основе имеющейся текстовой базы и поиска в нем. В наиболее простых системах языковая модель вырождается в лексическую.

1.2 Современный уровень развития

Качество работы распознающей системы обычно оценивается с помощью такого показателя как норма ошибки:

(1.1)

N - общее число слов в тестовом наборе, S, I, D - соответственно число замещений, вставок и удалений слов.

С девяностого года 20 века в технологии распознавания речи достигнут значительный успех. Норма ошибки снижалась примерно в 2 раза за каждые 2 года. Были в основном преодолены барьеры зависимости распознающей системы от диктора, распознавания непрерывной речи и использования словаря большого объема. Этому способствовали несколько факторов:

- использование Скрытых Марковских моделей (СММ);

Разработка стандартных правил составления речевых баз данных для обучения и тестирования (TIMIT, RM, ATIS, WSJ и др.), они позволяют разработчикам определять число акустических реплик, важных для подчеркивания фонетических особенностей, на основе статистических методик. Стандартизация правил обучения и тестирования позволяет так же сравнить производительность различных систем;

- существенное увеличение производительности вычислительных систем.

Типичная задача с низким уровнем перплексности (РР = 11) - распознавание цифр в стандартном телефонном канале. Здесь достигнута норма ошибки 0,3% при известной длине последовательности цифр.

Задачами среднего уровня перплексности являются задачи управления ресурсами, например система распознавания спонтанной речи для информационной системы воздушного движения (Air Travel Information Service, ATIS) со словарем около 2000 слов и РР = 15 достигает нормы ошибки не более 3%.

Высоким уровнем перплексности (РР? 200) и большим словарем (около 20000 слов) обладают системы, предназначенные для диктовки текста. Достигнутая ими норма ошибки составляет порядка 7%.

Основными направлениями применения распознающих систем являются голосовой набор телефонного номера (например «звоню домой» вместо набора номера), подготовка документов, информационно-справочные системы, системы обучения иностранному языку.

1.3 Перспективы

Помехоустойчивость

Качество работы распознающих систем катастрофически снижается при возрастании разницы в условиях записи обучающих речевых данных и условиях реальной работы из-за различных помех. Поэтому, влиянию акустического окружения и электрических характеристик канала передачи будет уделено особое внимание.

Переносимость

При переносе современных систем на решение новой задачи качество их работы сильно снижается. Для его улучшения требуется переобучение системы. Переносимость подразумевает возможность применения системы для решения разных задач с минимальной подстройкой.

Адаптация, подстройка

Даже в ходе эксплуатации системы для решения одной и той же задачи, внешние условия могут меняться (дикторы, микрофоны и т.д.). Необходимо решить, как заставить систему улучшать качество работы в ходе эксплуатации и подстраиваться под новые условия.

Языковые модели

Современные системы используют статистические языковые модели для снижения пространства поиска и разрешения неопределенности акустической модели. С ростом объема словаря и ослаблением прочих ограничений, для создания жизнеспособных систем все более важным фактором становится определение правил и ограничений, накладываемых синтаксисом распознаваемого языка. При этом чисто статистические языковые модели будут включать все больше синтаксических и семантических правил и ограничений.

Мера доверия гипотезам

Большинство распознающих систем для упорядочения гипотез сопоставляют каждой гипотезе некоторый вес, число. В настоящее время этот вес, как правило, не является показателем доверия к данной гипотезе (т.е. чем эта гипотеза лучше других). Для задач управления необходимо совершенствовать методы оценки достоверности гипотез.

Слова, не входящие в словарь

Системы разрабатываются для применения с определенным словарем. Однако в реальных условиях всегда будет некоторый процент слов, не входящих в словарь. Должны существовать методы определения наличия таких слов и их обработки.

Спонтанная речь

Системы, работающие в реальных условиях, всегда сталкиваются с разнообразными явлениями, присущими спонтанной речи: фальстарты, заикание, неграмматические конструкции и др. Разработка ATIS решила много вопросов в этой области, но далеко не все.

Просодия (интонация и ритм)

Интонация и ритмическая структура речи несут информацию о смысле произносимых слов. Однако в настоящее время не решен вопрос о том, как интегрировать просодическую информацию в распознающую систему.

Моделирование динамики

Современные системы принимают последовательность участков акустического сигнала и обрабатывают их как статические и независимые друг от друга. Однако известно, что воспринимаемые как фонемы и слова участки сигнала требуют объединения выделенных из сигнала параметров и представления их в динамике. Это отражало бы динамическую артикуляцию. Как смоделировать динамику речевого сигнала для распознающей системы - задача не решенная.

2. ПРЕДСТАВЛЕНИЕ ИСХОДНОГО СИГНАЛА

2.1 Принципы предварительной обработки сигнала

В основанном на статистических методах распознавании речи исходный сигнал подвергается дискретизации с частотой от 6,6 до 20 кГц и обрабатывается с целью представления его в виде последовательности векторов в пространстве признаков, моделирующих состояние речевого тракта диктора. При этом участок исходного сигнала длительностью 10 - 25 мс, что составляет 150 - 300 отсчетов, обычно сильно коррелированных между собой, раскладывается в ортогональный ряд и при заданной величине ошибки представляется в виде 10 - 20 коэффициентов разложения, называемых параметрами.

Эти векторы параметров в последующих шагах используются для оценки вероятности принадлежности вектора или последовательности векторов фонеме или целому слову при проверке гипотезы о принадлежности.

В большинстве систем процессы векторного представления сигнала и оценки вероятности тесно связаны. Поэтому предполагается, что если операция или процедура применяется к речевому сигналу - она относится к этапу представления. Если же она применяется для проверки гипотезы, то она - часть этапа расчета соответствия.

Цель этапа представления сигнала - сохранение всей полезной информации, необходимой для фонетической идентификации рассматриваемого участка речевого сигнала. В то же время представление должно быть максимально невосприимчивым к таким факторам как различия между дикторами, особенности каналов связи, эмоциональное состояние. Представление так же должно быть как можно более компактным.

Использующиеся в современных системах представления в большей степени отражают свойства речевого сигнала, обусловленные формой голосового тракта, чем сигналом возбуждения (основной тон, формируемый гортанью и голосовыми связками). Представления лишь определяют, вибрируют или нет голосовые связки, т.е. является ли звук вокализованным.

Используемые представления почти всегда являются производными от ограниченного энергетического спектра, спектральной плотности мощности сигнала

где x1, …, xl, …, xn - исходная последовательность отсчетов в сегменте; S(ejщ) - спектральные коэффициенты. Применение энергетического спектра целесообразно, поскольку ухо нечувствительно к фазе акустического сигнала .

Кроме того, для энергетического спектра почти всегда используется логарифмическое представление. Это позволяет снизить слишком сильные перепады параметров при значительных колебаниях амплитуды сигнала, а так же превратить мультипликативные акустические эффекты и помехи от применяемого оборудования в аддитивные помехи. Недостатком логарифмического представления является неопределенность логарифма нуля. Это требует ограничения минимума шкалы амплитуд сигнала некоторым ненулевым значением и ограничения самого сигнала снизу для избежание чрезмерной чувствительности к спектральным составляющим с низкой энергией, являющихся в основном шумовыми. .

Рисунок 2.1 - Представления речевого сигнала для распознавания

До расчета спектра сигнал обычно проходит предварительную фильтрацию, обеспечивающую рост усиления сигнала при увеличением частоты с крутизной 6 дБ/октаву для компенсации ослабления, вносимого электрическим трактом. Далее исходный сигнал делится на последовательные, накладывающиеся друг на друга участки, обычно 25 мс длины, обрабатываемые колоколовидной функцией для снижения амплитуды сигнала по краям участка. После чего рассчитывается спектральная плотность мощности.

Полученный энергетический спектр имеет нежелательную гармоническую составляющую на частоте основного тона. Эта составляющая может быть уменьшена группировкой соседних наборов спектральных составляющих до образования группы около 20 полос перед расчетом логарифма мощности. Эти полосы часто делаются последовательно все более широкими с разницей 1 кГц. Возможно так же применение набора цифровых фильтров. Результаты - сходные .

Еще более снижающим корреляцию соседних отсчетов в исходном сигнале является кепстральное представление сигнала. Здесь предполагается, что речь является сигналом на выходе линейной системы с медленно меняющимися параметрами - голосового тракта, возбуждаемой либо последовательностью импульсов основного тона, либо шумом. Анализ речевого сигнала в этом случае состоит в расчете параметров голосового тракта по измеренным параметрам речевого сигнала и оценке их с течением времени . Поскольку сигнал возбуждения x(n) и импульсная характеристика фильтра h(n) взаимодействуют через операцию свертки, задача анализа рассматривается как задача разделения компонент, участвующих в операции свертки. Такая задача называется задачей обратной свертки, или развертки. Для ее решения необходимо найти следующий гомоморфизм: C(x(n)*h(n)) = C(x(n)) + C(h(n)). Этот гомоморфизм может быть осуществлен с помощью следующего преобразования:

c(n) = F-1(ln[ |F(x(n))| ]),(2.2)

которое называется кепстром дискретного сигнала x(n), F и F-1 - соответственно прямое и обратное дискретное преобразование Фурье .

С такой же моделью формирования речевого сигнала связано авторегрессионное представление сигнала (линейное предсказание, LPC). Коэффициенты авторегрессии рассчитываются из условия непосредственной минимизации корреляции между близкими отсчетами речевого сигнала x(ti):

Разные разработчики используют на начальном этапе расчета параметров сигнала разные модели, энергетический спектр или авторегрессию, например, в телефонии обычно применяется авторегрессия, так как во всех современных телефонных вокодерах рассчитываются именно эти параметры. В вычислительных системах обычно рассчитывается спектр, поскольку компоненты для его расчета могут быть использованы другими приложениями. В дальнейшем производится расчет кепстральных коэффициентов Сi, как в наибольшей степени отвечающих задаче распознавания . Расчет кепстра через авторегрессию в вычислительном плане более экономичен, что хорошо для ограниченных ресурсов телефонии . Для компьютеров такого жесткого ограничения нет, но важна универсальность и возможность повторного использования кода, поэтому лучше - спектр. Некоторые системы рассчитывают так же динамику изменений параметров сигнала дСi внутри участка сигнала и между соседними участками.

Различные неизменные внешние факторы, такие как характеристики конкретного телефонного соединения, проявляются как постоянная составляющая (смещение) спектра или кепструма. Разностные, динамические параметры дСi не подвержены таким эффектам. Если динамические параметры первого порядка пропустить через интегратор, будут восстановлены величины, близкие исходным, статическим параметрам Сi. Сходная техника, примененная к последовательностям коэффициентов энергетического спектра, до взятия логарифма, пригодна для снижения помехи в виде стационарного или медленно меняющегося аддитивного шума.

Поскольку кепстральные коэффициенты почти некоррелированы, вычислительно эффективный метод получения достаточно хороших вероятностных оценок в последующем процессе поиска соответствия состоит в вычислении евклидовых расстояний до соответствующих векторов моделей. Расчет расстояний производится после подходящего взвешивания коэффициентов (параметров). Существует множество способов взвешивания, объединяемых в два основных класса: эмпирические и статистические .

Существуют методики, комбинирующие перечисленные методы и позволяющие почти полностью убрать корреляцию параметров, однако, из-за возрастания вычислительных затрат, в настоящее время использующиеся для демонстрационных целей .

2.2 Перспективы

В настоящее время изучается возможность применения на этапе представления исходного сигнала вэйвлет преобразований и нейросетевых методов, позволяющих производить нелинейные операции с исходным сигналом или с результатами других преобразований. Продолжается разработка представлений, более точно отражающих акустику помещения, а так же восстанавливающих артикуляцию по речевому сигналу.

Современные способы представления сигнала используют лишь форму спектра, не учитывая частоту основного тона. Однако известно, что даже в распознавании отдельных слов частота основного тона может быть ключом к лексической идентификации слов. Это касается не только тональных языков, как китайский, но и европейских, поскольку эта частота связана с лексическим ударением. В связной речи основной тон несет информацию о синтаксической структуре предложения и настроении говорящего . Исследования в этой области будут продолжаться.

3. ПОМЕХОУСТОЙЧИВОЕ РАСПОЗНАВАНИЕ РЕЧИ

3.1 Определение помехоустойчивости

Помехоустойчивость (робастность) в распознавании речи связана с необходимостью обеспечения достаточной точности при дестабилизирующих факторах :

При низком качестве входного речевого сигнала,

При существенных для акустических, артикуляторных и фонетических характеристик речи отличиях между условиями обучения и тестирования (работы).

Источниками этих факторов являются:

Акустические помехи в виде аддитивного шума,

Явления линейной фильтрации,

Нелинейные искажения при преобразованиях и передаче исходного сигнала,

Импульсные помехи,

Изменения в артикуляции диктора, вызванные наличием источников шума.

В современных системах, предназначенных для работы в благоприятных акустических условиях, во многом достигнута независимость от диктора, они компенсируют некоторое ухудшение сигнала из-за шума и неизвестной линейной фильтрации. Однако для приложений, работающих в реальных условиях, необходимость в повышении устойчивости очевидна. Даже лучшие современные системы значительно ухудшают качество работы, если распознаваемый сигнал прошел через телефонный канал или если диктор говорит с акцентом. Далее рассматривается устойчивость к искажениям сигнала, вызванным окружающими, внешними источниками помех. Основными подходами к робастности являются динамическая подстройка параметров, применение микрофонных матриц, обработка сигнала с учетом психологических моделей восприятия.

3.2 Динамическая подстройка параметров

Обычно модели адаптации систем к изменению окружающих условий предполагают, что источниками ухудшения качества речи являются аддитивный шум с неизвестным распределением спектральной плотности мощности или сочетание аддитивного шума и линейной фильтрации. Для компенсации этих помех в системе может осуществляться динамическая подстройка акустических параметров как рассчитанных из распознаваемого, входного сигнала, так и хранимых системой акустических моделей высказываний. Существуют три основных подхода к динамической подстройке параметров:

Использование оптимальной оценки для получения новых значений параметров в условиях тестирования,

Применение компенсации, основанной на эмпирическом сравнении речевого сигнала в условиях обучения и тестирования,

Высокочастотная фильтрация значений параметров.

Оптимальная оценка параметров

Используются два основных подхода к оптимальной оценке .

Первый основан на формальной статистической модели, характеризующей разницу между речью, использовавшейся при обучении системы и речью при тестировании системы. Значения параметров моделей оцениваются по тестовым образцам речи, записанным в различном окружении, после чего модифицируются либо рассчитанные параметры входного сигнала, либо акустические модели речевых единиц, хранящиеся в системе. Опыты показывают, что при таком подходе существенно снижается число ошибок при распознавании речевого сигнала с аддитивным шумом. Однако сколько-нибудь серьезно противостоять ухудшению качества речи в реальных условиях этот подход неспособен.

Второй популярный подход состоит в использовании знаний о шуме, чтобы заставить фонетические модели характеризовать речь с шумом. Знания получаются из имеющихся образцов помех и используются для подстройки параметров фонетических моделей (изменений средних значений и отклонений), рассчитанных из речи без помех. Этот подход реализован в технике, называемой параллельным комбинированием моделей. Он дает хорошие результаты для аддитивных, мультипликативных помех и для реального речевого сигнала. Однако в настоящее время слишком большие вычислительные затраты препятствуют его применению в системах распознавания.

Эмпирическое сравнение параметров

Сравниваются параметры, извлеченные из речи без помех с параметрами такой же речи, записанной с помехами. В этом подходе совместное действие различных помех рассматривается как аддитивные нарушения параметров сигнала. При сравнении параметров рассчитываются корректирующие векторы, использующиеся затем для коррекции либо векторов параметров входного распознаваемого сигнала, либо векторов параметров акустических моделей, хранящихся в распознающей системе.

Точность распознавания повышается, если корректирующие векторы полагаются зависящими от: отношения сигнал/шум, расположения в пространстве параметров в пределах заданного отношения сигнал/шум, или предполагаемого соответствия фонем.

Этот общий подход может быть распространен на случаи, когда тестовое окружение неизвестно априори, путем формирования ансамбля корректирующих векторов для множества различных тестовых внешних условий. Корректирующие векторы затем последовательно применяются к моделям речи, начиная с предположительно наиболее вероятного вектора, до нахождения наиболее точного соответствия вектору, полученному из входного сигнала.

Если условия расчета корректирующих векторов близки реальным условиям работы системы, качество ее работы достаточно высоко. Недостатком является необходимость использования стерео записи для создания базы данных акустических моделей .

Применение фильтров верхних частот

Использование высокочастотной или полосовой фильтрации при расчете кепстральных коэффициентов позволяет при минимуме затрат значительно повысить помехоустойчивость системы. Этот метод реализован в алгоритмах RASTA и CMN. Эти алгоритмы сейчас применяются практически во всех системах, где необходима помехоустойчивость .

3.3 Использование матриц микрофонов

Дополнительное улучшение точности распознавания при малом соотношении сигнал/шум может быть достигнуто с использованием матрицы микрофонов. Такая матрица в принципе может реализовать направленную чувствительность с характеристикой, имеющей максимум в направлении диктора и минимумы - в направлении источников помех, аналогично фазированной антенной решетке в радиосвязи. Изменяя фазировку отдельных элементов с помощью сумматоров и линий задержки, можно точно настроить характеристику направленности при изменении условий работы. Одновременно применяются алгоритмы компенсации спектральной окраски, вносимой самой матрицей. Опыты с микрофонной матрицей в офисной обстановке показали уменьшение нормы ошибки до 61% для помехи в виде источника аддитивного шума .

Несмотря на то, что матрица эффективна при помехе в виде аддитивного, независимого шума, она значительно ухудшает показатели при наличии множества отражающих поверхностей, когда помеха - слегка задержанная и ослабленная часть полезного сигнала.

Более продвинутые системы для компенсации помех, связанных с задержкой сигнала, используют для управления матрицей алгоритмы, основанные на взаимной корреляции. Эти алгоритмы способны усиливать акустическое поле в определенных направлениях. Тем не менее, они лишь незначительно улучшают показатели системы по сравнению с простыми алгоритмами задержки и суммирования.

3.4 Психологически обоснованная обработка сигнала

Обработка исходного речевого сигнала с учетом психологических моделей восприятия имитирует различные аспекты восприятия речи человеком. Такие системы обработки обычно включают набор полосовых фильтров, имитирующих частотную чувствительность слуха человека, за которыми следуют устройства нелинейной обработки сигнала в каналах и между каналами.

Недавние оценки распознающих систем показывают, что модели, имитирующие восприятие, обеспечивают лучшую точность распознавания, чем традиционный кепструм, и в условиях помех, и при разнице в условиях обучения и тестирования. Однако эти модели по показателю качества уступают алгоритмам динамической подстройки параметров, кроме того, динамическая подстройка - менее затратная.

Возможно, что проигрыш имитационных моделей связан с применением для классификации Скрытых Марковских моделей, которые оказываются плохо приспособленными для работы с получаемыми параметрами. Ряд исследователей так же полагает, что еще не найден оптимальный набор параметров, рассчитываемый с помощью этих моделей и максимально точно характеризующий речевой сигнал. Поэтому данное направление продолжает привлекать пристальное внимание исследователей.

3.5 Перспективы

Несмотря на очевидную важность, робастность в распознавании речи лишь недавно привлекла внимание исследователей. Значительный успех достигнут лишь для условий довольно «дружественных» помех, таких, как аддитивный шум или линейная фильтрация. Независимость систем от диктора сейчас распространяется только на носителей языка. Для людей, говорящих с акцентом, точность распознавания существенно ниже, даже при подстройке под диктора.

Речь по телефону

Распознавание телефонной речи затруднено, поскольку каждый телефонный канал имеет свои отношение сигнал/шум и частотную характеристику. Кроме того, искажение речи может быть вызвано кратковременной интерференцией или нелинейностями. Приложения для работы в телефонных линиях должны быть способны адаптироваться к разным каналам при малом количестве данных о канале.

Окружение с высоким уровнем шума

Даже при использовании различных методик компенсации шума, точность распознавания существенно падает при отношении сигнал/шум ниже 15 дБ, тогда как человек способен прекрасно слышать речь при значительно более низом отношении.

Перекрестная помеха

Влияние других разговоров, например в одном помещении или наводки по соседнему телефонному каналу, значительно более сложная задача, чем широкополосная шумовая помеха. До сих пор усилия по использованию информации, отличающей распознаваемую речь от мешающей, к существенным результатам не привели.

Быстрая адаптация к акценту в речи

В современном, быстро меняющемся обществе серьезные языковые приложения должны одинаково хорошо понимать как людей, говорящих без акцента, так и с акцентом.

Разработка принципов создания речевых баз данных

Прогресс в помехоустойчивом распознавании будет зависеть так же от разработки принципов создания речевых баз данных и непосредственно от создания таких баз данных. Для этого необходимо собрать, обработать и структурировать множество образцов искажений и помех, свойственных практическим задачам.

4. АКУСТИЧЕСКИЕ МОДЕЛИ

4.1 Место акустической модели в системе

Современные системы распознавания речи реализованы главным образом как программные продукты, генерирующие гипотезы о произносимых последовательностях слов по входному сигналу. Использующиеся в таких системах алгоритмы основаны на статистических методах.

Вектор yt акустических параметров рассчитывается по входному сигналу каждые 10-30 мс. Последовательности этих векторов рассматриваются как наблюдаемые последовательности, генерируемые фонетическими моделями. Исходя из этого рассчитывается вероятность p(ylT/W) наблюдения последовательности векторов ylT при произнесении последовательности (слова) W, другими словами - вероятность генерирования последовательности ylT моделью W. Задавшись последовательностью ylT, можно в ходе поиска по правилу:

найти наиболее вероятную последовательность слов, сгенерировавшую ylT. Эта поисковая процедура находит последовательность слов, имеющую максимальную апостериорную вероятность. Вероятность p(ylT/W) рассчитывается акустической моделью, а p(W) - языковой моделью.

Для систем с большим словарем поиск состоит из двух этапов. На первом, в ходе расчета приблизительных вероятностей в реальном масштабе времени по упрощенным моделям, генерируется решетка из n лучших последовательностей слов. На втором этапе рассчитываются более точные вероятности при ограниченном числе гипотез. Некоторые системы генерируют вероятную последовательность слов за один шаг.

4.2 Акустические модели на основе цепей Маркова

Акустические модели являются элементарными вероятностными моделями базовых лингвистических единиц (т.е. фонем) и используются для представления единиц следующего уровня - слов.

Последовательность акустических параметров, полученная из произнесенной фразы, рассматривается как реализация совокупности процессов, описываемых с помощью Скрытых Марковских моделей (СММ). СММ - совокупность двух случайных процессов:

Скрытой цепи Маркова, отвечающей за изменения во времени,

Множества наблюдаемых стационарных процессов, отвечающих за спектральные изменения.

СММ доказала на практике, что в состоянии справиться с основными источниками неоднозначности речевого сигнала, например вариациями в произнесении фонемы, позволяя при этом создавать системы со словарем из десятков тысяч слов.

Структура СММ

Модель определяется как пара случайных процессов (Х, У). Процесс Х - цепь Маркова первого порядка, реализации которой не наблюдаются непосредственно. Реализации процесса У берут свои значения из пространства акустических параметров, наблюдаются непосредственно, а их распределения зависят от реализаций процесса Х .

СММ характеризуется двумя формальными предположениями. Первое касается цепи Маркова и гласит, что следующее состояние цепи определяется только текущим состоянием и не зависит от предшествующей траектории. Второе гласит, что текущее распределение процесса У, откуда берется наблюдаемое значение акустического параметра, зависит только от текущего состояния цепи Маркова (процесса Х), а не от предыдущих траекторий процессов Х и У.

В приложении 1 приведены математическое определение модели, пример генерирования наблюдаемой последовательности и расчетные формулы.

Для переоценки параметров модели в ходе ее обучения используется алгоритм Баума-Уэлша, основанный на переоценке вероятности по формуле Байеса.

СММ можно классифицировать по элементам матрицы В, которые по своей природе являются функциями распределения.

Если функции распределения определены на конечном пространстве, то модель будет дискретной. В этом случае наблюдаемая реализация - вектор значений из конечного алфавита в М элементов. Для каждого элемента вектора Q, выбираемого из множества V, определена ненулевая дискретная плотность {w(k)/k=1,…,M}, формирующая распределение. Такое определение предполагает независимость элементов множества V.

Если распределения определены как плотности вероятности на непрерывном пространстве, то модель будет непрерывной. В этом случае к функциям распределения предъявляются требования с целью ограничения числа оцениваемых параметров до приемлемых пределов. Наиболее популярный подход состоит в использовании линейной комбинации плотностей g из семейства G стандартных распределений с простой параметрической формой. Обычно в качестве g используется многомерное нормальное распределение, характеризующееся вектором математического ожидания и ковариационной матрицей. Число стандартных распределений, участвующих в линейной комбинации при формировании результирующего распределения, обычно ограничивается вычислительными возможностями и имеющимся объемом учебных данных .

Настройка параметров распределений в ходе обучения непрерывной модели требует большого числа учебных образцов. При их недостатке прибегают к использованию псевдонепрерывной модели, в которой для формирования линейной комбинации используется стандартный набор базовых плотностей. Линейные комбинации отличаются друг от друга только весовыми коэффициентами. Общий подход состоит в связывании каждой координаты входного вектора со своим, отличающимся от других, набором базовых плотностей.

4.3 Моделирование слов

Фонетическая декомпозиция

Слово обычно представляется сетью фонем. Каждый путь в сети представляет вариант произношения слова .

Одна и та же фонема, произнесенная в разных контекстах, может иметь отличающиеся акустические параметры, а значит моделироваться разными распределениями. Аллофоны - модели, представляющие фонему в разных контекстах. Решение, сколько аллофонов будут представлять конкретную фонему, зависит от многих факторов, основной из которых - количество обучающих данных для настройки параметров акустической модели.

Существует несколько разновидностей аллофонной модели. Одна из них - полифоны. В принципе произнесение фонемы отличается во всех словах, где она встречается, поэтому требует разных аллофонов. При большом объеме словаря, обучить такую модель практически невозможно из-за недостатка обучающих данных. Поэтому используется представление аллофонов на нескольких уровнях детализации: слово, слог, трифон, дифон, контекстно-независимая фонема. Вероятностные распределения аллофонов на разных уровнях детализации могут быть получены комбинированием распределений более детальных уровней представлений. Потеря особенностей компенсируется улучшением оценки статистических параметров модели при ее обучении благодаря возрастанию отношения объема обучающих данных к числу оцениваемых параметров модели.

Другая разновидность заключается в кластеризации аллофонов по некоторому числу возможных классов контекстов. Поиск класса проводится автоматически, с помощью классификационно-регрессионного дерева (CART). Это - бинарное дерево, в корне находится фонема, с каждым узлом ассоциирован вопрос о контексте типа: «Предыдущая фонема носовая согласная?» Для каждого возможного ответа (да, нет) существует ветвь к другому узлу. Листьями дерева являются аллофоны. Существуют алгоритмы роста и обрезки CART, автоматически связывающие с узлами вопросы из созданного вручную пула .

Каждый аллофон в системах распознавания моделируется с помощью СММ. В общем, все модели могут быть построены с использованием распределений, взятых из одного, разделяемого пула или до нескольких тысяч кластеров, называемых сенонами.

Модели аллофонов более высокого уровня, например слов, могут быть так же построены конкатенацией базовых моделей с помощью связующих переходов и распределений. Такие строительные блоки называют фенонами и мультонами.

Другой подход к моделированию слов состоит в использовании кодовой книги - набора эталонных признаков, являющихся ее словами. По входному вектору параметров сигнала находится наиболее близкий эталонный признак из кодовой книги, которому соответствует свой номер. Для кодовой книги используется стандартный набор базовых плотностей, слова представляются последовательностями номеров признаков. Каждая последовательность номеров затем моделируется с помощью СММ .

Определение границ и вероятностей слов

В общем, речевой сигнал и его представления не дают четких указаний на границы между словами, следовательно, определение границы слов является частью процесса выдвижения гипотезы, выполняемого как поиск. В ходе этого процесса модели слов сравниваются с последовательностью акустических параметров. В вероятностных рамках сравнение акустических последовательностей с моделями включает расчет вероятности генерирования данной последовательности данной моделью, т.е. расчет p(ylT/W). Это - ключевая составляющая процесса распознавания.

При заданной временной последовательности: 1, 2, …, t, t+1, …, T-1, T :

Вероятность dt(i) того, что к моменту t наблюдалась последовательность o1,o2…ot и модель находится в состоянии Si (forward algorithm):

для всех 1?i?N, 1?j?N, t = 1,2,…,T-1:

при t = 1: d1(i) = пi bi(o1);(4.2)

при t > 1: dt(j) = .(4.3)

Вероятность ft(i) наблюдения последовательности ot+1,ot+2,…oT начиная с момента t+1до Т при условии, что в момент t модель находится в состоянии Si (backward algorithm):

для всех 1?i?N, 1?j?N, t = T-1,T-2,…,1:

при t = T: fT(i) = 1;(4.4)

при t < T: ft(i) = .(4.5)

Полная вероятность того, что модель за Т тактов пройдет какую-либо траекторию (вероятность соответствия последовательности и модели) можно рассчитать тремя способами:

P(O/л) = ;(4.6)

P(O/л) = ;(4.7)

P(Q/л) = dt(i) ft(i) = .(4.8)

Пример расчета вероятности приведен в приложении 2.

Для расчетов используются модели в виде линейной последовательности состояний, имеющие начало и конец. Переходы возможны только на месте и от начала к концу без перескока через состояния. Перед расчетом соответствия исходная последовательность векторов параметров делится на сегменты, равные по длине данной модели.

4.4 Перспективы

Достигнутые в последние годы значительные успехи в акустическом моделировании позволили реализовать хорошее качество распознавания при использовании большого словаря в реальном масштабе времени, при этом расходуя приемлемое количество ресурсов. Однако существует ряд аспектов, требующих улучшения. В первую очередь это касается адаптации к разным дикторам и разному акустическому окружению, в том числе и при наличии помех. Существуют так же трудности с обработкой заиканий, фальстартов, отсутствующих в словаре слов и других особенностей, присущих спонтанной речи.

Основными направлениями современных исследований являются акустическая помехоустойчивость, улучшение систем акустических параметров и моделей, работа с большим лексиконом, поддержка нескольких контекстов и нескольких языков, разработка методов автоматического обучения систем.

5. ЯЗЫКОВЫЕ МОДЕЛИ

5.1 Место языковой модели в системе

Системы распознавания речи преобразуют акустический сигнал в орфографическое представление произносимого высказывания. Распознаватель строит гипотезы, пользуясь конечным словарем. Для простоты предполагается, что слово однозначно определяется своим произношением.

Значительный прогресс в решении проблемы распознавания достигнут с началом использования статистической модели совместного распределения p(W,O) последовательности произносимых слов W и соответствующей акустической последовательности О. Этот подход впервые был применен компанией IBM под названием “source-channel model” (модель источник-канал). В ней определяется оценка соответствия выбранной словарной последовательности наблюдавшемуся акустическому факту О с помощью апостериорного распределения p(W/O) .

Для минимизации ошибки система выбирает словарную последовательность, максимизирующую это апостериорное распределение:

где p(W) - вероятность последовательности слов W, p(O/W) - вероятность наблюдения акустической последовательности О при произнесении последовательности слов W, p(O) - полная вероятность наблюдения последовательности О по всем имеющимся акустическим моделям. p(O/W) = p(ylT/W) = P(O/ л) и рассчитывается на этапе акустического моделирования с помощью СММ и называется каналом. p(O) полагается равной 1. Априорная вероятность p(W) рассчитывается с помощью языковой модели (ЯМ).

Аналогичная модель распознавания применяется для распознавания печатных и рукописных текстов .

5.2 Языковая модель на основе триграмм

Для заданной последовательности слов W={w1,…,wn} ее вероятность можно представить как:

w0 определяется подходящим для обеспечения начальных условий. Вероятность каждого следующего слова wi зависит от уже произнесенной последовательности hi. При таком определении сложность модели растет экспоненциально с ростом произнесенной последовательности слов. Чтобы упростить модель, сделав ее пригодной для практики, предполагается, что только некоторые аспекты истории влияют на вероятность следующего слова. Один из способов достичь этого - использовать некоторую операцию ц(), разделяющую историческое пространство на К эквивалентных классов. Далее можно применить модель:

Наибольший успех в последние 20 лет достигнут с помощью простых моделей n-грамм. Чаще всего применяются триграммы, где только два предыдущие слова определяют вероятность следующего слова. В этом случае вероятность последовательности слов выглядит так:

Для оценки априорных вероятностей p(W) ЯМ необходим большой объем обучающего текстуального материала. В ходе оценки рассчитываются частоты:

где с123 - число появлений последовательности слов {w1, w2, w3}, с12 - число появлений последовательности {w1, w2,}. Для словаря объема V существует V3 возможных триграмм, при словаре 20 тыс. слов - 8 трлн. Очевидно, что многие из этих триграмм не встретятся в обучающих последовательностях, поэтому для них f3(w3/w1, w2) = 0. Чтобы соответствующие вероятности не были равны нулю, проводится линейная интерполяция частот триграмм, биграмм и слов, а так же их равномерное распределение на словаре:

f1() и f2() оцениваются подсчетом соответствующих биграмм и триграмм. Коэффициенты л линейной интерполяции оцениваются поиском максимума вероятности для новых данных, не участвовавших в подсчете частот n-грамм. При максимизации используется forward-backward алгоритм (формулы (4.2) - (4.5)).

В общем случае может использоваться более одного л вектора. Так же целесообразно учесть большее доверие частотам триграмм, оцененным на большем количестве обучающих последовательностей. Для этого весовые коэффициенты л делаются зависимыми от групп биграмм и слов b(c12, c2), составляющих историю для рассматриваемого слова. Этот метод называется deleted interpolation . Применяются и другие сглаживающие схемы. При моделировании языка с помощью триграмм объем словарных данных обычно колеблется от 1 млн. до 500 млн. слов при соответственном объеме словаря от 1 тыс. до 267 тыс. слов.

5.3 Сложность (перплексность)

Для сравнения распознающих систем можно использовать норму ошибки. Этот показатель лучше всего оценивает языковые модели. Однако есть менее затратный способ оценки ЯМ. В нем используется величина, характеризующая количество информации - энтропия. Идея заключается в расчете энтропии для нового, не использовавшегося при создании модели текста. Сравнивается словарная энтропия, рассчитанная непосредственно по тексту, с энтропией, рассчитанной по ЯМ. Та ЯМ, чья энтропия будет ближе всего к текстовой, и будет лучшей .

Обозначим как р(х) правильное распределение вероятности слов в сегменте текста х, состоящем из k слов. Определим энтропию текста по словарному базису как:

Если слова в тексте равновероятны, а размер текста - V, тогда H=log2V, для других распределений H?log2V. Для определения вероятности в сегменте текста можно использовать ЯМ. Значение логарифма вероятности для ЯМ составляет:

где pЮ(wi/hi) - вероятности, определенные данной ЯМ. Предел, т.е. рассчитанный по ЯМ, - не ниже энтропии текста. Очевидно, что цель сравнения разных ЯМ - найти такую, для которой логарифм вероятности, рассчитанный по ЯМ, будет ближе всего к энтропии, рассчитанной по тексту.

Перплексность характеризует уровень логарифма вероятности ЯМ и определяется как 2lp. Грубо говоря, это - средний объем словаря, из которого выбирается очередное слово при распознавании. Перплексность зависит от использующегося речевого домена. Значения перплексности для некоторых речевых доменов приведены в таблице 5.1 .

речь распознавание акустический языковый

Таблица 5.1. Перплексность речевых доменов

5.4 Объем словаря

Норма ошибки не может быть ниже, чем процент произнесенных слов, не входящих в словарь. Поэтому основная часть построения ЯМ заключается в разработке словаря, максимально охватывающего тексты, которые, вероятно, будет распознавать система. Это остается задачей, решаемой людьми.

При создании словаря сначала подбираются тексты, характеризующие задачу, с которой будет работать система. Затем тексты с помощью средств автоматизации делятся на слова. Далее каждому слову сопоставляется набор его вариантов произношения, включая возможные будущие варианты. Все полученные варианты произношения используются для составления триграмм.

В таблице 5.2 приводится процент охвата распознающей системой новых текстов в английском языке, при использовании словаря фиксированного объема. У языков с большим числом форм слова и зависимостями в словообразовании (немецкий, французский), для такой же степени охвата требуется словарь значительно большего размера.

Более рациональный подход предусматривает составление персонифицированного словаря для каждого пользователя распознающей системы в дополнение к фиксированному словарю. Таблица 5.2 представляет рост охвата новых слов такой, динамически настраиваемой системой при начальном, фиксированном объеме словаря 20 тыс. слов. Данные сравниваются с системой, использующей статический словарь того же объема при распознавании текста представленной длины .

Таблица 5.2. Качество распознавания новых текстов

5.5 Усовершенствованные языковые модели

Существует множество усовершенствований ЯМ на основе триграмм. Основные из них упомянуты ниже .

Модели классов

Вместо слов в языковой модели можно использовать набор классов слов. Классы могут пересекаться, поскольку слово может принадлежать разным классам. Классы могут основываться на частях речи, морфологическом анализе слова, могут определяться автоматически по статистическим связям. Общая модель классов выглядит так:

где ci - классы. Если классы не пересекаются, то:

Перплексность такой модели выше, чем у основанной на триграммах, однако она снижается при комбинировании моделей этих двух типов.

Динамические модели

Здесь учитывается прошлое, продолжительностью во весь документ. Это делается для обнаружения часто встречающихся слов (например, в этом тексте часто встречающимся является слово «модель»). Использование КЭШа для таких слов позволяет придать ЯМ большую динамику, сокращая время поиска.

Комбинационные модели

Еще один подход состоит в разделении всей речевой базы на несколько кластеров. Для моделирования нового текста используется линейная комбинация триграммных моделей из разных кластеров:

где pj() оценивается по j - му текстовому кластеру.

Структурные модели

В этих моделях вместо влияния на вероятность слова ближайшей предшествующей истории, используется синтаксический разбор. С помощью такого разбора устанавливается связь между удаленными словами, что недавно было предложено учитывать при составлении удаленных биграмм.

5.6 Перспективы

Основными областями, где сейчас сосредоточены усилия, являются :

Выбор словаря

Как определить словарь нового речевого домена, практически персонализировать словарь для пользователя, сделав охват текста максимальным. Эта проблема наиболее существенна для языков с большим числом форм слова и восточных языков, где понятие слова определено нечетко.

Адаптация речевого домена

Это задача настройки эффективной ЯМ для доменов, не обладающих большим объемом словарных данных, доступных машине, а так же определения темы разговора. Это позволило бы применить для распознавания речи специфическую, тематическую модель.

Использование структуры языка

Современный уровень оценки качества работы системы не позволяет улучшать работу системы, используя структуру языка. Разработка языковой модели, основанной на структуре языка, может стать ключом к прогрессу в языковом моделировании. Современные достижения, основанные на вероятностных моделях, отражают детский этап в развитии моделирования языка. Прогресс здесь связан с ростом структуризации данных.

ЗАКЛЮЧЕНИЕ

В данной работе рассмотрены основные принципы построения систем распознавания речи на современном этапе развития, их классификация, решаемые ими задачи. Рассмотрен современный подход к помехоустойчивости систем.

Представлена структура системы, основные задачи, решаемые ее компонентами, принципы предварительной обработки исходного сигнала, построения акустических и языковых моделей,

Подобные документы

    Цифровая обработка сигналов и ее использование в системах распознавания речи, дискретные сигналы и методы их преобразования, основы цифровой фильтрации. Реализация систем распознавания речи, гомоморфная обработка речи, интерфейс записи и воспроизведения.

    дипломная работа , добавлен 10.06.2010

    Преимущества радиоканальных охранных систем. Основные направления кодирования речи: кодирование формы (Waveform coding) и источника сигнала (Source coding). Структурная схема процесса обработки речи в стандарте GSM. Оценка качества кодирования речи.

    реферат , добавлен 20.10.2011

    Задачи при передаче речи и данных. Цифровая передача речи. Категории методов цифрового кодирования речи. Кодеры формы сигнала. Вид амплитудной характеристики компрессора. Дискретная модель речеобразования. Особенности метода кратковременного анализа.

    контрольная работа , добавлен 18.12.2010

    Рассмотрение основных этапов в решении задачи оптимизации приема сигнала. Изучение методов фильтрации и оптимизации решений. Вероятностный подход к оценке приёма сигнала; определение вероятности ошибок распознавания. Статические критерии распознавания.

    презентация , добавлен 28.01.2015

    Кодирование речи RPE – LTP – кодер на 16 кбит/с. Структура декодера речи в стандарте GSM. Коэффициенты отражения кратковременного предсказания по методу Берга для РФ 8-го порядка. Спектральная характеристика постфильтра. Формирование формантных областей.

    реферат , добавлен 15.11.2010

    Структурные схемы гомоморфной обработки и анализа речевых сигналов. Комплексный кепстр речи. Компонент речевого сигнала. Период основного тона и частоты формант. Модуль передаточной функции речевого тракта. Оценивание основного тона на основе кепстра.

    реферат , добавлен 19.11.2008

    Общая классификация систем и сетей радиодоступа. Классификация систем радиодоступа по параметрам и характеристикам радиоинтерфейса. Системы с аналоговой и цифровой передачей. Услуги цифровой передачи речи. Классификация по решаемым прикладным задачам.

    реферат , добавлен 06.10.2010

    Состояние проблемы автоматического распознавания речи. Обзор устройств чтения аудио сигналов. Архитектура системы управления периферийными устройствами. Схема управления электрическими устройствами. Принципиальная схема включения электрических устройств.

    дипломная работа , добавлен 18.10.2011

    Информационные характеристики и структурная схема системы передачи; расчет параметров аналого-цифрового преобразователя и выходного сигнала. Кодирование корректирующим кодом. Определение характеристик модема; сравнение помехоустойчивости систем связи.

    курсовая работа , добавлен 28.05.2012

    Структура устройств обработки радиосигналов, внутренняя структура и принцип работы, алгоритмами обработки сигнала. Основание формирование сигнала на выходе линейного устройства. Модели линейных устройств. Расчет операторного коэффициента передачи цепи.

YaC 2013

Акустическая модель

Фонетический алфавит Яндекса

Вероятности

P.S.

Сегодня много кто решает повседневные задачи на ходу - с телефона. С его помощью можно проверить почту, отправить документы и фотографии, найти ближайший банкомат или построить автомобильный маршрут. Не для всех подобных задач удобно пользоваться клавиатурой, поэтому сейчас одно из самых актуальных направлений мобильной разработки - это управление голосом.

В основе голосового управления лежит технология распознавания речи. В ней задействованы достижения различных областей: от компьютерной лингвистики до цифровой обработки сигналов. На конференции YaC 2013 в начале октября Яндекс представил свою технологию распознавания речи, и сегодня мы хотели бы рассказать о том, как она работает.

Акустическая модель

Если сказать голосовому поиску «Лев Толстой», смартфон услышит не имя и фамилию, не два слова, а звуковой сигнал, в котором звуки плавно перетекают друг в друга, не имея чётких границ. Задача системы распознавания речи - восстановить по этому сигналу, что было сказано. Ситуацию осложняет то, что одна и та же фраза, произнесённая разными людьми в разной обстановке, будет давать совершенно непохожие друг на друга сигналы. Правильно интерпретировать их помогает система акустического моделирования.

Когда вы произносите голосовой запрос, например, в Яндекс.Навигаторе, смартфон записывает его и отправляет на сервер Яндекса. На сервере запись разделяется на много маленьких фрагментов (фреймов) длиной 25 миллисекунд, внахлёст, с шагом 10 миллисекунд. То есть из одной секунды вашей речи получается сто фреймов.

Дальше каждый из них пропускают через акустическую модель - функцию, которая определяет, какие звуки вы произнесли. На основе этих данных система, натренированная методами машинного обучения, определяет варианты слов, которые вы видите в результатах поиска. Мобильный Браузер в ответ на запрос «Лев Толстой» найдёт сайты о великом писателе, а Навигатор и Карты предложат улицу Льва Толстого.

Точность результатов напрямую зависит от того, насколько хорошо система определяет произнесённые звуки. Для этого достаточно точным и полным должен быть фонетический алфавит, с которым она работает.

Фонетический алфавит Яндекса

В русском языке, по разным теориям, около 40 фонем (звуковых единиц). Наша система распознавания речи сопоставляет входящий речевой сигнал с фонемами, а потом уже из них собирает слова. Например, слово «Яндекс» состоит из семи фонем - [й][а][н][д][э][к][с]. Фонемы могут обладать различной длительностью, и в разбивке по фреймам слово «Яндекс» может выглядеть, например, так - [й][й][а][а][а][а][а][а][ а][а][а][а][н][н][д][д][э ][к][с]. Произношение любой фонемы зависит от её соседей и позиции в слове. То есть звук [а] в начале, в середине и в конце слова - это три разных [а], а звук [а] между двумя гласными в сочетании «на аудиозаписи» отличается от [а] между согласными в слове «бак». Поэтому для хорошего распознавания фонема - слишком грубая единица.

Чтобы точнее смоделировать произношение фонемы, мы, во-первых, делим каждую фонему на три части: условные начало, середину и конец. Во-вторых, мы разработали свой фонетический алфавит, который учитывает позицию и контекст фонем. Брать в работу все возможные варианты контекстно-зависимых фонем было бы неблагоразумно, так как многие из них не встречаются в реальной жизни. Поэтому мы научили нашу программу рассматривать похожие звуки вместе. В результате мы получили набор из 4000 элементарных единиц - сенонов. Это и есть фонетический алфавит Яндекса, с которым работает наша технология распознавания речи.

Вероятности

В идеальном мире программа безошибочно определяет, какая фонема соответствует каждому фрагменту голосового запроса. Но даже человек иногда может не понять или не расслышать все звуки и достраивает слово исходя из контекста. И если человек опирается на собственный речевой опыт, то наша система оперирует вероятностями.

Во-первых, каждый фрагмент голосового запроса (фрейм) сопоставляется не с одной фонемой, а с несколькими, подходящими с разной степенью вероятности. Во-вторых, есть таблица вероятностей переходов, которая указывает, что после «а» с одной вероятностью будет тоже «а», с другой - «б» и так далее. Это позволяет определить варианты последовательности фонем, а потом, по имеющимся у программы данным о произношении, морфологии и семантике - варианты слов, которые вы могли сказать.

Программа также умеет восстанавливать слова по смыслу. Если вы находитесь в шумном месте, говорите не очень чётко или используете неоднозначные слова, она достроит ваш запрос исходя из контекста и статистики. Например, фразу «мама мыла…» программа с большей вероятностью продолжит как «мама мыла раму», а не как «мама мыла рану». Благодаря машинному обучению на множестве данных наша программа устойчива к шуму, хорошо распознаёт речь с акцентом, качество распознавания практически не зависит от пола и возраста говорящего.

Сейчас наша технология распознавания речи правильно определяет 94% слов в Навигаторе и мобильных Картах и 84% слов в мобильном Браузере. При этом на распознавание уходит около секунды. Это уже весьма достойный результат, и мы активно работаем над его улучшением. Мы верим, что через несколько лет голосовой интерфейс ввода не будет уступать классическим способам.

P.S. Кроме собственно технологии, мы представили на YaC 2013 публичное API для распознавания речи - SpeechKit. С его помощью разработчики могут добавить голосовой поиск Яндекса в свои приложения для Android и iOS. Скачать SpeechKit, а также ознакомиться с документацией, можно .

","contentType":"text/html"},"proposedBody":{"source":"

Сегодня много кто решает повседневные задачи на ходу - с телефона. С его помощью можно проверить почту, отправить документы и фотографии, найти ближайший банкомат или построить автомобильный маршрут. Не для всех подобных задач удобно пользоваться клавиатурой, поэтому сейчас одно из самых актуальных направлений мобильной разработки - это управление голосом.

В основе голосового управления лежит технология распознавания речи. В ней задействованы достижения различных областей: от компьютерной лингвистики до цифровой обработки сигналов. На конференции YaC 2013 в начале октября Яндекс представил свою технологию распознавания речи, и сегодня мы хотели бы рассказать о том, как она работает.

Акустическая модель

Если сказать голосовому поиску «Лев Толстой», смартфон услышит не имя и фамилию, не два слова, а звуковой сигнал, в котором звуки плавно перетекают друг в друга, не имея чётких границ. Задача системы распознавания речи - восстановить по этому сигналу, что было сказано. Ситуацию осложняет то, что одна и та же фраза, произнесённая разными людьми в разной обстановке, будет давать совершенно непохожие друг на друга сигналы. Правильно интерпретировать их помогает система акустического моделирования.

Когда вы произносите голосовой запрос, например, в Яндекс.Навигаторе, смартфон записывает его и отправляет на сервер Яндекса. На сервере запись разделяется на много маленьких фрагментов (фреймов) длиной 25 миллисекунд, внахлёст, с шагом 10 миллисекунд. То есть из одной секунды вашей речи получается сто фреймов.

Дальше каждый из них пропускают через акустическую модель - функцию, которая определяет, какие звуки вы произнесли. На основе этих данных система, натренированная методами машинного обучения, определяет варианты слов, которые вы видите в результатах поиска. Мобильный Браузер в ответ на запрос «Лев Толстой» найдёт сайты о великом писателе, а Навигатор и Карты предложат улицу Льва Толстого.

Точность результатов напрямую зависит от того, насколько хорошо система определяет произнесённые звуки. Для этого достаточно точным и полным должен быть фонетический алфавит, с которым она работает.

Фонетический алфавит Яндекса

В русском языке, по разным теориям, около 40 фонем (звуковых единиц). Наша система распознавания речи сопоставляет входящий речевой сигнал с фонемами, а потом уже из них собирает слова. Например, слово «Яндекс» состоит из семи фонем - [й][а][н][д][э][к][с]. Фонемы могут обладать различной длительностью, и в разбивке по фреймам слово «Яндекс» может выглядеть, например, так - [й][й][а][а][а][а][а][а][ а][а][а][а][н][н][д][д][э ][к][с]. Произношение любой фонемы зависит от её соседей и позиции в слове. То есть звук [а] в начале, в середине и в конце слова - это три разных [а], а звук [а] между двумя гласными в сочетании «на аудиозаписи» отличается от [а] между согласными в слове «бак». Поэтому для хорошего распознавания фонема - слишком грубая единица.

Чтобы точнее смоделировать произношение фонемы, мы, во-первых, делим каждую фонему на три части: условные начало, середину и конец. Во-вторых, мы разработали свой фонетический алфавит, который учитывает позицию и контекст фонем. Брать в работу все возможные варианты контекстно-зависимых фонем было бы неблагоразумно, так как многие из них не встречаются в реальной жизни. Поэтому мы научили нашу программу рассматривать похожие звуки вместе. В результате мы получили набор из 4000 элементарных единиц - сенонов. Это и есть фонетический алфавит Яндекса, с которым работает наша технология распознавания речи.

Вероятности

В идеальном мире программа безошибочно определяет, какая фонема соответствует каждому фрагменту голосового запроса. Но даже человек иногда может не понять или не расслышать все звуки и достраивает слово исходя из контекста. И если человек опирается на собственный речевой опыт, то наша система оперирует вероятностями.

Во-первых, каждый фрагмент голосового запроса (фрейм) сопоставляется не с одной фонемой, а с несколькими, подходящими с разной степенью вероятности. Во-вторых, есть таблица вероятностей переходов, которая указывает, что после «а» с одной вероятностью будет тоже «а», с другой - «б» и так далее. Это позволяет определить варианты последовательности фонем, а потом, по имеющимся у программы данным о произношении, морфологии и семантике - варианты слов, которые вы могли сказать.

Программа также умеет восстанавливать слова по смыслу. Если вы находитесь в шумном месте, говорите не очень чётко или используете неоднозначные слова, она достроит ваш запрос исходя из контекста и статистики. Например, фразу «мама мыла…» программа с большей вероятностью продолжит как «мама мыла раму», а не как «мама мыла рану». Благодаря машинному обучению на множестве данных наша программа устойчива к шуму, хорошо распознаёт речь с акцентом, качество распознавания практически не зависит от пола и возраста говорящего.

Сейчас наша технология распознавания речи правильно определяет 94% слов в Навигаторе и мобильных Картах и 84% слов в мобильном Браузере. При этом на распознавание уходит около секунды. Это уже весьма достойный результат, и мы активно работаем над его улучшением. Мы верим, что через несколько лет голосовой интерфейс ввода не будет уступать классическим способам.

P.S. Кроме собственно технологии, мы представили на YaC 2013 публичное API для распознавания речи - SpeechKit. С его помощью разработчики могут добавить голосовой поиск Яндекса в свои приложения для Android и iOS. Скачать SpeechKit, а также ознакомиться с документацией, можно .

Сегодня много кто решает повседневные задачи на ходу - с телефона. С его помощью можно проверить почту, отправить документы и фотографии, найти ближайший банкомат или построить автомобильный маршрут. Не для всех подобных задач удобно пользоваться клавиатурой, поэтому сейчас одно из самых актуальных направлений мобильной разработки - это управление голосом.

В основе голосового управления лежит технология распознавания речи. В ней задействованы достижения различных областей: от компьютерной лингвистики до цифровой обработки сигналов. На конференции YaC 2013 в начале октября Яндекс представил свою технологию распознавания речи, и сегодня мы хотели бы рассказать о том, как она работает.

Акустическая модель

Если сказать голосовому поиску «Лев Толстой», смартфон услышит не имя и фамилию, не два слова, а звуковой сигнал, в котором звуки плавно перетекают друг в друга, не имея чётких границ. Задача системы распознавания речи - восстановить по этому сигналу, что было сказано. Ситуацию осложняет то, что одна и та же фраза, произнесённая разными людьми в разной обстановке, будет давать совершенно непохожие друг на друга сигналы. Правильно интерпретировать их помогает система акустического моделирования.

Когда вы произносите голосовой запрос, например, в Яндекс.Навигаторе, смартфон записывает его и отправляет на сервер Яндекса. На сервере запись разделяется на много маленьких фрагментов (фреймов) длиной 25 миллисекунд, внахлёст, с шагом 10 миллисекунд. То есть из одной секунды вашей речи получается сто фреймов.

Дальше каждый из них пропускают через акустическую модель - функцию, которая определяет, какие звуки вы произнесли. На основе этих данных система, натренированная методами машинного обучения, определяет варианты слов, которые вы видите в результатах поиска. Мобильный Браузер в ответ на запрос «Лев Толстой» найдёт сайты о великом писателе, а Навигатор и Карты предложат улицу Льва Толстого.

Точность результатов напрямую зависит от того, насколько хорошо система определяет произнесённые звуки. Для этого достаточно точным и полным должен быть фонетический алфавит, с которым она работает.

Фонетический алфавит Яндекса

В русском языке, по разным теориям, около 40 фонем (звуковых единиц). Наша система распознавания речи сопоставляет входящий речевой сигнал с фонемами, а потом уже из них собирает слова. Например, слово «Яндекс» состоит из семи фонем - [й][а][н][д][э][к][с]. Фонемы могут обладать различной длительностью, и в разбивке по фреймам слово «Яндекс» может выглядеть, например, так - [й][й][а][а][а][а][а][а][ а][а][а][а][н][н][д][д][э ][к][с]. Произношение любой фонемы зависит от её соседей и позиции в слове. То есть звук [а] в начале, в середине и в конце слова - это три разных [а], а звук [а] между двумя гласными в сочетании «на аудиозаписи» отличается от [а] между согласными в слове «бак». Поэтому для хорошего распознавания фонема - слишком грубая единица.

Чтобы точнее смоделировать произношение фонемы, мы, во-первых, делим каждую фонему на три части: условные начало, середину и конец. Во-вторых, мы разработали свой фонетический алфавит, который учитывает позицию и контекст фонем. Брать в работу все возможные варианты контекстно-зависимых фонем было бы неблагоразумно, так как многие из них не встречаются в реальной жизни. Поэтому мы научили нашу программу рассматривать похожие звуки вместе. В результате мы получили набор из 4000 элементарных единиц - сенонов. Это и есть фонетический алфавит Яндекса, с которым работает наша технология распознавания речи.

Вероятности

В идеальном мире программа безошибочно определяет, какая фонема соответствует каждому фрагменту голосового запроса. Но даже человек иногда может не понять или не расслышать все звуки и достраивает слово исходя из контекста. И если человек опирается на собственный речевой опыт, то наша система оперирует вероятностями.

Во-первых, каждый фрагмент голосового запроса (фрейм) сопоставляется не с одной фонемой, а с несколькими, подходящими с разной степенью вероятности. Во-вторых, есть таблица вероятностей переходов, которая указывает, что после «а» с одной вероятностью будет тоже «а», с другой - «б» и так далее. Это позволяет определить варианты последовательности фонем, а потом, по имеющимся у программы данным о произношении, морфологии и семантике - варианты слов, которые вы могли сказать.

Программа также умеет восстанавливать слова по смыслу. Если вы находитесь в шумном месте, говорите не очень чётко или используете неоднозначные слова, она достроит ваш запрос исходя из контекста и статистики. Например, фразу «мама мыла…» программа с большей вероятностью продолжит как «мама мыла раму», а не как «мама мыла рану». Благодаря машинному обучению на множестве данных наша программа устойчива к шуму, хорошо распознаёт речь с акцентом, качество распознавания практически не зависит от пола и возраста говорящего.

Сейчас наша технология распознавания речи правильно определяет 94% слов в Навигаторе и мобильных Картах и 84% слов в мобильном Браузере. При этом на распознавание уходит около секунды. Это уже весьма достойный результат, и мы активно работаем над его улучшением. Мы верим, что через несколько лет голосовой интерфейс ввода не будет уступать классическим способам.

P.S. Кроме собственно технологии, мы представили на YaC 2013 публичное API для распознавания речи - SpeechKit. С его помощью разработчики могут добавить голосовой поиск Яндекса в свои приложения для Android и iOS. Скачать SpeechKit, а также ознакомиться с документацией, можно .

","contentType":"text/html"},"authorId":"5105614","slug":"72171","canEdit":false,"canComment":false,"isBanned":false,"canPublish":false,"viewType":"old","isDraft":false,"isSubscriber":false,"commentsCount":13,"modificationDate":"Fri Nov 22 2013 16:24:00 GMT+0000 (UTC)","showPreview":true,"approvedPreview":{"source":"Сегодня много кто решает повседневные задачи на ходу - с телефона. С его помощью можно проверить почту, отправить документы и фотографии, найти ближайший банкомат или построить автомобильный маршрут. Не для всех подобных задач удобно пользоваться клавиатурой, поэтому сейчас одно из самых актуальных направлений мобильной разработки - это управление голосом.","html":"Сегодня много кто решает повседневные задачи на ходу - с телефона. С его помощью можно проверить почту, отправить документы и фотографии, найти ближайший банкомат или построить автомобильный маршрут. Не для всех подобных задач удобно пользоваться клавиатурой, поэтому сейчас одно из самых актуальных направлений мобильной разработки - это управление голосом.","contentType":"text/html"},"proposedPreview":{"source":"Сегодня много кто решает повседневные задачи на ходу - с телефона. С его помощью можно проверить почту, отправить документы и фотографии, найти ближайший банкомат или построить автомобильный маршрут. Не для всех подобных задач удобно пользоваться клавиатурой, поэтому сейчас одно из самых актуальных направлений мобильной разработки - это управление голосом.","html":"Сегодня много кто решает повседневные задачи на ходу - с телефона. С его помощью можно проверить почту, отправить документы и фотографии, найти ближайший банкомат или построить автомобильный маршрут. Не для всех подобных задач удобно пользоваться клавиатурой, поэтому сейчас одно из самых актуальных направлений мобильной разработки - это управление голосом.","contentType":"text/html"},"titleImage":null,"tags":[{"displayName":"технологии Яндекса","slug":"tekhnologii-yandeksa","categoryId":"150002777","url":"/blog/company??tag=tekhnologii-yandeksa"},{"displayName":"как это работает?","slug":"kak-eto-rabotaet","categoryId":"150006149","url":"/blog/company??tag=kak-eto-rabotaet"}],"isModerator":false,"commentsEnabled":true,"url":"/blog/company/72171","urlTemplate":"/blog/company/%slug%","fullBlogUrl":"https://yandex.ru/blog/company","addCommentUrl":"/blog/createComment/company/72171","updateCommentUrl":"/blog/updateComment/company/72171","addCommentWithCaptcha":"/blog/createWithCaptcha/company/72171","changeCaptchaUrl":"/blog/api/captcha/new","putImageUrl":"/blog/image/put","urlBlog":"/blog/company","urlEditPost":"/blog/562886797eba6ef16f805641/edit","urlSlug":"/blog/post/generateSlug","urlPublishPost":"/blog/562886797eba6ef16f805641/publish","urlUnpublishPost":"/blog/562886797eba6ef16f805641/unpublish","urlRemovePost":"/blog/562886797eba6ef16f805641/removePost","urlDraft":"/blog/company/72171/draft","urlDraftTemplate":"/blog/company/%slug%/draft","urlRemoveDraft":"/blog/562886797eba6ef16f805641/removeDraft","urlTagSuggest":"/blog/api/suggest/company","urlAfterDelete":"/blog/company","isAuthor":false,"subscribeUrl":"/blog/api/subscribe/562886797eba6ef16f805641","unsubscribeUrl":"/blog/api/unsubscribe/562886797eba6ef16f805641","urlEditPostPage":"/blog/company/562886797eba6ef16f805641/edit","urlForTranslate":"/blog/post/translate","urlRelateIssue":"/blog/post/updateIssue","urlUpdateTranslate":"/blog/post/updateTranslate","urlLoadTranslate":"/blog/post/loadTranslate","urlTranslationStatus":"/blog/company/72171/translationInfo","urlRelatedArticles":"/blog/api/relatedArticles/company/72171","author":{"id":"5105614","uid":{"value":"5105614","lite":false,"hosted":false},"aliases":{"13":"kadaner"},"login":"minushuman","display_name":{"name":"Алексей","avatar":{"default":"21377/5105614-16014116","empty":false}},"address":"[email protected]","defaultAvatar":"21377/5105614-16014116","imageSrc":"https://avatars.mds.yandex.net/get-yapic/21377/5105614-16014116/islands-middle","isYandexStaff":true},"originalModificationDate":"2013-11-22T12:24:47.000Z","socialImage":{"orig":{"fullPath":"https://avatars.mds.yandex.net/get-yablogs/49865/file_1465551301378/orig"}}}}}">

Как это работает? Распознавание речи

Сегодня много кто решает повседневные задачи на ходу - с телефона. С его помощью можно проверить почту, отправить документы и фотографии, найти ближайший банкомат или построить автомобильный маршрут. Не для всех подобных задач удобно пользоваться клавиатурой, поэтому сейчас одно из самых актуальных направлений мобильной разработки - это управление голосом.

В основе голосового управления лежит технология распознавания речи. В ней задействованы достижения различных областей: от компьютерной лингвистики до цифровой обработки сигналов. На конференции в начале октября Яндекс представил свою технологию распознавания речи, и сегодня мы хотели бы рассказать о том, как она работает.

Акустическая модель

Если сказать голосовому поиску «Лев Толстой», смартфон услышит не имя и фамилию, не два слова, а звуковой сигнал, в котором звуки плавно перетекают друг в друга, не имея чётких границ. Задача системы распознавания речи - восстановить по этому сигналу, что было сказано. Ситуацию осложняет то, что одна и та же фраза, произнесённая разными людьми в разной обстановке, будет давать совершенно непохожие друг на друга сигналы. Правильно интерпретировать их помогает система акустического моделирования.

Когда вы произносите голосовой запрос, например, в Яндекс.Навигаторе, смартфон записывает его и отправляет на сервер Яндекса. На сервере запись разделяется на много маленьких фрагментов (фреймов) длиной 25 миллисекунд, внахлёст, с шагом 10 миллисекунд. То есть из одной секунды вашей речи получается сто фреймов.

Дальше каждый из них пропускают через акустическую модель - функцию, которая определяет, какие звуки вы произнесли. На основе этих данных система, натренированная методами машинного обучения, определяет варианты слов, которые вы видите в результатах поиска. Мобильный Браузер в ответ на запрос «Лев Толстой» найдёт сайты о великом писателе, а Навигатор и Карты предложат улицу Льва Толстого.

Точность результатов напрямую зависит от того, насколько хорошо система определяет произнесённые звуки. Для этого достаточно точным и полным должен быть фонетический алфавит, с которым она работает.

Фонетический алфавит Яндекса

В русском языке, по разным теориям, около 40 фонем (звуковых единиц). Наша система распознавания речи сопоставляет входящий речевой сигнал с фонемами, а потом уже из них собирает слова. Например, слово «Яндекс» состоит из семи фонем - [й][а][н][д][э][к][с]. Фонемы могут обладать различной длительностью, и в разбивке по фреймам слово «Яндекс» может выглядеть, например, так - [й][й][а][а][а][а][а][а][ а][а][а][а][н][н][д][д][э ][к][с]. Произношение любой фонемы зависит от её соседей и позиции в слове. То есть звук [а] в начале, в середине и в конце слова - это три разных [а], а звук [а] между двумя гласными в сочетании «на аудиозаписи» отличается от [а] между согласными в слове «бак». Поэтому для хорошего распознавания фонема - слишком грубая единица.

Чтобы точнее смоделировать произношение фонемы, мы, во-первых, делим каждую фонему на три части: условные начало, середину и конец. Во-вторых, мы разработали свой фонетический алфавит, который учитывает позицию и контекст фонем. Брать в работу все возможные варианты контекстно-зависимых фонем было бы неблагоразумно, так как многие из них не встречаются в реальной жизни. Поэтому мы научили нашу программу рассматривать похожие звуки вместе. В результате мы получили набор из 4000 элементарных единиц - сенонов. Это и есть фонетический алфавит Яндекса, с которым работает наша технология распознавания речи.

Вероятности

В идеальном мире программа безошибочно определяет, какая фонема соответствует каждому фрагменту голосового запроса. Но даже человек иногда может не понять или не расслышать все звуки и достраивает слово исходя из контекста. И если человек опирается на собственный речевой опыт, то наша система оперирует вероятностями.

Во-первых, каждый фрагмент голосового запроса (фрейм) сопоставляется не с одной фонемой, а с несколькими, подходящими с разной степенью вероятности. Во-вторых, есть таблица вероятностей переходов, которая указывает, что после «а» с одной вероятностью будет тоже «а», с другой - «б» и так далее. Это позволяет определить варианты последовательности фонем, а потом, по имеющимся у программы данным о произношении, морфологии и семантике - варианты слов, которые вы могли сказать.

Программа также умеет восстанавливать слова по смыслу. Если вы находитесь в шумном месте, говорите не очень чётко или используете неоднозначные слова, она достроит ваш запрос исходя из контекста и статистики. Например, фразу «мама мыла…» программа с большей вероятностью продолжит как «мама мыла раму», а не как «мама мыла рану». Благодаря машинному обучению на множестве данных наша программа устойчива к шуму, хорошо распознаёт речь с акцентом, качество распознавания практически не зависит от пола и возраста говорящего.

Сейчас наша технология распознавания речи правильно определяет 94% слов в Навигаторе и мобильных Картах и 84% слов в мобильном Браузере. При этом на распознавание уходит около секунды. Это уже весьма достойный результат, и мы активно работаем над его улучшением. Мы верим, что через несколько лет голосовой интерфейс ввода не будет уступать классическим способам.

P.S. Кроме собственно технологии, мы представили на YaC 2013 публичное API для распознавания речи - SpeechKit. С его помощью разработчики могут добавить голосовой поиск Яндекса в свои приложения для Android и iOS. Скачать SpeechKit, а также ознакомиться с документацией, можно .

В 1964 году на ярмарке компьютерных технологий в Нью-Йорке было представлено устройство IBM Shoebox.

Коммерческие программы по распознаванию речи появились в начале девяностых годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы (например, Dragon NaturallySpeaking, VoiceNavigator) переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.

Увеличение вычислительных мощностей мобильных устройств позволило и для них создать программы с функцией распознавания речи. Среди таких программ стоит отметить приложение Microsoft Voice Command, которое позволяет работать со многими приложениями при помощи голоса. Например, можно включить воспроизведение музыки в плеере или создать новый документ.

Интеллектуальные речевые решения, позволяющие автоматически синтезировать и распознавать человеческую речь, являются следующей ступенью развития интерактивных голосовых систем (IVR). Использование интерактивного телефонного приложения в настоящее время не веяние моды, а жизненная необходимость. Снижение нагрузки на операторов контакт-центров и секретарей , сокращение расходов на оплату труда и повышение производительности систем обслуживания - вот только некоторые преимущества, доказывающие целесообразность подобных решений.

Прогресс, однако, не стоит на месте и в последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нем может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.

Следующим шагом технологий распознавания речи можно считать развитие так называемых Silent Speech Interfaces (SSI) (Интерфейсов Безмолвного Доступа). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.

Виды систем

На сегодня существует два типа систем распознавания речи - работающие «на клиенте» (client-based) и по принципу «клиент-сервер» (client-server). При использовании клиент-серверной технологии речевая команда вводится на устройстве пользователя и через Интернет передается на удаленный сервер, где обрабатывается и возвращается на устройство в виде команды (Google Voice , Vlingo, пр.); ввиду большого количества пользователей сервера система распознавания получает большую базу для обучения. Первый вариант работает на иных математических алгоритмах и встречается редко (Speereo Software) - в этом случае команда вводится на устройстве пользователя и обрабатывается в нем же. Плюс обработки «на клиенте» в мобильности, независимости от наличия связи и работы удаленного оборудования. Так, система, работающая «на клиенте» кажется надежнее, но ограничивается, порой, мощностью устройства на стороне пользователя.

Сейчас применяется также технология SIND (без привязки к голосу конкретного человека).

Применение

Основным преимуществом голосовых систем является дружественность к пользователю - он избавляется от необходимости продираться сквозь сложные и запутанные лабиринты голосовых меню . Теперь достаточно произнесения цели звонка, после чего голосовая система автоматически переместит звонящего в нужный пункт меню.

  • Голосовой набор в различной технике (мобильники , компьютеры , и пр.)
  • Голосовой ввод текстовых сообщений в смартфонах и прочих мобильных компьютерах

См. также

  • Цифровая обработка сигналов

Примечания

Ссылки

Категории:

  • Распознавание речи
  • Речевая коммуникация
  • Применение искусственного интеллекта
  • Средства реабилитации для людей с нарушением опорно-двигательного аппарата
  • Средства реабилитации для людей с нарушением зрения

Wikimedia Foundation . 2010 .

Смотреть что такое "Распознавание речи" в других словарях:

    Процесс преобразования речи в текст. Системы распознавания речи характеризуются: объемом словаря понимаемых слов; допустимой беглостью речи; степенью зависимости от настойки на речь конкретного лица. По английски: Speech recognition См. также:… … Финансовый словарь

    распознавание речи - — Тематики электросвязь, основные понятия EN speech recognition …

    распознавание речи - kalbos atpažinimas statusas T sritis automatika atitikmenys: angl. speech perception; speech recognition; voice recognition vok. Spracherkennung, f rus. распознавание речи, n pranc. reconnaissance de parole, f; reconnaissance vocale, f … Automatikos terminų žodynas

    распознавание речи, зависящее от особенностей голоса - Процедура распознавания, основанная на учете особенностей голоса говорящего. Распознаваемый речевой сигнал обычно разделяется на короткие фрагменты, каждый из которых сравнивается с образцами речи, хранимыми в памяти. Выбирается тот, с которым… … Справочник технического переводчика

    распознавание речи, не зависящее от особенностей голоса - Метод преобразования речи в осмысленную текстовую информацию без настройки на тембр голоса конкретного абонента. [Л.М. Невдяев. Телекоммуникационные технологии. Англо русский толковый словарь справочник. Под редакцией Ю.М. Горностаева. Москва,… … Справочник технического переводчика

    автоматическое распознавание речи - Процесс или технология, которые воспринимают сигнал обычной речи в качестве входного сигнала и выдают в качестве выходного сигнала кодированную версию сказанного (слово, команда, выражение, предложение и т. д.) (МСЭ Т Y.2271, МСЭ Т P.10/ G.100).… … Справочник технического переводчика

    Образов Оптическое распознавание символов Распознавание рукописного ввода Распознавание речи … Википедия

    Автоматическое распознавание лиц специальной программой. Теория распознавания образов раздел кибернетики, развивающий теоретические основы и методы классификации и идентификации предметов, явлений, процессов, сигналов, ситуаций и т. п. объектов,… … Википедия

    Автоматическое распознавание лиц специальной программой. Теория распознавания образов раздел кибернетики, развивающий теоретические основы и методы классификации и идентификации предметов, явлений, процессов, сигналов, ситуаций и т. п. объектов,… … Википедия

Книги

  • Распознавание и понимание смысла речи в шумах на основе стохастики , В. В. Насыпный. Стохастика - это стохастическая информационная технология, разработанная в России. Она позволяет создавать эффективные интеллектуальные системы, работающие в реальном времени и исключающие…