Терминология в области систем распознавания речи
Система распознавания речи включает в себя человека, алгоритм распознавания и устройство, которое соответствующим образом реагирует на распознанную речь. Алгоритм распознает различные фрагменты речи человека и транслирует их в символьные строки. Эти фрагменты могут быть словами, фразами или (на нижнем уровне) слогами либо фонемами — гласными и согласными звуками языка.
Иногда вместо термина «распознавание речи» используют термин «распознавание голоса», что ведет к путанице между идентификацией говорящего (диктора) и идентификацией голоса. Идентификация диктора — это автоматическая идентификация данного говорящего человека. Чтобы избежать двусмысленных ситуаций, в настоящей главе будем исключительно пользоваться термином «распознавание речи».
Методы распознавания речи
На рис. 3.2 показаны общие процессы, реализуемые алгоритмами распознавания речи в лабораторных и коммерческих системах. Фрагмент речи человека преобразуется из аналоговой формы в цифровое представление с помощью различных методов (могут быть использованы методы фильтрации, различные методы анализа временных рядов, например фурье-анализ или метод линейного кодирования с предсказанием). Эти методы обеспечивают сжатие данных и приводят к уменьшению объема памяти для их хранения. Получаемые данные в цифровом представлении нормализуются с учетом быстроты речи, амплитуд и физических характеристик входных фрагментов речи (например, фонового шума). Известны акустические свойства, которые могут быть выявлены по цифровому представлению и использованы для различения многочисленных фрагментов речи. Одним из таких свойств является наличие периодичности в анализируемых данных. Определенные звуки речи, которые во время произнесения появляются вследствие вибрации голосовых связок, периодичны по своей природе. Цифровое представление фрагмента речи пользователя и его свойства дают некоторый образ данных, который затем можно сравнивать с эталонами
Говорящий субъект |
* HCBMB е Фрагменпь речи I Распозначнь й Распознанная строка Речи {полные слова шсазь [фонечь, скга или текст) |
Рас. 3 2. Методы распознавания речи ([441 согласно Симпсону)
Возможных фрагментов речи, хранимыми в системе распознавания.
В современных коммерческих системах производится сравнение целых фрагментов речи (см. левую ветвь на рис. 3.2). В таких системах используется заранее записываемый в память словарь полных фрагментов речи (слов и коротких фраз). В некоторых лабораторных системах делаются попытки анализа цифровых представлений фрагментов речи на уровне акустических сегментов. Полученный ряд сегментов сравнивается с хранимыми в словаре эталонами слов (также представленных рядами сегментов) для обнаружения подходящей пары. Для ограничения числа альтернативных интерпретаций, рассматриваемых алгоритмом распознавания, могут использоваться правила, определяющие допустимый синтаксис предложения или позволяющие сравнивать осмысленность возможных интерпретаций по отношению к содержащейся в базе данных информации. В конечном счете при любом методе распознавания система либо выбирает пару, подходящую для фрагмента высказывания пользователя, либо отбрасывает его как нераспознаваемое. Это решение основывается на метрике, вычисляемой по различиям между фрагментом речи пользователя и ближайшим подходящим эталоном.
Зависимость от говорящего субъекта (диктора)
Системы распознавания речи отличаются несколькими параметрами. Зависимость от диктора определяется тем, в какой степени система использует данные о характеристиках голоса определенного человека, работающего с данной системой (или группы людей). Системы, зависящие от диктора («субъектоза - виснмые» системы), распознают речь только того человека, эталоны речи которого содержатся в системе. Большинство современных систем распознавания речи являются субъектоза - висимыми. Независимые от диктора («субъектонезависимые») системы теоретически способны распознавать речь, произнесенную любым человеком на определенном языке. Субъектоне - зависимое распознавание речи пока возможно для небольших словарных наборов из 10—20 фрагментов речи. На практике точность распознавания зависит от сходства речевых характеристик группы людей, использующих данную систему распознавания. Так называемые субъектонезависимые системы можно было бы еще называть системами распознавания с групповой зависимостью от пользователей. Чем меньше изменчивость характеристик в группе дикторов, тем выше средняя точность распознавания для группы пользователей системы. Например, речь, произносимая с иностранным акцентом, распознается менее надежно, чем речь, произнесенная с акцентом, применительно
Таблица 3.1. Уровни лингвистической изменчивости
Лингвистический уровень Пример
Семейство языков Семейство романских языков
Отдельный язык Французский язык
Диалект Парижский диалект французского языка
Языковые особенности Речь определенной женщины
Текущие изменения речи Конкретный разговор 2 ноября 1984 г. при
Обращении с гневной жалобой на ошибку в выставленном счете
К которому эта система была разработана. Кроме того, на практике субъектонезависимые системы с трудом отличают речь мужчины от речи женщины. Например, субъектонезависимая система, предназначенная для распознавания речи только мужчин или только женщин, будет обеспечивать более высокую точность распознавания, чем система, предназначенная для распознавания речи и мужчин, и женщин [61].
Изменчивость речи
Лингвисты различают по крайней мере пять уровней изменчивости в разговорном языке. Это семейства языков, отдельные языки, диалекты, языковые особенности и текущие изменения в речи отдельных субъектов. Эти уровни и соответствующие примеры представлены в табл. 3.1. На высшем уровне находятся Семейства языков. Например, французский, итальянский, испанский и португальский языки имеют аналогичные грамматические структуры, словари и составы фонем. Все они принадлежат семейству романских языков, которое входит в более обширное индоевропейское семейство, охватывающее германские языки; к последним относится, в частности, английский язык. Следующий уровень занимают отдельные языки. Далее находится уровень диалектов соответствующих языков. Например, британский диалект английского языка значительно отличается по словарю и произношению от американского и австралийского диалектов английского языка. Категоризация самих диалектов многоме'рна и может быть сделана по географическому признаку, социальным классам, эпохам и даже по регионам [1]. Языковые особенности — это совокупность характеристик речи некоторого индивида, которая изменяется во времени в зависимости от психологических, физиологических и социологических факторов. Аналогичные языковые особенности могут группироваться согласно различным признакам, например по полу, акценту или диалекту.
Существующая практика разделения систем распознавания на субъектозависимые и субъектонезависимые значительно сужает возможный диапазон изменчивости распознаваемой речи. Даже системы, зависящие от диктора, способны распознавать речь людей, не зарегистрированных в системе, однако точность распознавания будет низкой. В основе различий между субъ - ектозависимыми и субъектонезависимыми системами лежит, главным образом, инженерная стратегия задания эталонов (шаблонов). Такой подход создает неверное представление о диапазоне изменчивости речи и определяющих его факторах: местном акценте, поле говорящего, напряжении или рабочей нагрузке, страхе и т. д. Две главные проблемы создания систем распознавания речи — это учет изменчивости речи человека и большой объем словаря. Успехи в этих областях будут зависеть от фундаментальных исследований в лингвистике на всех уровнях структуры языка [24].
Тональность речи
Еще одним параметром систем распознавания является тональность речи, т. е. способ сообщения речевых фрагментов системе [47]. Наиболее распространены системы с раздельным произношением слов. В таких системах пользователь должен делать короткую іпаузу (~100 мс) между произносимыми им словарными элементами. Системы другого типа способны распознавать слова в пределах целостного фрагмента речи, в котором слова не разделены искусственной паузой. Однако при этом отдельные слова произносятся в одном и том же интонационном стиле так, как если бы они читались по списку. Термин «распознавание слитной речи» часто используют, когда говорят о распознавании фрагментов речи без искусственных пауз между словами. В этой главе термин «распознавание слитной речи» служит для обозначения распознавания фрагментов речи, произносимых в естественном речевом ритме с естественной интонацией (просодией). Рассматриваемый термин добавляет еще один параметр в задачу распознавания. Он был использован для ссылки на системы, которые пытались корректно выполнять задачи с использованием непрерывного речевого ввода [47]. Мерой успешного функционирования таких систем является скорее точность ответа, а не точность распознавания слов или точность распознавания сообщений. Упрощенно такие системы могут быть названы системами, понимающими, что им говорят, и присваивающими смысл принимаемым ими сообщениям.
Объем словаря
Третьим параметром является объем словаря (словарный запас). В системах распознавания речи с фиксированным словар - ньш запасом должны храниться образцы подлежащих распознаванию слов и фраз. При этом автоматические системы выполняют «акустическое» сопоставление с образцом на уровне слов и фраз и обычно их словари содержат 100—200 фрагментов речи [35]. Для систем распознавания с неограниченными словарями разрабатываются алгоритмы, которые анализируют речь на уровне фонетических сегментов, определяют произнесенные слова и, возможно, генерируют орфографически корректный теист.
Регистрация пользователей (подготовка эталонов)
Четвертый параметр системы распознавания речи — способ регистрации речи пользователя. Регистрация речи пользователя — это процесс формирования для распознающей системы эталонов по различным элементам словаря. Эталоны строятся на основе получения выборочных образцов устной речи применительно к каждому словарному элементу. В субъектозависимых системах при необходимости получения высокой точности распознавания регистрация каждого пользователя должна производиться отдельно. Обычно пользователь говорит в микрофон, связанный с системой распознавания, и произносит каждый элемент один или несколько раз. Система распознавания преобразует результаты аналоговой регистрации речи человека в цифровые эталоны. Большинство систем обеспечивает ту или иную процедуру регистрации речи пользователя. В наиболее гибких системах предусматривается несколько возможных процедур. Субъектонезависимые системы, напротив, проектируются в предположении, что в них регистрируется информация о фрагментах речи, определяемых производителем системы. Это означает, что производитель сам разрабатывает такие речевые эталоны, относительно которых у него есть уверенность в том, что они обеспечат в субъектонезависимой системе более высокую точность распознавания. Некоторые исследователи (см., например, [60]) переводят субъектозависимые системы в разряд систем распознавания с групповой зависимостью или квазинезависимых от пользователя, вводя в них утонченные процедуры регистрации.