Выбор характеристик системы распознавания речи
Если даны подходящая для речевого ввода — вывода задача и ряд требований к прикладной системе, частью которой будет речевая задача, то характеристики системы распознавания речи должны быть тщательно продуманы. Алгоритм, человек-оператор и интерфейс, который их соединяет, — все это компоненты системы распознавания речи, для которых должны быть установлены подходящие параметры. Поэтому анализ характеристик алгоритма и человеко-машинной системы (интерфейса) — существенные аспекты выбора подходящей системы распознавания речи и ее характеристик, определяемых целым рядом факторов.
Характеристики алгоритма распознавания речи
На точность распознавания речевых сигналов влияет множество условий, связанных как с физическими свойствами самого сигнала, так и с контекстом, в котором он существует. Однако современные коммерчески доступные алгоритмы распознавания речи не извлекают никакой информации из прагматического и лингвистического контекста фрагмента речи. Только в некоторых прикладных программах соответствующей системы этот контекст учитывается путем введения синтаксических и прагматических ограничений потока сигналов на выходе распознавателя: синтаксически некорректные сообщения отбрасываются, и система просит пользователя повторить сообщейие. Другой метод, известный как «синтаксическое разложение», ограничивает множество эталонов, сравниваемых с фрагментом речи пользователя, только теми элементами словаря, которые оказались допустимыми для предыдущего распознанного элемента. Этот принцип может повысить точность распознавания речи, однако подобное применение контекстуальных ограничений на предварительном и заключительном этапах распознавания жестко ограничивает их полезность. Если контекстуальные ограничения включены в алгоритм распознавания речи, то, чтобы повлиять на результат, они должны действовать при распознавании речи на этапе принятия решения. По нашим данным, алгоритмы, действительно использующие контекст речевых фрагментов, все еще находятся в стадии лабораторных исследований и не способны работать в режиме реального времени.
Характеристики современных алгоритмов распознавания речи їв части учета изменений в речевом сигнале или физического контекста фрагмента речи гораздо хуже способности человека воспринимать их на слух. В настоящее время субъектозависи - мые системы с фиксированным объемом словаря могут работать в лабораторных условиях, воспринимая до 100 слов при частоте ошибок менее 1%. Однако характеристики распознавателя, успешно продемонстрированные в лабораторных условиях, зачастую сильно ухудшаются под воздействием шума, стрессовых нагрузок на пользователя и требований оперативной обстановки [47].
Характеристики пользователя
Субъективные характеристики пользователя могут оказывать заметное влияние на характеристики системы распознавания речи. В настоящее время успешные применения тех или иных методов распознавания речи обычно связаны с небольшим числом тщательно отобранных дикторов, которые были обучены четкому произношению и правильному использованию технических устройств. В работе [20] отмечено, что только три четверти обследованных авторами дикторов распознавались системой с частотой несколько выше средней, а большинство испытуемых встретились с серьезными трудностями обучения.
Регистрация речи
Регистрация речи пользователей — еще один критический элемент систем распознавания речи, зависящих от диктора. Наиболее ценны, видимо, такие способы регистрации, которые исключают любую систематическую ошибку в речевых эталонах. Например, точность распознавания выше, когда в словаре по каждому его элементу представлено несколько случайно выбранных эталонов, а не просто упорядочены одиночные образцы [56]. Характеристики распознавания также улучшаются, когда регистрация речи происходит в среде, приближенной к реальной по акустическим условиям и динамике [76]. При изучении совсем другой системы распознавания было обнаружено, что регистрация речи в условиях тишины не сказывается отрицательно на точности распознавания в обстановке кабины самолета Только при уровне шума до 100 дБ (SPL). Вообще характеристики различных систем, выпускаемых промышленностью, сильно зависят от среды регистрации речи [47]. При регистрации эталонов речи наводящие сообщения пользователю обычно выдаются в визуальной форме. Использование для этих целей синтезированной речи было подвергнуто сомнению, поскольку некоторые люди склонны к подражанию (механическому голосу «подсказчика» [39].
Адаптивные алгоритмы распознавания
Адаптивные алгоритмы распознавания для субъектозависимых систем являются одним из методов, позволяющих справиться с трудностями учета изменчивости речи диктора во времени. Этот алгоритм изменяет речевой эталон для отражения медленных трансформаций в произношении пользователя во времени. Чтобы это реализовать, необходима обратная связь по уровню точности каждой попытки распознавания. В работе [14] отмечено повышение точности распознавания при использовании адаптивного алгоритма с 95 до 99%.
Системная обратная связь
Обратная связь с пользователем может улучшать характеристики системы либо путем изменения эталонов речи, либо позволяя пользователю корректировать ошибки. Например, в работе [57] не было получено никаких убедительных доказательств ни того, что различные уровни и типы обратной связи приводили к изменению эталонов, ни того, что они повышали точность распознавания. Тем не менее было показано, что обратная связь воздействует на характеристики процесса распознавания речи в целом. Эффективность распознавания речи человека, не привыкшего к каналу обратной связи, повышалась, когда была введена обратная связь, и понижалась, когда обратная связь, с которой обычно работал пользователь, ослабевала.
При отсутствии обратной связи пользователь может ошибочно считать, что та или иная последовательность команд, поданных голосом, была выполнена системой правильно. Например, в работе [63] показано, что точность выполнения задачи речевого ввода информации в базу данных может возрасти с 70 до 97% при использовании обратной связи и исправлении ошибок пользователя. Хотя необходимость введения обратной связи — факт общепризнанный, важным вопросом учета субъективных факторов является выбор наилучшего способа обеспечения обратной связи во избежание ее неблагоприятного влияния на исходную основную задачу оператора и с целью максимизации пропускной способности системы.
Исправление ошибок
Характеристики системы распознавания речи могут быть улучшены за счет использования двух методов исправления ошибок. Во-первых, в системе может быть предусмотрено автоматическое обнаружение некорректных входных последовательностей сигналов и исправление их путем замены на наиболее вероятную последовательность; возможно при этом последующее представление пользователю результата исправления для контроля. Например, в одном исследовании из-за наличия синтаксически ограниченных диалогов считалось, что распознаватель может выбирать как первый, так и второй эталонные элементы словаря на основе использования стандартных методов синтаксического анализа [84]. Во-вторых, возможно использование так называемых матриц субъективных неточностей наряду с логическим сложением распознаваемых фрагментов речи, когда система просит пользователей повторить фразу [3]. Шмандт н его коллеги [62] отмечают, что избыточные источники информации, такие, как жесты пользователя, выявляемые электронными указательными устройствами, могут тоже оказаться полезными для уточнения речевых команд. Такие методы могут повысить точность распознавания, но они не обеспечивают семантической правильности сообщений или команд. Таким образом, человек должен оставаться в контуре обратной связи по крайней мере для обеспечения правильного ввода критических команд.
Наряду с автоматическим исправлением ошибок должны быть предусмотрены какие-то меры по исправлению ошибок пользователем. Три хорошо известных типа возможных ошибок пользователя включают в себя неправильное использование данного набора словарных единиц (забывание), нарушение ритмических ограничений и посторонние разговоры при включенном микрофоне. Ошйбки, связанные с забыванием нужных словарных единиц, приводят к использованию оператором слов, отсутствующих в словаре, в том числе синонимов. Нарушения ритмических ограничений означают появление слитной речи, когда распознаватель требует раздельного произнесения слов. ■Следует ожидать и других типов ошибок пользователя. Отсутствие возможности быстрого исправления ошибок может явиться помехой для пользователя, который должен быстро решать критичную ко времени задачу; на примере «Тренажерной системы с РЛС для обеспечения точного захода самолетов на посадку» [41] хорошо видно, как речевой ввод может значительно увеличить время выполнения требуемой целевой задачи системы из-за необходимости автоматического распознавания речи.
Факторы внешней среды
Среда, в которой выполняется конкретная задача, включает в себя целый ряд факторов, влияние которых на работу человека и, значит, на проектирование речевых систем должно быть тщательно изучено. Следует помнить, что на успех или неудачу создания конкретной речевой системы могут частично оказывать влияние физические, психологические, эмоциональные факторы, а также уровень рабочей нагрузки. Только после всесторонней оценки этого влияния будет ясно, можно ли спроектировать речевую систему таким образом, чтобы она помогала, а не мешала работе человека, а следовательно, и работе всей системы.
Главный фактор внешней среды, который хорошо изучен,— это влияние фонового шума на точность распознавания; однако пока мало что известно о его влиянии на работу человека, который использует устройства распознавания речи. Имеется качественная оценка влияния стрессовых ситуаций на речь человека, но недостаточно количественных данных. Изучена также связь между психофизиологическим состоянием человека и параметрами его голоса, включая напряжение голосовых связок, повышение основной частоты, изменения высоты голоса и шумы от дыхания [47]. В работе [31] рассматривалась искусственная стрессовая ситуация для выяснения степени влияния волнения человека на его речь. Было отмечено многообразие различий между речью, произнесенной в состоянии стресса и в спокойном состоянии, а также разное воздействие стресса на речь отдельных индивидуумов. Так как изменения речи, связанные с© стрессом, могут выступать в самых разных формах и не являются одинаковыми ни по людям, ни по задачам, эффективность автоматического распознавания речи может существенно изменяться в зависимости от рабочих условий. Вероятно, именно по этой причине наиболее успешные применения систем распознавания речи не были связаны ни со строгими временными ограничениями, ни с опасностью для жизни.