ЧЕЛОВЕЧЕСКИЙ ФАКТОР

Выбор характеристик системы распознавания речи

Если даны подходящая для речевого ввода — вывода задача и ряд требований к прикладной системе, частью которой будет речевая задача, то характеристики системы распознавания ре­чи должны быть тщательно продуманы. Алгоритм, человек-опе­ратор и интерфейс, который их соединяет, — все это компонен­ты системы распознавания речи, для которых должны быть установлены подходящие параметры. Поэтому анализ характе­ристик алгоритма и человеко-машинной системы (интерфейса) — существенные аспекты выбора подходящей системы распозна­вания речи и ее характеристик, определяемых целым рядом факторов.

Характеристики алгоритма распознавания речи

На точность распознавания речевых сигналов влияет множест­во условий, связанных как с физическими свойствами самого сигнала, так и с контекстом, в котором он существует. Однако современные коммерчески доступные алгоритмы распознавания речи не извлекают никакой информации из прагматического и лингвистического контекста фрагмента речи. Только в некото­рых прикладных программах соответствующей системы этот контекст учитывается путем введения синтаксических и прагма­тических ограничений потока сигналов на выходе распознава­теля: синтаксически некорректные сообщения отбрасываются, и система просит пользователя повторить сообщейие. Другой метод, известный как «синтаксическое разложение», ограничи­вает множество эталонов, сравниваемых с фрагментом речи пользователя, только теми элементами словаря, которые оказа­лись допустимыми для предыдущего распознанного элемента. Этот принцип может повысить точность распознавания речи, однако подобное применение контекстуальных ограничений на предварительном и заключительном этапах распознавания жестко ограничивает их полезность. Если контекстуальные ог­раничения включены в алгоритм распознавания речи, то, чтобы повлиять на результат, они должны действовать при распозна­вании речи на этапе принятия решения. По нашим данным, алгоритмы, действительно использующие контекст речевых фрагментов, все еще находятся в стадии лабораторных иссле­дований и не способны работать в режиме реального времени.

Характеристики современных алгоритмов распознавания ре­чи їв части учета изменений в речевом сигнале или физического контекста фрагмента речи гораздо хуже способности человека воспринимать их на слух. В настоящее время субъектозависи - мые системы с фиксированным объемом словаря могут работать в лабораторных условиях, воспринимая до 100 слов при частоте ошибок менее 1%. Однако характеристики распознавателя, успешно продемонстрированные в лабораторных условиях, за­частую сильно ухудшаются под воздействием шума, стрессовых нагрузок на пользователя и требований оперативной обстанов­ки [47].

Характеристики пользователя

Субъективные характеристики пользователя могут оказывать заметное влияние на характеристики системы распознавания речи. В настоящее время успешные применения тех или иных методов распознавания речи обычно связаны с небольшим чис­лом тщательно отобранных дикторов, которые были обучены четкому произношению и правильному использованию техниче­ских устройств. В работе [20] отмечено, что только три четверти обследованных авторами дикторов распознавались системой с частотой несколько выше средней, а большинство испытуемых встретились с серьезными трудностями обучения.

Регистрация речи


Регистрация речи пользователей — еще один критический эле­мент систем распознавания речи, зависящих от диктора. Наи­более ценны, видимо, такие способы регистрации, которые ис­ключают любую систематическую ошибку в речевых эталонах. Например, точность распознавания выше, когда в словаре по каждому его элементу представлено несколько случайно выб­ранных эталонов, а не просто упорядочены одиночные образ­цы [56]. Характеристики распознавания также улучшаются, когда регистрация речи происходит в среде, приближенной к реальной по акустическим условиям и динамике [76]. При изучении совсем другой системы распознавания было обнаруже­но, что регистрация речи в условиях тишины не сказывается отрицательно на точности распознавания в обстановке кабины самолета Только при уровне шума до 100 дБ (SPL). Вообще характеристики различных систем, выпускаемых промышлен­ностью, сильно зависят от среды регистрации речи [47]. При регистрации эталонов речи наводящие сообщения пользователю обычно выдаются в визуальной форме. Использование для этих целей синтезированной речи было подвергнуто сомнению, по­скольку некоторые люди склонны к подражанию (механическому голосу «подсказчика» [39].

Адаптивные алгоритмы распознавания

Адаптивные алгоритмы распознавания для субъектозависимых систем являются одним из методов, позволяющих справиться с трудностями учета изменчивости речи диктора во времени. Этот алгоритм изменяет речевой эталон для отражения медлен­ных трансформаций в произношении пользователя во времени. Чтобы это реализовать, необходима обратная связь по уровню точности каждой попытки распознавания. В работе [14] отмече­но повышение точности распознавания при использовании адап­тивного алгоритма с 95 до 99%.

Системная обратная связь

Обратная связь с пользователем может улучшать характерис­тики системы либо путем изменения эталонов речи, либо по­зволяя пользователю корректировать ошибки. Например, в ра­боте [57] не было получено никаких убедительных доказательств ни того, что различные уровни и типы обратной связи приводи­ли к изменению эталонов, ни того, что они повышали точность распознавания. Тем не менее было показано, что обратная связь воздействует на характеристики процесса распознавания речи в целом. Эффективность распознавания речи человека, не при­выкшего к каналу обратной связи, повышалась, когда была введена обратная связь, и понижалась, когда обратная связь, с которой обычно работал пользователь, ослабевала.

При отсутствии обратной связи пользователь может оши­бочно считать, что та или иная последовательность команд, поданных голосом, была выполнена системой правильно. Напри­мер, в работе [63] показано, что точность выполнения задачи речевого ввода информации в базу данных может возрасти с 70 до 97% при использовании обратной связи и исправлении ошибок пользователя. Хотя необходимость введения обратной связи — факт общепризнанный, важным вопросом учета субъ­ективных факторов является выбор наилучшего способа обеспе­чения обратной связи во избежание ее неблагоприятного влия­ния на исходную основную задачу оператора и с целью макси­мизации пропускной способности системы.

Исправление ошибок

Характеристики системы распознавания речи могут быть улуч­шены за счет использования двух методов исправления ошибок. Во-первых, в системе может быть предусмотрено автоматиче­ское обнаружение некорректных входных последовательностей сигналов и исправление их путем замены на наиболее вероят­ную последовательность; возможно при этом последующее представление пользователю результата исправления для кон­троля. Например, в одном исследовании из-за наличия синтак­сически ограниченных диалогов считалось, что распознаватель может выбирать как первый, так и второй эталонные элементы словаря на основе использования стандартных методов синтак­сического анализа [84]. Во-вторых, возможно использование так называемых матриц субъективных неточностей наряду с логическим сложением распознаваемых фрагментов речи, когда система просит пользователей повторить фразу [3]. Шмандт н его коллеги [62] отмечают, что избыточные источники инфор­мации, такие, как жесты пользователя, выявляемые электрон­ными указательными устройствами, могут тоже оказаться по­лезными для уточнения речевых команд. Такие методы могут повысить точность распознавания, но они не обеспечивают се­мантической правильности сообщений или команд. Таким обра­зом, человек должен оставаться в контуре обратной связи по крайней мере для обеспечения правильного ввода критических команд.

Наряду с автоматическим исправлением ошибок должны быть предусмотрены какие-то меры по исправлению ошибок пользователем. Три хорошо известных типа возможных ошибок пользователя включают в себя неправильное использование данного набора словарных единиц (забывание), нарушение рит­мических ограничений и посторонние разговоры при включен­ном микрофоне. Ошйбки, связанные с забыванием нужных сло­варных единиц, приводят к использованию оператором слов, отсутствующих в словаре, в том числе синонимов. Нарушения ритмических ограничений означают появление слитной речи, когда распознаватель требует раздельного произнесения слов. ■Следует ожидать и других типов ошибок пользователя. Отсут­ствие возможности быстрого исправления ошибок может явить­ся помехой для пользователя, который должен быстро решать критичную ко времени задачу; на примере «Тренажерной сис­темы с РЛС для обеспечения точного захода самолетов на по­садку» [41] хорошо видно, как речевой ввод может значительно увеличить время выполнения требуемой целевой задачи системы из-за необходимости автоматического распознавания речи.

Факторы внешней среды

Среда, в которой выполняется конкретная задача, включает в себя целый ряд факторов, влияние которых на работу человека и, значит, на проектирование речевых систем должно быть тща­тельно изучено. Следует помнить, что на успех или неудачу создания конкретной речевой системы могут частично оказывать влияние физические, психологические, эмоциональные факторы, а также уровень рабочей нагрузки. Только после всесторонней оценки этого влияния будет ясно, можно ли спроектировать ре­чевую систему таким образом, чтобы она помогала, а не меша­ла работе человека, а следовательно, и работе всей системы.

Главный фактор внешней среды, который хорошо изучен,— это влияние фонового шума на точность распознавания; однако пока мало что известно о его влиянии на работу человека, который использует устройства распознавания речи. Имеется качественная оценка влияния стрессовых ситуаций на речь че­ловека, но недостаточно количественных данных. Изучена так­же связь между психофизиологическим состоянием человека и параметрами его голоса, включая напряжение голосовых связок, повышение основной частоты, изменения высоты голоса и шумы от дыхания [47]. В работе [31] рассматривалась искусственная стрессовая ситуация для выяснения степени влияния волнения человека на его речь. Было отмечено многообразие различий между речью, произнесенной в состоянии стресса и в спокойном состоянии, а также разное воздействие стресса на речь отдель­ных индивидуумов. Так как изменения речи, связанные с© стрессом, могут выступать в самых разных формах и не явля­ются одинаковыми ни по людям, ни по задачам, эффективность автоматического распознавания речи может существенно изме­няться в зависимости от рабочих условий. Вероятно, именно по этой причине наиболее успешные применения систем распозна­вания речи не были связаны ни со строгими временными огра­ничениями, ни с опасностью для жизни.

ЧЕЛОВЕЧЕСКИЙ ФАКТОР

Этапы проектирования программного обеспечения интерфейса человек — ЭВМ

Проектирование качественного программного обеспечения ин­терфейса человек —ЭВМ не является жестким, статическим процессом. Характер и содержание каждого интерфейса варьи­руются в соответствии с конкретной областью его использова­ния, и в группах разработчиков часто …

Оценка эффективности человеко-машинных систем

Существует целый ряд общих методов оценки эффективности для различных уровней характеристик человеко-машинных сис­тем, однако оценка эффективности распознавания речи в слож­ней задаче управления, связанной с отображением информации, представляется задачей более трудной …

Потребность в документации

Соответствующая документация необходима для обеспечения эффективных и экономичных процедур разработки, использо­вания и сопровождения программных систем в целях организа­ции систематического обмена информацией между управленчес­ким персоналом, разработчиками системы и пользователями на всех …

Как с нами связаться:

Украина:
г.Александрия
тел./факс +38 05235  77193 Бухгалтерия
+38 050 512 11 94 — гл. инженер-менеджер (продажи всего оборудования)

+38 050 457 13 30 — Рашид - продажи новинок
e-mail: msd@msd.com.ua
Схема проезда к производственному офису:
Схема проезда к МСД

Оперативная связь

Укажите свой телефон или адрес эл. почты — наш менеджер перезвонит Вам в удобное для Вас время.