Перспективы исследований по распознаванию речи Моделирование
Методы моделирования необходимы для обеспечения управляемого изменения таких характеристик распознающих систем, как скорость распознавания и обратная связь, уровень точности распознавания и типы ошибок распознавания. Кроме того, должны быть разработаны какие-то меры для оценки рабочих характеристик системы, учитывающие одновременно характеристики распознающего устройства, характеристики человека, рабочую нагрузку, обусловленную задачей, полезность системы и ее оценку пользователем.
Наиболее важными являются следующие аспекты этой проблемы [47]:
1) требования к скорости и точности для различных применений;
2) критичность к ошибкам в зависимости от их типа;
3) способы исправления ошибок;
4) необходимость обеспечения субъектонезависимости;
5) необходимость связной или слитной речи;
6) влияние большого размера словаря;
7) способность человека ограничивать речь в плане лексики, синтаксиса и разговорных выражений.
Результаты моделирования могут быть положены в основу определения подходящих задач для речевого ввода — вывода и необходимого качества распознавания речи, что требуется для успешного использования баз данных с речевым вводом. Моделирование может обеспечить образцы речи при разных условиях задачи, таких, как шум, умственная нагрузка, стресс и различные уровни ошибок распознавания. Наконец, моделирование должно обеспечить условия для исследований, направленных на развитие общих принципов реализации речевого ввода данных в рамках прикладных систем, работающих в разных условиях.
Методы регистрации и обучение пользователей
Для субъектозависимых систем необходимы более совершенные методы регистрации речевых эталонов. Эти методы должны гарантировать работоспособность систем распознавания в более суровых условиях, чем те, в которых осуществляется регистрация голосов пользователей. Это должно снизить затраты на регистрацию в части специальных режимов работы оборудования, отвлечение оператора от основной работы, стрессовые ситуации и усталость. Кроме того, если технические средства могут быть приспособлены к автоматическому обновлению эталонов речи в ходе нормальной эксплуатации прикладной системы, то распознающая система будет лучше улавливать медленные изменения в голосе пользователя, обусловленные, например, усталостью.
Усовершенствованные методы нужны и для предсказания характеристик системы распознавания речи на основе речевых характеристик пользователя. Например, диалект пользователя может влиять на эффективность распознавания. Поэтому необходимы исследования в области методов прогнозирования «ма - лоперспективиых» пользователей и требуемых в связи с этим корректирующих воздействий. Обучение пользователей умению изменять свою «эталонную» речь крайне сложно, поскольку речевой акт — это трудно изменяемый, жестко усвоенный стереотип поведенческого поведения. Степень, в которой обучение может надежно изменять усвоенный стиль речи, особенно в стрессовых условиях, еще предстоит установить. Это важный вопрос исследований, особенно для военных применений.
Измерения рабочих характеристик
Усовершенствование способов измерений рабочих характеристик жизненно необходимо для получения достоверных данных, обеспечивающих принятие верных решений относительно разработки системы и оценки ее эффективности. Более подробный анализ ошибок алгоритма распознавания позволит лучше понять влияние различных характеристик пользователя, факторов внешней среды и факторов, связанных с задачей, на точность распознавания. При этом ошибки должны отображаться в форме матрицы неточностей на разных уровнях детализации (задача, фрагмент речи и фонема). Даже сверхточная высококачественная регистрация речевых фрагментов в распознающем устройстве с помощью самой лучшей техники звукозаписи при известных управляемых экспериментальных условиях должна выполняться по строгому регламенту, а затем анализироваться с целью обнаружения изменяющихся характеристик речи, которые влияют на качество распознавания.
Качество распознавания речи должно измеряться в рамках реального сценария выполнения задачи как в лабораторных, так и в рабочих условиях, включая самые неблагоприятные. Сравнительные лабораторные испытания с использованием стандартных словарей, опытных пользователей и управляемых условий эксперимента полезны для сопоставления различных устройств распознавания, но недостаточны для предсказания фактических рабочих характеристик действующих систем. Необходимо создать адекватные методы измерения рабочих характеристик человека-оператора и системы распознавания в реальных условиях. Важность быстрой реакции по сравнению с точностью будет изменяться в зависимости от конкретных условий применения. Скорость ввода команд не всегда является главным критерием эффективности, если пользователь одновременно выполняет какие-то мануальные задачи. Например, эффективность выполнения исходной основной задачи можно повысить, если использовать речевой ввод — вывод в рамках параллельной задачи, даже если эта вторая задача в результате будет решаться медленнее, чем первая, но все же с приемлемой скоростью Необходимо также разработать общие критерии, которые должны быть применимы и к событиям внутри задачи, и к выполняемому заданию в целом.
Рабочая нагрузка оператора — это тоже важный критерий, так как он может использоваться для сравнения альтернативных проектных решений. В настоящее время пока нет какого-то единственного надежного способа оценки нагрузки человека при выполнении разных задач [95]. Хотя в этой области уже проводится целый ряд исследований, детальное рассмотрение данного вопроса было бы полезно не только для более широкоГо применения систем распознавания речи, но и для решения многих других задач проектирования человеко-машинного интерфейса. В гл. 5 тома 4 проблема рабочей нагрузки обсуждается подробно.
Так как современный уровень понимания субъективных факторов и проблем эргономики в проектировании систем распознавания остается по своей природе качественным, в этой главе предлагается ряд количественных оценок. В табл. 3 4 даны рекомендации по проектированию систем распознавания, которые были извлечены из рассмотренного в этом разделе исследования по распознаванию речи.