Выбор задачи распознавания речи
Один из убедительных доводов в пользу включения средств распознавания речи в системы — это возможность понижения визуально-мануальной нагрузки на человека. Однако вывод о необходимости использования речевых сигналов для решения определенной задачи требует согласования характеристик речевой системы с характеристикой задачи [74] и анализа преимуществ и ограничений «ручного» режима в сравнении с использованием речевых устройств в контексте выполняемых задач. [48].
Таблица 33 Характеристики типичных интерактивных речевых Систем в различных приложениях [47]
Характеристика |
Системы управле ния базами данных
Командно контрольные системы
Интерактивные обучающие системы
Объем словаря
Рас- |
Тип системы познавания
Диктора
Время регистрации пользователей Типичный уровень помех
Типичная нагрузка оператора Эксплуатационные требования1' Время реакции Потребности в реализации системы
Физические ограничения (размер, масса, мощность, охлаждение)
Большой, 1000—
5ООО слов
Зависимость от Отсутствует Неприемлемое Очень низкий |
Для слитной речи
От низкой до уме ренной
<5% ошибок <5 с
Умеренные
Минимальные
Переменное
От умеренного
Высокого
От умеренной
Высокой
< 1 % ошибок
<1 С
Критические
Жесткие
Маленький, Средний, 50— <100 слов 500 слов Дискретная (со Дискретная (со связью между сим- связью между символами) воламн) Имеется Имеется |
Менее 5 % общего времени обучения до Очень низкий
До
До От умеренной высокой <3% ошибок
<2 с Высокие
Минимальные
') Вполне определенные требования к обеспечению надежности н жнвучестн диктуют необходимость минимально возможного уровня ошибок для всех частей словаря
Исследования по выбору задач проводились в двух основных направлениях. Некоторые исследователи пытались разработать и применить различные методологии отбора подходящих задач [48] и выяснения пользовательских предпочтений в отношении устройств распознавания и генерации речи [7, 18, 35, 96]. Изучались и характеристики ввода данных человеческой речи, когда рассматривались одновременно задачи вербального и ручного характера [94].
В работе [93] установлено, что использование речевого ввода полезно главным образом для решения сложных задач, требующих умственного и психического напряжения, в то время как простые задачи, связанные с передачей числовых данных, выполняются быстрее и точнее при вводе с помощью клавиатуры. Ряд исследований в рамках смешанной задач" отслеживания трассы и одновременного ввода данных [15, 76], проведенных в условиях шума винта на летящем вертолете, подтвердил, что при всех условиях шума и движения показатели точности отслеживания курса ухудшались при использовании
речевого ввода данных намного больше, чем при их вводе с клавиатуры. В этих экспериментах точность слеження за курсом вертолета и точность ввода с помощью клавиатуры в статических условиях при отсутствии шума была равна 99%. При наличии шума и движения точность отслеживания курса незначительно снижалась, тогда как при вводе с помощью клавиатуры она оставалась прежней. Другое исследование подтверждает,, что прн параллельном решении вербальной задачи речевой ввод данных ведет к меньшей потере точности слежения, чем ввод данных с помощью клавиатуры [30]. Согласно этому исследованию, процент ошибок распознавания может возрастать до 39% при наличии параллельной задачи слежения, свидетельствуя о том, что умственное напряжение, связанное с решением задачи, оказывает существенное влияние на характер человеческой речи и снижает точность ее распознавания системой [2].
Исследование, в рамках которого сопоставлялись скорость и точность речевого и клавишного ввода данных, дало противоречивые результаты, зависящие от типа процедур ввода (буквенно-цифровая или функциональная клавиатура) и других переменных, определяющих задачу. Например, в работе по использованию речевого ввода в компьютерной военной игре [43] сделан вывод, что ручной метод ввода — более быстрый, чем речевой. Результаты другой работы той же лаборатории — по оценке использования методов распознавания речи для управления функционированием распределенной сетевой системы — показали преимущество речевого ввода по сравнению с ручным как по скорости, так и по точности. Считалось, что различные требования задачи явились основной причиной полученных разных результатов, поскольку большинство других факторов (состав групп пользователей, их профессиональный уровень, характеристики оборудования и среды) не изменялось. Результаты этих исследований наводят на мысль, что польза от применения речевого ввода и вывода сильно зависит от специфики задачи и среды, в которой эта задача решается.
Итак, отбор потенциальных задач для применения систем распознавания речи должен быть основан на конкретных условиях задачи. Использование речевого ввода вместо ручного не представляется целесообразным, если какие-то задачи уже успешно выполняются с помощью ручного ввода данных [93]. Речевой ввод может увеличивать пропускную способность системы лишь в сложных задачах, с которыми связана высокая мыслительная, визуальная и мануальная нагрузка на человека. Такие ограничения, лимитирующие применение речевого ввода— вывода, вероятно, существуют независимо от каких-либо улучшений технологии — просто из-за специфических характеристик самого речевого сигнала. Эти характеристики и связанные с ними проблемы будут детально обсуждены в разделе, посвященном интеграции систем. Ясно одно: необходимо продолжать исследования, чтобы лучше понять сложное взаимовлияние характера речи, технологии распознавания голоса, действий пользователя и специфики выполняемой задачи.
Для идентификации задач, в которых может оказаться целесообразным применение устройств распознавания речи, необходимы создание специальных методов и определение основных принципов. Интервьюирование и анкетирование весьма полезны, но возможности каких-то предсказаний на их основе ограничены, поскольку потенциальные пользователи, хорошо знакомые со своей работой, совсем не разбираются в том, что касается возможностей и ограничений речевой технологии.
Наконец, никакие аналитические процедуры отбора «речевых задач», вероятно, не будут настолько точными, чтобы дать подробную спецификацию требований к системе распознавания речи. Поэтому необходимо продолжать работу по методам моделирования с целью выработки технических требований к речевой системе уже на ранних этапах процесса проектирования. Этот вопрос будет обсуждаться в следующем разделе, посвященном выбору характеристик системы распознавания речи.