МЕТОДЫ РЕЧЕВОГО УПРАВЛЕНИЯ И РЕЧЕВОГО ПРЕДСТАВЛЕНИЯ ИНФОРМАЦИИ
Языковое общение — одна из замечательных способностей людей. Используя язык — этот сложный многоуровневый код, люди обмениваются подробной информацией. В человеко-машинных системах применяется текстовое представление информации (письменная речь), которая, например, выводится из машины с помощью буквенно-цифровых дисплеев, а вводится с помощью клавиатуры. Разговорная речь используется пока только для обмена информацией между людьми. В перспективе для обмена между человеком и машиной устными сообщениями предполагается использовать автоматическое распознавание и автоматическое воспроизведение речи. Системы речевого ввода — вывода воспринимают речевую информацию (речевые управляющие воздействия) и передают информацию пользователю в устной форме (речевое отображение информации).
Не существует какой-то одной дисциплины, предметом изучения которой являлось бы исключительно исследование языкового общения людей. В изучении процессов языкового общения внесли свой вклад такие науки, как философия, лингвистика, психология, психолингвистика, логика и вычислительная лингвистика. Исследование субъективных факторов традиционно было направлено на письменную форму общения и проводилось в контексте задач обучения, восприятия информации при чтении и проектирования буквенно-цифровых дисплеев. За исключением работ по измерению понятности речи, к воспроизведению и восприятию речи специалистами по инженерной психологии и эргономике был проявлен минимальный интерес по сравнению с тем вниманием, которое было уделено упомянутым проблемам лицами, занимающимися психолингвистикой, с одной стороны, и инженерами-акустиками и специалистами по вычислительной технике — с другой. Со временем инженеры, занимающиеся вопросами распознавания и синтеза речи, применили результаты фундаментальных исследований по речевой акустике и артикуляции для построения машин, воспринимающих и синтезирующих речь (умеющих слушать и говорить). Парадоксально, но этот технологический скачок заставил психологов и инженеров, которые изучают влияние субъективных факторов, глубже понимать проблемы восприятия и синтеза речи человека при исследовании человеко-машинных интерфейсов.
Лучшее понимание речевого общения людей поможет изменить проекты человеко-машинных речевых интерфейсов © двух направлениях. Во-первых, в автоматических системах желательно моделировать поведение людей или подражать им, так как люди очень хорошо говорят и воспринимают речь. Но нельзя моделировать то, чего пока невозможно описать. Кроме того, лучшее понимание того, как человек говорит и что ограничивает его способности, будет вести к улучшению принципов проектирования систем, способных слушать человека и отвечать ему.
Поскольку исследователи в области эргономики и влияния субъективных человеческих факторов до недавнего времени пренебрегали изучением речевой связи, эта глава будет отличаться от других глав книги тем, что в ней будет дан ряд направлений и рекомендаций по проектированию систем, в которых используются методы автоматического распознавания и синтеза речи. Здесь будет приведен обзор состояния изучения человеческих факторов, учитываемых при автоматическом распознавании и генерации речи. В конце основных разделов содержатся общие эмпирические правила, вобравшие в себя всю «соль» накопленного практического опыта.
Технология автоматического распознавания и синтеза речи представляет интерес для специалистов по инженерной психологии, так как может помочь человеку-оператору выполнять определенные задачи. Ее потенциальная возможность состоит в сокращении или перераспределении нагрузки оператора путем добавления альтернативного канала ввода — вывода к обычно перегруженному визуально-мануальному каналу. Однако это лишь средство перераспределения нагрузки, а не панацея от перегрузки оператора.
Цель исследования субъективных факторов состоит в определении того, когда, где и каким образом должна использоваться для речевого общения человека и машины технология автоматического распознавания и синтеза речи. Достичь этой цели очень трудно, так как данная технология и ее применение
зависят от многих переменных. К этим переменным относятся характеристики пользователя, физическая среда, среда связи, нагрузка оператора, ограничения, налагаемые задачей, и состояние оператора.
Стратегия определения роли анализа субъективных факторов в деле создания речевых интерактивных систем имеет три аспекта: 1) разработку методологий для определения областей применения технологии автоматического распознавания и генерации речи; 2) выбор подходящих алгоритмов распознавания и генерации речи и характеристик соответствующих систем; 3) включение речевых подсистем в контекст задачи пользователя. В настоящее время для реализации этой стратегии разработаны некоторые (но не все необходимые) процедуры. Поэтому нерешенные вопросы могут служить направлениями будущих исследований.
Рабочая среда
[восприятие^ ^Отображение] *
Ыействие |
Обработка информации машиной и принятие решения |
М |
(Органы 1, Упраіления |
Обработка информации человеком и принятие решения
Рис. ЗА. Компоненты интерактивных речевых систем ([47] согласно работе
3.2. Терминология и определения
На рис. 3.1 представлена структура человеко-машинной системы, в которой реализуются функции управления и отображения [11]. Система включает в себя следующие компоненты: человека, ЭВМ, один или несколько каналов управления, один или несколько каналов отображения и среду, в которой функционирует система.
Интерактивная речевая система — это система, в которой в одном из каналов управления или ввода информации реализуется автоматическое распознавание речи пользователя, а синтез человеческой речи служит одной из форм отображения информации. К этому же классу относятся системы, в которых
реализован либо речевой ввод, либо речевой вывод информации.
Поверхностное рассмотрение терминологии, употребляемой при изучении вопросов распознавания и генерации речи, ведет к недооцениванию общности концепций (понятий) этих двух процессов, которые по существу являются зеркальным отображением друг друга.