Выбор функций речевого отображения информации
Эти функции могут классифицироваться в соответствии с речевыми актами, которые их отображают [64]. В работе [75] дано пять базовых типов информации (т. е. речевых актов), применительно к которым может оказаться полезным речевой вывод. Эти базовые типы информации охватывают широкий круг конкретных приложений, к числу которых относятся предупреждения, советы, ответы на запросы пользователя, обратная связь по управляющим воздействиям и команды. Шестой тип, не вошедший в список, — это устные подсказки системы пользователю при ожидании от него определенных действий, например ввода данных. Маловероятно, что любой из перечисленных речевых актов будет во всех ситуациях пригоден для реализации речевого вывода: степень пригодности будет определяться скорее комбинацией характеристик конкретной задачи и пользователя.
Предупреждения
Из шести перечисленных выше типов речевых актов в исследованиях по речевому выводу информации предупреждениям было уделено наибольшее внимание. В ряде исследований, обобщенных в работе [79], было высказано предположение о том, что речевые предупреждения должны выражаться короткими фразами, содержащими не более четырех-пяти слогов, чтобы минимально отвлекать внимание «слушателя» от основной работы для так называемого перцепционного копирования оповещений и обеспечивать разборчивость важных сообщений при наличии шума и мешающих разговоров.
Голос, используемый для выдачи предупреждающих сообщений в кабине самолета, должен быть характерным [7, 81, 88] и выделяться на фоне голосов других людей. В среде, где преобладают мужские голоса, часто предлагали использовать для выдачи предупреждений женский голос (который уникален по своим речевым характеристикам [7]), но такая речевая среда в настоящее время встречается редко. Кроме того, согласно мнению пилотов, участвовавших в исследованиях по моделированию речевого вывода на имитаторах полетов, голос не должен звучать естественно [18, 70, 91], чтобы его нельзя было спутать с речью человека, передаваемой по радио или по системе внутренней связи. Смысл этого требования состоит в том, что машина должна иметь машинный голос как некоторый признак, облегчающий распознавание ее речевых сообщений.
Как отмечалось при рассмотрении последнего примера [78, 91], правильный темп речи и подходящее ее звучание являются важными характеристиками речевых предупреждающих сообщений независимо от типа голоса. В одном исследовании по темпу синтезированной речи [77] пилоту вертолета передавались сообщения со скоростями 123, 156 и 178 слов в минуту, в то время как пилот был занят выполнением требующей внимания летной задачи. Несмотря на то что на качестве выполнения летной задачи не сказывались ни разборчивость сообщения, ни быстрота речи, пилот предпочитал скорость передачи сообщений, равную 156 слов в минуту.
Другая серия исследований была посвящена изучению времени реакции оператора (интервала времени от подачи сигнала до первой ответной реакции человека) при использовании син - тезированных речевых оповещений, предваряемых тональным сигналом тревоги или предупредительными словами. В работе [81] было отмечено, что появление предварительного тонального сигнала перед синтезированным оповещением голосом увеличивает время системной реакции, в случае же использования удлиненного сообщения с дополнительным словом, уточняющим семантический контекст последующего сообщения, время реакции не возрастает. В более поздней работе [29] эти результаты были повторены. Кроме того, было отмечено, что когда синтезированный голос использовался для реализации нескольких функций, а предварительный тональный сигнал применялся только с предупредительными сообщениями, этот сигнал улучшал распознавание экстренных сообщений без увеличения времени системной реакции на них. При изучении различных аспектов использования префиксов в предупредительных речевых сообщениях [9, 79] не было обнаружено никакого различия во времени реакции в зависимости от типа префикса, несмотря на разную фактическую длину различных префиксов (тональная посылка, нейтральное слово, одно из трех слов семантического контекста). Эти исследования подтвердили предположение о том, что синтезированная речь является сама по себе особой по сравнению с речью человека, а потому может выполнять одновременно и функцию предупреждения и функцию передачи информации. Физические основы такой корреляции отличительных особенностей синтезированной речи предстоит определить экспериментально.
Подсказки
Подсказки системы пользователю изучались Маунтфордом и его коллегами [46]. Они исследовали различные уровни наполнения речевых сообщений, используемых для обратной связи и подсказок пользователям моделируемой системы с речевым вводом данных, которая предназначена для прокладки летных маршрутов и навигации. Было обнаружено, что короткие диалоги с небольшим числом подсказок и насыщенность обратной связью обеспечивают лучшие характеристики ввода данных. В будущих исследованиях вполне может быть установлено, что соотношение между словесным наполнением и временем, затрачиваемым на передачу речевого сообщения, зависит от критичности появления некоторой ошибки. Чем катастрофичнее влияние ошибки, тем больше времени согласятся тратить пользователи на продумывание надлежащих подсказок и механизмов обратной связи. В этой области необходимо провести большую исследовательскую работу.
Подсказки могут также применяться в речевых системах, в которых для управления используются меню. Речевые подсказки были реализованы в проекте системы речевой почты для Олимпийских игр 1984 г. [27]. Обратная связь с пользователем во время испытаний предшествующей версии системы показала, что число речевых подсказок для любого меню не должно превышать трех, что, вероятно, обусловлено ограничениями кратковременной памяти человека при запоминании им речевых элементов. Эти результаты относятся к пользователям, поверхностно знакомым с ЭВМ; могут ли они быть распространены на искушенного пользователя, покажут дальнейшие исследования.
Обратная связь
Обратная связь в ответ на вводимые пользователем дискретные управляющие данные часто рассматривается как функция, вполне подходящая для речевого отображения информации. Соответствующие исследования обсуждались выше в разделе по распознаванию речи. Следует отметить, что обратная связь может быть обеспечена в режиме подсказок [46], т. е. если система подсказывает пользователю следующую целесообразную операцию по вводу данных или тип управляющего воздействия, то пользователь будет считать, что система правильно восприняла предыдущую введенную информацию. Однако реальные условия, при которых пользователь, может быть уверен в таких предположениях, нуждаются в изучении. Тип применяемой обратной связи в аспекте обусловленности, содержательности и словесной насыщенности лингвистического кодирования должен зависеть от критичности ввода управляющей информации ко времени и от тяжеети возможных последствий ошибок распознавания речевых сигналов.
Ответы на запросы пользователя
Запросы пользователя изучались в работе по графическому машинному моделированию полета вертолета NOE [92]. Пилоты могли запрашивать систему о скорости полета, моменте вращения и высоте полета в то время, когда они пытались пролететь на своем моделируемом вертолете через лабиринт, отображаемый на экране дисплея. Эффективность полета через лабиринт была выше тогда, когда пилоты использовали речевые запросы и получали синтезированные речевые ответы, чем в том случае, когда они получали эту информацию от руководителя с помощью дисплея или считывали ее с циферблатов измерительных приборов.
Выдача советов
Полезность речевых устройств в задачах, связанных с получением консультативной информации, может зависеть от других функций, для реализации которых в конкретной прикладной системе уже используются речевые сигналы. Когда советы выдают в связи с речевыми предупреждениями, как было замечено ранее [29], предупредительное сообщение обнаруживается надежно только в том случае, если ему предшествует какой-то отличительный признак. Изучение мнений гражданских и военных пилотов по проектам систем предупреждения [7, 16, 18, 96] неоднократно показывало, что пилоту предпочитают использовать речевые сообщения только для наиболее критичной предупреждающей информации4. Для консультаций и менее критичных предупреждений они предпочитают визуальное отображение. В то же время речевые консультационные сообщения вынуждают пилота затрачивать умственные усилия, поскольку пилот должен быть внимательным при их прослушивании. Предпочтение пилотами визуального представления информации консультативного характера может отражать нежелание отвлекаться при большой рабочей нагрузке на что-либо, кроме приема срочной информации. Например, исследование мнений пилотов по проектам бортовых систем предупреждения в полете выявило, что пилоты негативно относятся к получению некритичных предупреждений при высокой рабочей нагрузке, например во время взлета и посадки [90].
Использование речевых сообщений для выдачи информации консультативного характера может оказаться полезным в среде, отличающейся от рабочих условий в кабине пилота, и в ситуациях, которые исключают применение предупредительных речевых сообщений. Кроме того, пилоты или другие операторы, для которых очень нежелательно отвлечение внимания «разговорами», могут усмотреть некоторую пользу в системе, которая дает консультативную информацию только по требованию пользователя. Полезность речевых советов и отношение к ним пользователя, несомненно, требуют дальнейшего изучения.
Команды
Опубликованы результаты некоторых исследований и дискуссий относительно целесообразности подавать команды с использованием средств автоматической генерации речи. В работе [80] приводятся доводы в пользу того, что использованию речевых команд должно быть уделено большое внимание, по крайней мере в условиях работы в пилотской кабине, поскольку пилоты отказываются выполнять команды без знания причин ее появления. Этот аргумент частично подкрепляется результатами исследования [21], приведенными в работе [52], где отмечено, что получение пилотами визуального отображения информации о воздушной обстановке сокращает время их реакции на визуальную команду предотвращения столкновения по сравнению с выдачей этой команды без использования отображения воздушной обстановки. Подобный эффект возможен и для речевых команд. Для других пользователей речевые команды, выдаваемые как инструкции в некритичных ко времени ситуациях «ли вместе с консультационной информацией, вероятно, окажутся действенными во многих приложениях.
Альтернативные подходы к проектированию систем предупреждения
Представленная здесь стратегия проектирования речевых систем предупреждения для пилотских кабин характеризуется следующими принципами: 1) использование речи для выдачи только наиболее критичных ко времени предупреждений; 2) использование характерного голоса для речевых сообщений; 3) отказ от применения любого неречевого привлекающего внимание сигнала перед речевым предупреждением; 4) отказ от повторения речевого предупреждения до тех пор, пока не пройдет период времени, в течение которого пилот смог бы скорректировать свои действия; 5) использование максимум четырех слогов для любого речевого предупреждающего сообщения.
Рекомендации, представленные в гл. 6 тома 5 и согласующиеся с результатами Патерсона [53], были выработаны на основе одной и той же базы данных по проводимым исследованиям, однако взятые по отдельности они вступают в противоречие С некоторыми перечисленными здесь принципами. Патерсон [53] рекомендует использовать: 1) для критичных ко времени предупреждений ключевые слова без ограничения по числу слов; 2) короткие предложения или фразы для менее критичных ко времени предупреждений; 3) звуковой сигнал, подаваемый до и после всех речевых предупреждающих сообщений, и 4) звуковой сигнал меньшей амплитуды (но не выключение) после его первоначальной подачи. Цель понижения амплитуды состоит в уменьшения беспокойства со стороны пилота и снятии его умственного напряжения. Основные различия между двумя подходами связаны с различием в особенностях проектирования. Авторы данной главы рекомендуют использовать различимый, хорошо понимаемый, синтезированный машиной голос только для критичных ко времени предупреждений. Если голос обладает этими двумя свойствами, то предварительный, привлекающий внимание сигнал не требуется. Патерсон не выдвигает ни одного из этих требований, в связи с чем может оказаться необходимым предварительный сигнал, привлекающий внимание оператора.
Отличия в рекомендуемых форматах сообщений могут быть объяснены, если исходить из различных предположений авторов относительно длительности звучания речевого сообщения. Патерсон обосновывает использование сравнительно коротких (4,8 с), определяемых ситуацией неречевых звуков для инициирования сигнала предупреждения, предполагая, что речевое сообщение требует для представления некоторого неприемлемо длинного периода (6—7 с). По Патерсону голосовое сообщение— это дубль звукового сигнала; оно может обеспечивать дополнительную информацию консультативного характера. Авторы данной главы полагают, что предупреждающие сообщения из четырех — восьми слогов могут произноситься 1,5—3 с. Такая малая длительность сообщения позволяет передавать информацию пилоту посредством речи быстрее, чем предполагает Патерсон, н приводит к меньшим мешающим влияниям других актов речевого общения экипажа в кабине пилота.
Таким образом, если проанализировать два рассмотренных подхода к проектированию, то различия между ними окажутся минимальными. Каждый подход основывается на конкретных предположениях и опубликованных экспериментальных данных. Для системы Патерсона характерно то, что речевой звуковой сигнал рассматривается как первичный, а использованию неречевых сигналов отводится вспомогательная роль. Для разных типов операций во время полета может оказаться эффективнее та или иная система.
Моделирование речевого общения людей
Обсуждавшиеся выше речевые акты выполнялись машинами, говорящими «машинным» голосом человеку-оператору. Но есть и другое важное применение речевого вывода: это моделирование речевого общения людей, например для целей обучения, чтобы исключить для человека необходимость играть некоторую роль. Так, генерация речи была предложена и оценена в тренажерной системе, применяемой для подготовки операторов радиолокационных станций в системе точного захода на посадку и для операторов (пилотов), выполняющих задачу перехвата.
Сравнение различных способов отображения информации
Сравнительные исследования речевого и визуального способов вывода информации были направлены на анализ пользовательских предпочтений, времени реакции, точности восприятия и на анализ выполнения задачи при речевом выводе по сравнению с визуальным и при использовании речевого вывода в комбинации с визуальным в различных речевых актах.
В ранних исследованиях по речевым предупредительным сообщениям, в которых использовались речевые сообщения в записи на ленту, отмечалось, что время реакции пилота на предупреждение голосом было меньше, чем на визуальное предупреждающее сообщение [37], и что визуальное отображение, дополненное предупреждением голосом, давало более быструю реакцию при возникновении экстренных ситуаций, чем визуальные сообщения, дополненные тональным сигналом [34].
Другим отличием визуального режима от речевого может быть терпимость пользователя к неверным данным и его способность выполнить задачу даже в случае представления ему ложной информации. Изучение мнений гражданских пилотов относительно проектов системы оповещения в пилотской кабине показало, что пилоты более терпимы к ложным визуальным сообщениям, чем к ложным речевым сообщениям [96]. Что же касается качества выполнения полета, то оно при наличии ложных предупреждений голосом было ниже по сравнению со случаем, когда речевые сообщения давали точную предупреждающую информацию [70].
Кроме того, данные опроса пилотов наводят на мысль, что в кабине пилота речевой режим должен резервироваться для срочных, критичных ко времени сообщений. Как отмечалось ранее [32], пилоты самолетов предпочитают визуальное отображение для любой информации, кроме предупреждающих сообщений, которые они хотели бы получать в речевой форме. Некоторые исследователи [37, 16, 18, 96] также отмечали, что пилоты предпочитают речевой режим для целей предупреждения, а не для получения консультативной информации. Необходимо проведение дальнейших исследований для определения того, сохраняется ли такая система предпочтений для других категорий пользователей, например для водителей автомобилей, операторов энергоустановок, пользователей ЭВМ.
В некоторых ситуациях пользователи, имеющие дело с определенным типом информации, могут возражать против применения речевого режима. Так, в работе [85] сравнивается речевое и визуальное отображение подсказок и сообщений об ошибках пользователям банковского автомата. Хотя при этом не было выявлено существенных отличий в эффективности действия звуковых и визуальных отображений, пользователям не нравилось применять речевые сообщения об ошибках, поскольку другие лица могли их слышать.
Для тех, кто страдает физическими недостатками органов чувств, выбор визуального или речевого отображения информации зависит от имеющегося дефекта. Для слепых пользователей необходимо спроектировать речевой интерфейс таким образом, чтобы облегчить выполнение в речевом режиме функций, которые обычно лучше выполняются с использованием визуального отображения.