Системная интеграция
Вопросы системной интеграции, образующие третье направление исследований в области речевых систем, должны предусматривать выработку требований к технологиям распознавания и генерации речи в их синергическом единстве. Визуальные и мануальные возможности человека часто ассоциируются соответственно с перцептуальными и моторными (типа вход — выход) характеристиками. Подобным же образом речевые возможности характеризуются идентифицируемыми параметрами процессов восприятия и воспроизведения человеческой речи, которые должны стать (либо естественным образом, либо через проектные решения) базисом для формулирования требований к интерфейсам речевых систем ввода — вывода.
Выбор задачи
Если речевые системы используются в пилотской кабиие, то применение неожиданных для летчика сообщений ограничивается только предупреждениями о наиболее критичных ко времени ситуациях. Любые другие функции речевого вывода следует ограничить выводом информации по запросу пилота. Отметим, что пнлот может запросить информацию (обратиться за советом) по определенным операциям, характеристикам конкретного полета или параметрам системы. Следует рассмотреть вопрос об использовании речевого вывода информации, когда пользователь настолько загружен визуальной информацией, что всякие дополнительные визуальные команды при определенном уровне зрительной нагрузки оказываются недопустимыми. Отнесение тех или иных дополнительных команд к неприемлемым зависит от решаемой конкретной задачи. Речевой режим следует использовать для выдачи сообщений о дискретных событиях, а не для считывания непрерывно изменяющихся показаний аналоговых приборов. Не следует прибегать к речевому режиму н для выдачи длинных подробных сообщений или запоминаемой информации, речевое представление которой не дает пользователю никакого выигрыша по сравнению со средствами визуального отображения
Подготовка пользователей
Следует обеспечить обучение пользователей восприятию особенностей применяемых речевых сообщений
Характеристики речи
Необходимо выбирать подходящий тип голоса соответственно источнику речевых сообщений: для машинных сообщений, адресуемых оператору, следует использовать «механический» голос; когда же моделируется речь человека, должен использоваться голос естественного звучания. При моделировании человеческой речи может оказаться желательной имитация речи с учетом местного акцента, пола и возраста говорящего. Независимо от типа Імлоса необходимо использовать по возможности лучшие аппроксимации < стественных просодии. Для предупреждающих сообщений рекомендуемая скорость речи составляет примерно 150 слово/мин. Меньшая скорость может быть желательна для обучения лнц, которые незнакомы с речевым акцентом, или для реализации других функций, не связанных с оповещением. Пока не будут получены результаты новых исследований, наилучшая скорость речи лля конкретного применения должна определяться экспериментально. Если искусственный «машинный» голос используется исключительно для предупреждений, то не следует подавать какие-либо предварительные привлекающие внимание неречевые звуки. Если же машинный голос служит не только для предупреждающих сообщений, но и для реализации других функций (например, для выдачи советов, ответов на запросы пользователей и др.), то в речевые предупреждения должны включаться предваряющие сигналы, привлекающие внимание. Такими упреждающими сигналами могут быть голос более высокого тона, взволнованный голос и неречевые сигналы нлн какие-то иные признаки, которые идентифицируют предупреждающие сообщения, делая их легкоразличимыми, и могут способствовать повышению качества распознавания без сопутствующего увеличения времени реакции человеко-машинной системы
Конструирование сообщений
Чтобы обеспечить лингвистический Контекст, достаточный для понимания предупреждающего сообщения с началом его Звучання, такое сообщение лолжно состоять как минимум из четырех слогов. Необходимо, чтобы сообщение соответствовало характеру задачи и в нем использовалась знакомая
Продолжение
Пользователям терминология. Следует избегать многословности выдаваемых подсказок и ответов, ограничивая их согласно требованиям со стороны задачи ко времени реакции и допустимой частоте ошибок
Измерение рабочих характеристик
Следует оценивать разборчивость сообщений в рабочей обстановке и. ч» в моделируемых условиях Подходящими характеристиками человеко-маши-і - иых систем являются меры их операционной релевантности: времн реакшш системы, точность реакции и приемлемость для пользователя
Проектирование системы
Не следует использовать в речевых системах ненадежную информацию Надо рассмотреть возможные конфликтные ситуации, обусловленные большим числом речевых сообщений, а также необходимостью одновременною восприятия одних и произнесения других сообщений. Если речевым способом передается критичная ко времени информация (например, предупреждение), то необходимо использовать какую-то систему предпочтений для упорядочения одновременно появляющихся речевых сообщений таким образом, чтоСы первым поступило наиболее важное из них. Для предупреждающих сообщений следует обеспечить пользователя возможностью их отмены по мере и* восприятия Повторять предупредительную информацию через какое-то Опре деленное время (см. следующую рекомендацию) необходимо только в том случае, если условие, породившее это предупреждение, сохраняется. Для предупреждающих сообщений время ожидания повторной передачи зависит от серьезности последствий для пользователя, не справившегося с задачей. В речевом меню, не дублируемом визуальным отображением, должно бьгь не более трех позиций
Критическими для интеграции субъективных факторов являются вопросы проектирования соответствующих рабочих операций с учетом возможностей речевых систем и проблемы проектирования человеко-машинных диалогов.
Проектирование рабочих операций
Системы, в которых используется речевой ввод — вывод, должны проектироваться с учетом характеристик речевых сигналов. Определенные уникальные свойства речевого режима затрудняют однозначное отображение индивидуальных органов ручного управления на методы речевого управления и визуальных элементов представления информации на речевые сообщения [17, 74, 97].
Речь — это дискретная, одноканальная, всенаправленная, сложная система кодирования передаваемой информации с хорошо известной семантической структурой. Она всегда привлекает внимание пользователя и не должна нести ему ложную информацию. Использование речевых сигналов для управления различными системами при правильной реализации может исключить необходимость изучения специальных языков, подоб - ных языкам программирования для ЭВМ, и стать альтернативой системам ручного ввода.
На передачу информации затрачивается какое-то время, и «слушатель» (человек или машина) может неправильно понять адресованное ему сообщение на фоне других речевых сообщений, звуковых сигналов или шума. Обусловленные речевым режимом ограничения (время на передачу и единственный канал) должны рассматриваться при любой реализации речевого вывода и управления. Кроме того, определенные свойства речи ограничивают способ ее использования в человеко-машинных системах. Речевой канал не всегда обеспечивает наиболее быстрый способ взаимодействия с системой. Время, затрачиваемое оператором на выполнение речевой команды, сильно зависит от таких параметров, как состав словаря, синтаксические ограничения и особенно от схемы организации диалога.
Получатель некоторого сообщения, будь то человек или машина, испытывает большие затруднения при обработке одновременно нескольких сообщений. Это является результатом того, что речь представляет собой «одноканальный код», так как, во-первых, ни люди, ни современные машины не могут одновременно говорить и слушать, не допуская ошибок, и, во-вторых, те и другие способны эффективно работать одновременно только с одним речевым сообщением. Следствием этого ограничения является недопустимость наложения речевых команд на другие речевые сообщения или посторонних разговоров.
Речевое сообщение существует мимолетно, если только его не записывают с целью последующего воспроизведения. Ограниченность памяти человека может явиться причиной затруднений оператора при определении места речевых сообщений в структуре команд системы распознавания, если не установлена надлежащая обратная связь и нет подсказок. Условия, при которых это утверждение справедливо, требуют дальнейших исследований, базирующихся на предыдущих результатах [46].
Вообще современная технология распознавания обусловливает использование словаря, состоящего из акустически различимых слов. Словарный состав и синтаксис должны быть ограничены. В будущем эти ограничения могут быть постепенно устранены, но нельзя рассчитывать на это без большого продвижения в фундаментальном понимании изменчивости речи человека и использовании полученных знаний в алгоритмах распознавания.
Однако независимо от успехов технологии распознавания ограниченные характеристики производительности и пропускной способности человека будут определять словарные и синтаксические ограничения для речевых систем. Чтобы сделать "минимальными умственную нагрузку человека и время, затрачиваемое на выдачу речевых команд, каждая команда должна состоять из небольшого числа слов. Требуется дополнительная информация относительно свойств памяти человека при ограниченном вербальном материале и влияния вводимых ограничений на характеристики системы. Особый интерес представляет информация о влиянии тяжелых условий внешней среды и стрессов на вербальную память (в сравнении с моторной) и на характеристики системы. Исследования в этой области приведут к выработке рекомендаций по определению целесообразного словарного состава, который должен быть гибким, легко запоминаемым, уменьшающим число ошибок акустического восприятия и сводящим к минимуму неудачную речевую стилизацию. Подобные рекомендации необходимы и для разработки формальных грамматических правил, чтобы облегчить распознавание без установления излишних ограничений, которым должен подчиняться пользователь.
Проектирование человеко-машинного диалога
Тщательное проектирование всех видов взаимного обмена информацией между человеком и системой (а не только речевого обмена) будет оказывать основное благоприятное влияние на рабочие характеристики системы в целом. Существует по крайней мере два уровня проектируемых диалогов: диалог между пользователем и речевой системой и диалог между пользователем и всеми подсистемами под его управлением.
Человеко-машинное взаимодействие (диалог) необходимо проектировать с учетом всей совокупности возможностей управления и отображения информации для всех подсистем. Сценарии различных действий и задач должны анализироваться в аспекте речевой и других нагрузок и вероятности взаимного влияния речевых сообщений. Должны быть определены характеристики функций, пригодных для реализации речевого управления, а также приоритеты всех речевых сообщений в рамках системы. Речевые команды и сообщения следует использовать так, чтобы они дополняли, а не мешали получению информации от других средств управления и отображения. Новые исследования и разработки должны быть направлены на решение этих вопросов.
Для увеличения пропускной способности речевой системы важно проектировать диалог таким образом, чтобы способствовать быстрому обмену информацией между человеком и машиной. При проектировании диалога должны быть также минимизированы возможность появления ошибок и время, требуемое на исправление их пользователем. Тщательной проработке подлежат не только речевые команды, но и элементы диалога, такие, как подсказки, системная обратная связь и ответы на запросы. Необходимо также оценивать временные характеристики полного диалога. Желаемый тип и степень лингвистической избыточности для конкретного применения определяются экспериментально. Разработка синтаксиса должна рассматриваться как неотъемлемая часть процесса проектирования речевой системи, а не просто как метод повышения эффективности уже.- созданной системы распознавания или генерации речи.
Частота ошибок, свойственная современным системам, наверняка сможет быть уменьшена, если проектировщик обеспечит для пользователя удобные вспомогательные средства, например тональные предупреждения с изменением частоты, меню допустимых входных сообщений, согласованную обратную связь и удобные команды коррекции ошибок. В дальнейших исследованиях должен быть определен наилучший формат для этих элементов диалога.
Необходимы новые методы для эффективного использования семантических и синтаксических ограничений диалога. Эти методы могли бы улучшить автоматическое обнаружение и коррекцию ошибок, увеличив тем самым точность распознавания и уменьшив пользовательские затраты времени на обнаружение и исправление ошибок.
На верхнем уровне проектирования диалога речевой ввод —■ вывод должен быть тщательно состыкован со всей системой управления и отображения для того, чтобы предотвратить перегрузку речевого канала восприятия [74]. Информация определенного типа может быть обработана лучше, если она представлена именно в речевой форме; для информации другого типа могут потребоваться графическая, текстовая или пространственная формы представления. Основательное исследование [94] было посвящено проблеме совместимости способа представления информации с характером решаемой задачи и послужило доказательством того, что для задач некоторых типов речь является лучшим способом взаимодействия по сравнению с ручным вводом и визуальным выводом. Если человек выполняет две задачи одновременно: одну — пространственную, другую — вербальную, то пространственная задача будет выполняться лучше, когда в рамках вербальной задачи используются средства генерации и распознавания речи, чем в случае, когда обе задачи реализуются с использованием ручного и визуального каналов.
Это фундаментальное исследование, однако, не затронуло вопросов организации речевого диалога. Необходимо провести дополнительную работу по изучению совместимости различных каналов взаимодействия на примере реальных задач, чтобы облегчить выбор подходящих сфер использования интерактивных речевых систем в целях сокращения рабочей нагрузки оператора. Однако успешность функционирования речевых систем при решении какой-то конкретной практической задачи не гарантирует эффективности функционирования всей прикладной системы в целом. Базовые ограничения, свойственные человеческой памяти и способности человека к переработке информации, должны обязательно учитываться при проектировании человеко-машинного интерфейса и особенно при использовании речевого режима.
Применительно к оператору многие задачи, связанные с современными сложными системами управления и отображения, могут быть решены путем лучшего проектирования на уровне всей системы. Речевое управление и отображение могут сыграть свою роль в таких ситуациях, но решение об их применении может быть принято только после всестороннего анализа или моделирования с целью сравнения речевого режима управления и отображения с альтернативными.