Проблемы человеческого фактора
Хотя специальная литература по проблемам поведенческого фактора содержит результаты исследований, которые отображают определенные принципы проектирования речевых систем, накопленные знания все еще не сформулированы в виде конкретных рекомендаций. Методология учета субъективных факторов уже разработана в достаточной мере, чтобы проводить экспериментальное сравнение речевых систем, применяемых в рамках, определенных задач, однако пока еще нет инструментальных средств, которые требуются для определения общих принципов - проектирования универсальных речевых систем. В ближайшее время широкие функциональные возможности моделирования речевых систем в сочетании с новыми критериями оценки рабочих характеристик усовершенствованных систем должны стать основой необходимой методологии.
Алгоритмы генерации речи выглядят сегодня более совершенными по сравнению с алгоритмами распознавания речи. Выпускаемые промышленностью системы довольно внятно воспроизводят текст на английском языке. Противоположная задача распознавания речи и представления ее в текстовой форме, т. е. машинного преобразования речи человека в грамматически и синтаксически корректный текст, не будет решена на уровне систем промышленного изготовления в прогнозируемом будущем. Ее реализация в значительной степени ограничивается лабораторными системами, которые работают с фрагментами речи, составленными из элементов ограниченного словаря при определенном синтаксисе, и ориентированы на небольшое число известных системе дикторов. Суть интерпретации такого большого различия в решении двух, казалось бы, похожих задач состоит в том, что оно лишний раз подтверждает большое преимущество человека перед машинными алгоритмами, когда работа выполняется в условиях изменчивости речевого сигнала. Люди быстро осваиваются с незнакомым акцентом машинной речи, тем самым компенсируя недостатки, свойственные машинному алгоритму. В то же время, когда люди взаимодействуют с современными машинами посредством речевого ввода информации, они должны (насколько это возможно) предотвращать обычную для их речи изменчивость, чтобы алгоритм распознавания работал в условиях минимально возможного разнообразия входного сигнала. На рис. 3.5 схематически показан процесс, который можно назвать «оперативным распознаванием». Легко заметить, что данная схема получена из рис. 3.4, иллюстрирующего понятие операционной разборчивости.
В настоящее время «оперативное распознавание» реализовано лишь на рудиментарном уровне использования прагмати-
веского и лингвистического контекстов. По мере накопления. знаний и углубления понимания систематических лингвистических и прагматических изменений речи человека и по мере того, как полученные результаты будут использоваться в алгоритмах машинных речевых систем, можно ожидать, что алгоритмы распознавания станут работать в значительно более широком диапазоне речевых контекстов, а алгоритмы генерации смогут обеспечить такое звучание искусственной речи, которое будет нести в себе дополнительные характерные признаки, существенные для воспринимающего речевой сигнал человека. Такие тех-
Факторы, способствующие оперативному распознаванию речи
Характеристики других сигналов |
Характе - ристики шума |
I Разборчивость основных Фонем |
Характеристики физи Чесного сигнала
IПрагматический. 1 1 контекст 1 |
Лингвистическиил контекст 1 |
|
Щг |
||
Фильтрация ",слушателем " на основе зна - Ний реального мира |
Фильтрация "слушателем" на основе Лин г - биотических знаний |
|
« |
* |
|
Оперативное распознавание речи
Рис. 3.5. Факторы, способствующие оперативному распознаванию в рабочих условиях ([44] согласно Симпсону).
Нологические достижения расширят область пересечения задач, подходящих для речевого режима, и речевых систем, характеристики которых отвечают требованиям конкретной задачи. Однако рассмотренные в данной главе основные проблемы проектирования будут актуальны независимо от состояния технологии речевых систем.
В ближайшее время современные алгоритмы распознавания смогут использоваться в рабочей среде, характеризуемой низким или средним уровнем шума (до 85 дБ), для применений, в которых требуются небольшие словари и которые не связаны с возникновением стрессовых ситуаций для пользователя. Усовершенствование методов распознавания речевых сигналов в условиях фонового шума сокращает воздействие этого источни
ка изменчивости на фрагменты речи, подлежащие распознаванию. Однако в случае изменчивости, связанной со стрессами, достижимая точность распознавания и допустимые пределы изменения рабочих характеристик распознающего алгоритма, когда пользователь находится в стрессовой ситуации, не известны. Следовательно, при использовании современной технологии распознавания речи должна проявляться особая осторожность в случае применений, связанных со стрессовой обстановкой.
В то же время современные алгоритмы генерации речи хорошо зарекомендовали себя в условиях сильного шума и высокого уровня рабочей нагрузки. Они вполне пригодны для практического применения при надлежащем учете обсуждавшихся здесь аспектов интеграции субъективных факторов.
Технологии распознавания и генерации речи в ближайшее время смогут совместно использоваться в отдельных прикладных системах. Критичные аспекты такого ближайшего применения связаны главным образом с учетом субъективных факторов. В перспективе потребуются существенные усилия как в разработке алгоритмов, так и в исследовании субъективных факторов для того, чтобы расширить границы допустимой изменчивости речи, приемлемые для систем распознавания и генерации, и, следовательно, сделать более широким диапазон возможных применений речевой технологии.