ЧЕЛОВЕЧЕСКИЙ ФАКТОР

Выбор характеристик систем генерации речи

Исследования по выбору соответствующих систем генерации речи для конкретных приложений проводились на двух уровнях. Во-первых, эффективность алгоритмов генерации речи оценива­лась как функция многих факторов, которые влияют на разбор­чивость речи. Во-вторых, изучалась эффективность человеко - машинных систем путем моделирования, чтобы определить, ка­кие преимущества можно получить при использовании речевого вывода информации.

Эффективность алгоритма генерации речи

На разборчивость речи оказывают влияние физические харак­теристики речевого сигнала и контекст, в кйтором произносятся те или иные фразы. Помимо разборчивости в речевом режиме должны измеряться также характеристики полноты информа­ции и способности человека к ее запоминанию и восстановлению в памяти.

Разборчивость речи в рабочей обстановке

В современном обзоре исследований по разборчивости синтези­рованной с помощью ЭВМ речи [79] определено три типа ус­ловий, которые оказывают влияние на речевой сигнал, произ­водя в результате то, что авторы называют «оперативной раз­борчивостью» речи. Оперативная разборчивость применительно к определенному алгоритму генерации речевых сигналов — это понятность генерируемой с его помощью речи. В конкретном множестве физических, прагматических и лингвистических кон­текстов она может существенно отличаться от степени разбор­чивости речи на уровне фонем. На рис. 3.4 изображены четыре главных фактора (физический сигнал и три типа контекста), которые влияют на оперативную разборчивость. На физическом уровне речевой сигнал может зависеть от принадлежности го­лоса женщине или мужчине, речевых характеристик говорящего, скорости речи, основной частоты, амплитуды, точности произ­ношения и просодии, акцента, диалекта и других параметров. Физический контекст включает в себя факторы физической сре­ды, такие, как шум, посторонние звуковые сигналы, вибрация и др. Прагматический контекст — это в основном ситуация ре­ального мира, в которой должно звучать сообщение. Этот кон­текст включает в себя текущие события, выполняемую задачу, время и место, предысторию и логически возможные будущие события. Характеристики прагматического контекста должны «фильтроваться» воспринимающим его лицом. Лингвистический контекст речевого сигнала влияет на разборчивость речи через обеспечение «подсказок и намеков», которые ограничивают круг
возможных интерпретаций приходящего речевого сигнала. Это ограничение являет собой сложный тип замкнутого множества ответных реакций. Давно известно, что по мере сужения допус­тимой совокупности действий понятность речи человека, вос­принимаемой в условиях шума, возрастает, если все другие факторы остаются постоянными [43]. Лингвистический контекст ограничивает множество реакций более сложным образом по сравнению с простым ограничением совокупности возможных сообщений. Это объясняется взаимовлиянием ограничений, дей­ствующих на различных уровнях лингвистического кодирования^ В работе [80] приведены эти уровни и даны ссылки на литера-

Туру по влиянию разных типов лингвистического контекста на разборчивость человеческой речи.

Данные лингвистического контекста фильтруются лицом, воспринимающим речевое сообщение, в соответствии с его линг­вистическими знаниями о языке, на котором звучит сообщение. Например, человек, недавно изучивший шведский язык, не будет способен использовать лингвистический контекст, чтобы вос­принимать шведскую речь столь же эффективно, как человек, для которого шведский является родным языком. На лексиче­ском уровне правильности восприятия речи может способство­вать знакомство с определенным словарем и фразеологией.

Часто влияние факторов, обеспечивающих понимание рече­вых сообщений, оказывается для синтезированной речи сильнее, чем для естественной [50, 66]. В работе [79] отмечено, что при достаточно интенсивном привлечении факторов, улучшающих разборчивость речи, речь, синтезированная стандартными рече­выми устройствами, характеризуется 100%-ной разборчивостью, а без такой интенсификации уровень понятности составляет только 19%. Факторы, трактуемые как физические характерис­тики речевого сигнала, — это собственная (основная) частота, скорость речи, просодия, интонация, обнарживаемость речевого акцента, тип голоса и фонетическая точность синтезированной речи. В физическом контексте авторы рассматривают исследо­вания по влиянию фонового шума и посторонних разговоров. К факторам прагматического контекста относятся знакомство лица, воспринимающего сообщение, с характерным акцентом речи, фразеологией и словарем, а также с ситуацией реального мира, в которой звучат речевые сообщения. Факторы лингвисти­ческого контекста— это семантический и синтаксический кон­тексты и число слогов.

При идеальных условиях слухового восприятия, характери­зующихся высоким значением отношения сигнал/шум, отсутст­вием посторонних разговоров или иных звуковых сигналов, при­вычностью для слушающего акцента машинной речи, разборчи­вость синтезированных фраз может составить 99—100%. Умень­шение максимального отношения сигнал/шум до уровня — 10 дБ-=—23 дБ при прежнем действии других факторов по­казало малое уменьшение или сохранение прежнего уровня оперативной разборчивости, по крайней мере применительно к сообщениям, звучащим в кабине пилота [74]. Высокая разбор­чивость (99—100%) была получена для коротких, знакомых фраз, произносимых в условиях моделирования шума в пилот­ской кабине, и при использовании как речи, представленной в цифровой форме линейного кодирования с предсказанием, так и речи, синтезированной по правилам.

В табл. 3.5 обобщены результаты изучения разборчивости речи, представленные в обзорной работе [79]. Однако читатель должен избегать прямых сравнений между этими исследования­ми, так как в большинстве случаев они отличались более чем одним параметром.

Понятность оцифрованной речи зависит от пола говорящего субъекта. Речь женщины, закодированная с использованием методов линейного предиктивного кодирования и адаптивного предиктивного кодирования, более чувствительна к ошибкам в отдельных разрядах двоичного кода, чем речь мужчины, закоди­рованная с помощью тех же самых алгоритмов. Это различие действует в широком диапазоне частот битовых ошибок [82].

Таблица 3.5. Некоторые результаты изучения оперативной

Факторы, определяющие разборчивость Условия эксперимента

Физический сигнал Речь, синтезированная из Речь, синтезированная из

Фонетических сегментов фонетических сегментов,

В сравнении с речью, синтезированной с по­Мощью линейного пре­Диктивного кодирования

Физический Контекст Шум вертолета при отно - Шум вертолета при от - шении сигнал/шум, рав - ношении сигнал/шум, Ном —23 дБ равном —23 дБ

Прагматический контекст Сведения, передаваемые Отсутствует

Во время полета (пре­дупреждение об опасных объектах)


Лингвистический кон­текст

Фразы длиной от четы - Сообщения в виде при - рех до восьми слов вычных слов


98,7—99,8

Разборчивость

Синтез.: 44% Линейное предиктивное кодирование: 19%


[79]

[77]

Литература


Аналогичные сравнения необходимо провести для синтезирован­ных женского и мужского голосов.

Если ухудшаются лингвистический и прагматический кон­тексты, а не отношение сигнал/шум, то происходит значитель­ное ухудшение разборчивости речи [79]. В связи с этим реко­мендуется использовать для предупреждений или для других

Разборчивости [79]

Речь, синтезированная нз Речь, синтезированная из Речь, синтезированная из фонетических сегментов фонетических сегментов, фонетических сегментов

В сравнении с высокока­чественной записью речи человека


Шум широкофюзеляжно­го реактивного самолета при отношении снг - нал/шум, равном —10 дБ

Сведения, относящиеся ж полету (ответные сооб­щения о высоте полета)

■Сообщение в виде цело­го предложения; пре­дупреждения в летной терминологии

99,7%

[68]

Шум отсутствует

Сообщения, имеющие от­ношение к полету (пре­дупреждения и команды управления воздушным движением), в сравнении с обычными повседнев­ными сообщениями Субъекты: незнакомые с сообщениями; пилоты по сравнению с непнлотами Сообщение в виде пред­ложения

Пилоты: сообщения о полете синтез.: 96% человек: >99% обычные сообщения синтез.: 93% человек: >99% Непилоты: сообщения о полете синтез.: 86% человек: 96% обычные сообщения синтез.: 93% человек: >99%

[66]

Мешающая человеческая речь, записанная по ра­диовещанию (сообщения о погоде); отношение сигнал/помеха +8 дБ Касающиеся полета со­общения (предупрежде­ния в кабине пилота) Субъекты: незнакомые с сообщениями пилоты

Два ключевых слова в одно - и многосложном контекстах в сравнении с теми же словами в кон­тексте предложения Многосложный контекст ключевые слова: 94% предложения: 93% Односложный контекст ключевые слова: 78% предложения: 96%

[67]


Неожиданных речевых сообщений минимум четыре слога'>.

Превосходная разборчивость речи, описанная в работе [79], была достигнута за счет применения фонетического редактиро­вания закодированной речи экспертами по речевой акустике. Понятность речи, сгенерированной алгоритмами речевого вос-

'> Эта рекомендация касается английского языка, в котором средняя Длина слова существенно меньше, чем в русском. — Прим. ред.

Произведения текста, была плохой и зависела от конкретного алгоритма. Например, разборчивость фраз в исследованиях, выполненных в Гарвардской психоакустической лаборатории '22], составила 93,2% применительно к одной речевой системе 54] и 87% для того же набора речевых фрагментов в другой 49].

К основным недостаткам алгоритмов речевого воспроизведе­ния текста можно отнести: 1) фонетические ошибки произноше­ния слов, которые являются исключениями для речевых сооб­щений на английском языке, и 2) неадекватные правила для корректной расстановки ударений в словах и интонации в пред­ложении применительно к некоторым синтаксическим, семанти­ческим и речевым структурам. Пока эти недостатки не будут устранены, будет сохраняться необходимость в использовании Упомянутого ранее ручного редактирования кодированных инди­видуальных речевых сообщений.

Полнота восприятия речевых сообщений

Хотя синтезированная речь может быть на 100% понятна слу­шателям, знакомым с ее акцентом, фразеологией и практиче­ски возможными сообщениями, необходимы дальнейшие иссле­дования проблем обеспечения разборчивости синтезированных речевых сообщений в сравнении с естественной человеческой речью. В работе [38] были отмечены ограниченные возможности обработки речевых сигналов, синтезированных с помощью системы воспроизведения речи по тексту, по сравнению с речью человека, когда люди дополнительно нагружались выполнением задач, требующих «запоминания в кратковременной памяти» с последующим воспроизведением. Авторы интерпретировали эти результаты в предположении, что синтезированная речь повышает требования и к процессу кодирования, и к процессу запоминания в «кратковременной памяти» человека, и привели доводы в пользу того, что синтезированная речь не должна применяться для выдачи сообщений в кабине пилота. Однако их испытуемые не были знакомы до эксперимента с акцентом синтезатора. Поэтому приложимость их выводов к пониманию пилотом знакомых сообщений, закодированных вместе с линг­вистическим контекстом на уровне предложений и в знакомом прагматическом контексте, остается под вопросом. Существуют экспериментальные подтверждения гипотезы о том, что пилоты способны запоминать информацию, представленную синтезиро­ванной речью, а позже воспроизводить ее по памяти [77] (ис­следования проводились путем моделирования полета при вы­сокой рабочей нагрузке пилота). Однако имеются лишь ограни­ченные сведения относительно того, насколько хорошо можно запомнить информацию, содержащуюся в синтезированном ре­чевом сообщении, и при каких обстоятельствах будет перегру­жаться канал слухового восприятия. Вообще утверждения от­носительно эффективности систем синтеза речи следует делать осторожно, е учетом тех условий, при которых были получены результаты.

Речевые характеристики

Желаемые характеристики речевого сигнала зависят от кон­кретного применения. Когда неодушевленная система говорит что-то пользователю «человеческим голосом», некоторые поль­зователи (например, пилоты, как указывалось выше) отдают предпочтение машинному голосу. В то же время, когда система моделирует речевое общение людей, как в тренажерной системе для подготовки авиационных диспетчеров, предпочтение отда­ется естественно звучащему голосу, в основе которого лежит оцифрованная речь человека [17]. Здесь, как и в случае речи с машинным звучанием, в процессе генерации важно использо­вать естественную просодию, поскольку временные характерис­тики речи могут влиять на понимание пользователем сообщений и качество выполнения им целевой задачи.

Голоса могут также изменяться по высоте и в зависимости от пола говорящего субъекта. В качестве индикатора срочности сообщений было предложено использовать высоту голоса и ме­нять соответственно частоту основного тона (в сторону увели­чения) при возрастании степени срочности [77]. В более позд­нем исследовании [6] предполагалось также, что разница в высоте голоса может помочь слушающему следить за несколь­кими одновременно передаваемыми сообщениями. Необходимо исследовать вопрос о том, до какой степени пользователи способны иметь дело с несколькими сообщениями сразу и в какой мере различие типов голосов может влиять на качество выполнения целевого задания.

ЧЕЛОВЕЧЕСКИЙ ФАКТОР

Этапы проектирования программного обеспечения интерфейса человек — ЭВМ

Проектирование качественного программного обеспечения ин­терфейса человек —ЭВМ не является жестким, статическим процессом. Характер и содержание каждого интерфейса варьи­руются в соответствии с конкретной областью его использова­ния, и в группах разработчиков часто …

Оценка эффективности человеко-машинных систем

Существует целый ряд общих методов оценки эффективности для различных уровней характеристик человеко-машинных сис­тем, однако оценка эффективности распознавания речи в слож­ней задаче управления, связанной с отображением информации, представляется задачей более трудной …

Потребность в документации

Соответствующая документация необходима для обеспечения эффективных и экономичных процедур разработки, использо­вания и сопровождения программных систем в целях организа­ции систематического обмена информацией между управленчес­ким персоналом, разработчиками системы и пользователями на всех …

Как с нами связаться:

Украина:
г.Александрия
тел./факс +38 05235  77193 Бухгалтерия
+38 050 512 11 94 — гл. инженер-менеджер (продажи всего оборудования)

+38 050 457 13 30 — Рашид - продажи новинок
e-mail: msd@msd.com.ua
Схема проезда к производственному офису:
Схема проезда к МСД

Оперативная связь

Укажите свой телефон или адрес эл. почты — наш менеджер перезвонит Вам в удобное для Вас время.