Выбор характеристик систем генерации речи
Исследования по выбору соответствующих систем генерации речи для конкретных приложений проводились на двух уровнях. Во-первых, эффективность алгоритмов генерации речи оценивалась как функция многих факторов, которые влияют на разборчивость речи. Во-вторых, изучалась эффективность человеко - машинных систем путем моделирования, чтобы определить, какие преимущества можно получить при использовании речевого вывода информации.
Эффективность алгоритма генерации речи
На разборчивость речи оказывают влияние физические характеристики речевого сигнала и контекст, в кйтором произносятся те или иные фразы. Помимо разборчивости в речевом режиме должны измеряться также характеристики полноты информации и способности человека к ее запоминанию и восстановлению в памяти.
Разборчивость речи в рабочей обстановке
В современном обзоре исследований по разборчивости синтезированной с помощью ЭВМ речи [79] определено три типа условий, которые оказывают влияние на речевой сигнал, производя в результате то, что авторы называют «оперативной разборчивостью» речи. Оперативная разборчивость применительно к определенному алгоритму генерации речевых сигналов — это понятность генерируемой с его помощью речи. В конкретном множестве физических, прагматических и лингвистических контекстов она может существенно отличаться от степени разборчивости речи на уровне фонем. На рис. 3.4 изображены четыре главных фактора (физический сигнал и три типа контекста), которые влияют на оперативную разборчивость. На физическом уровне речевой сигнал может зависеть от принадлежности голоса женщине или мужчине, речевых характеристик говорящего, скорости речи, основной частоты, амплитуды, точности произношения и просодии, акцента, диалекта и других параметров. Физический контекст включает в себя факторы физической среды, такие, как шум, посторонние звуковые сигналы, вибрация и др. Прагматический контекст — это в основном ситуация реального мира, в которой должно звучать сообщение. Этот контекст включает в себя текущие события, выполняемую задачу, время и место, предысторию и логически возможные будущие события. Характеристики прагматического контекста должны «фильтроваться» воспринимающим его лицом. Лингвистический контекст речевого сигнала влияет на разборчивость речи через обеспечение «подсказок и намеков», которые ограничивают круг
возможных интерпретаций приходящего речевого сигнала. Это ограничение являет собой сложный тип замкнутого множества ответных реакций. Давно известно, что по мере сужения допустимой совокупности действий понятность речи человека, воспринимаемой в условиях шума, возрастает, если все другие факторы остаются постоянными [43]. Лингвистический контекст ограничивает множество реакций более сложным образом по сравнению с простым ограничением совокупности возможных сообщений. Это объясняется взаимовлиянием ограничений, действующих на различных уровнях лингвистического кодирования^ В работе [80] приведены эти уровни и даны ссылки на литера-
Туру по влиянию разных типов лингвистического контекста на разборчивость человеческой речи.
Данные лингвистического контекста фильтруются лицом, воспринимающим речевое сообщение, в соответствии с его лингвистическими знаниями о языке, на котором звучит сообщение. Например, человек, недавно изучивший шведский язык, не будет способен использовать лингвистический контекст, чтобы воспринимать шведскую речь столь же эффективно, как человек, для которого шведский является родным языком. На лексическом уровне правильности восприятия речи может способствовать знакомство с определенным словарем и фразеологией.
Часто влияние факторов, обеспечивающих понимание речевых сообщений, оказывается для синтезированной речи сильнее, чем для естественной [50, 66]. В работе [79] отмечено, что при достаточно интенсивном привлечении факторов, улучшающих разборчивость речи, речь, синтезированная стандартными речевыми устройствами, характеризуется 100%-ной разборчивостью, а без такой интенсификации уровень понятности составляет только 19%. Факторы, трактуемые как физические характеристики речевого сигнала, — это собственная (основная) частота, скорость речи, просодия, интонация, обнарживаемость речевого акцента, тип голоса и фонетическая точность синтезированной речи. В физическом контексте авторы рассматривают исследования по влиянию фонового шума и посторонних разговоров. К факторам прагматического контекста относятся знакомство лица, воспринимающего сообщение, с характерным акцентом речи, фразеологией и словарем, а также с ситуацией реального мира, в которой звучат речевые сообщения. Факторы лингвистического контекста— это семантический и синтаксический контексты и число слогов.
При идеальных условиях слухового восприятия, характеризующихся высоким значением отношения сигнал/шум, отсутствием посторонних разговоров или иных звуковых сигналов, привычностью для слушающего акцента машинной речи, разборчивость синтезированных фраз может составить 99—100%. Уменьшение максимального отношения сигнал/шум до уровня — 10 дБ-=—23 дБ при прежнем действии других факторов показало малое уменьшение или сохранение прежнего уровня оперативной разборчивости, по крайней мере применительно к сообщениям, звучащим в кабине пилота [74]. Высокая разборчивость (99—100%) была получена для коротких, знакомых фраз, произносимых в условиях моделирования шума в пилотской кабине, и при использовании как речи, представленной в цифровой форме линейного кодирования с предсказанием, так и речи, синтезированной по правилам.
В табл. 3.5 обобщены результаты изучения разборчивости речи, представленные в обзорной работе [79]. Однако читатель должен избегать прямых сравнений между этими исследованиями, так как в большинстве случаев они отличались более чем одним параметром.
Понятность оцифрованной речи зависит от пола говорящего субъекта. Речь женщины, закодированная с использованием методов линейного предиктивного кодирования и адаптивного предиктивного кодирования, более чувствительна к ошибкам в отдельных разрядах двоичного кода, чем речь мужчины, закодированная с помощью тех же самых алгоритмов. Это различие действует в широком диапазоне частот битовых ошибок [82].
Таблица 3.5. Некоторые результаты изучения оперативной
Факторы, определяющие разборчивость Условия эксперимента
Физический сигнал Речь, синтезированная из Речь, синтезированная из
Фонетических сегментов фонетических сегментов,
В сравнении с речью, синтезированной с поМощью линейного преДиктивного кодирования
Физический Контекст Шум вертолета при отно - Шум вертолета при от - шении сигнал/шум, рав - ношении сигнал/шум, Ном —23 дБ равном —23 дБ
Прагматический контекст Сведения, передаваемые Отсутствует
Во время полета (предупреждение об опасных объектах)
Лингвистический контекст
Фразы длиной от четы - Сообщения в виде при - рех до восьми слов вычных слов
98,7—99,8 |
Разборчивость |
Синтез.: 44% Линейное предиктивное кодирование: 19%
[79] |
[77] |
Литература
Аналогичные сравнения необходимо провести для синтезированных женского и мужского голосов.
Если ухудшаются лингвистический и прагматический контексты, а не отношение сигнал/шум, то происходит значительное ухудшение разборчивости речи [79]. В связи с этим рекомендуется использовать для предупреждений или для других
Разборчивости [79]
Речь, синтезированная нз Речь, синтезированная из Речь, синтезированная из фонетических сегментов фонетических сегментов, фонетических сегментов
В сравнении с высококачественной записью речи человека
Шум широкофюзеляжного реактивного самолета при отношении снг - нал/шум, равном —10 дБ
Сведения, относящиеся ж полету (ответные сообщения о высоте полета)
■Сообщение в виде целого предложения; предупреждения в летной терминологии
99,7%
Шум отсутствует
Сообщения, имеющие отношение к полету (предупреждения и команды управления воздушным движением), в сравнении с обычными повседневными сообщениями Субъекты: незнакомые с сообщениями; пилоты по сравнению с непнлотами Сообщение в виде предложения
Пилоты: сообщения о полете синтез.: 96% человек: >99% обычные сообщения синтез.: 93% человек: >99% Непилоты: сообщения о полете синтез.: 86% человек: 96% обычные сообщения синтез.: 93% человек: >99%
[66]
Мешающая человеческая речь, записанная по радиовещанию (сообщения о погоде); отношение сигнал/помеха +8 дБ Касающиеся полета сообщения (предупреждения в кабине пилота) Субъекты: незнакомые с сообщениями пилоты
Два ключевых слова в одно - и многосложном контекстах в сравнении с теми же словами в контексте предложения Многосложный контекст ключевые слова: 94% предложения: 93% Односложный контекст ключевые слова: 78% предложения: 96%
[67]
Неожиданных речевых сообщений минимум четыре слога'>.
Превосходная разборчивость речи, описанная в работе [79], была достигнута за счет применения фонетического редактирования закодированной речи экспертами по речевой акустике. Понятность речи, сгенерированной алгоритмами речевого вос-
'> Эта рекомендация касается английского языка, в котором средняя Длина слова существенно меньше, чем в русском. — Прим. ред.
Произведения текста, была плохой и зависела от конкретного алгоритма. Например, разборчивость фраз в исследованиях, выполненных в Гарвардской психоакустической лаборатории '22], составила 93,2% применительно к одной речевой системе 54] и 87% для того же набора речевых фрагментов в другой 49].
К основным недостаткам алгоритмов речевого воспроизведения текста можно отнести: 1) фонетические ошибки произношения слов, которые являются исключениями для речевых сообщений на английском языке, и 2) неадекватные правила для корректной расстановки ударений в словах и интонации в предложении применительно к некоторым синтаксическим, семантическим и речевым структурам. Пока эти недостатки не будут устранены, будет сохраняться необходимость в использовании Упомянутого ранее ручного редактирования кодированных индивидуальных речевых сообщений.
Полнота восприятия речевых сообщений
Хотя синтезированная речь может быть на 100% понятна слушателям, знакомым с ее акцентом, фразеологией и практически возможными сообщениями, необходимы дальнейшие исследования проблем обеспечения разборчивости синтезированных речевых сообщений в сравнении с естественной человеческой речью. В работе [38] были отмечены ограниченные возможности обработки речевых сигналов, синтезированных с помощью системы воспроизведения речи по тексту, по сравнению с речью человека, когда люди дополнительно нагружались выполнением задач, требующих «запоминания в кратковременной памяти» с последующим воспроизведением. Авторы интерпретировали эти результаты в предположении, что синтезированная речь повышает требования и к процессу кодирования, и к процессу запоминания в «кратковременной памяти» человека, и привели доводы в пользу того, что синтезированная речь не должна применяться для выдачи сообщений в кабине пилота. Однако их испытуемые не были знакомы до эксперимента с акцентом синтезатора. Поэтому приложимость их выводов к пониманию пилотом знакомых сообщений, закодированных вместе с лингвистическим контекстом на уровне предложений и в знакомом прагматическом контексте, остается под вопросом. Существуют экспериментальные подтверждения гипотезы о том, что пилоты способны запоминать информацию, представленную синтезированной речью, а позже воспроизводить ее по памяти [77] (исследования проводились путем моделирования полета при высокой рабочей нагрузке пилота). Однако имеются лишь ограниченные сведения относительно того, насколько хорошо можно запомнить информацию, содержащуюся в синтезированном речевом сообщении, и при каких обстоятельствах будет перегружаться канал слухового восприятия. Вообще утверждения относительно эффективности систем синтеза речи следует делать осторожно, е учетом тех условий, при которых были получены результаты.
Речевые характеристики
Желаемые характеристики речевого сигнала зависят от конкретного применения. Когда неодушевленная система говорит что-то пользователю «человеческим голосом», некоторые пользователи (например, пилоты, как указывалось выше) отдают предпочтение машинному голосу. В то же время, когда система моделирует речевое общение людей, как в тренажерной системе для подготовки авиационных диспетчеров, предпочтение отдается естественно звучащему голосу, в основе которого лежит оцифрованная речь человека [17]. Здесь, как и в случае речи с машинным звучанием, в процессе генерации важно использовать естественную просодию, поскольку временные характеристики речи могут влиять на понимание пользователем сообщений и качество выполнения им целевой задачи.
Голоса могут также изменяться по высоте и в зависимости от пола говорящего субъекта. В качестве индикатора срочности сообщений было предложено использовать высоту голоса и менять соответственно частоту основного тона (в сторону увеличения) при возрастании степени срочности [77]. В более позднем исследовании [6] предполагалось также, что разница в высоте голоса может помочь слушающему следить за несколькими одновременно передаваемыми сообщениями. Необходимо исследовать вопрос о том, до какой степени пользователи способны иметь дело с несколькими сообщениями сразу и в какой мере различие типов голосов может влиять на качество выполнения целевого задания.