Модели восприятия речи
Модели восприятия речи человеком могут обеспечить полезную основу для оценки характеристик человека, используемых в алгоритмах генерации речи. Они также могут лечь в основу методов повышения эффективности алгоритмов распознавания
Уровень |
Таблица 32 Уровни лингвистической структуры
Элементы
Диалог или беседа
Кодирование на уровне предложений
Или выражений
Кодирование на уровне морфем Кодирование на уровне фонем Кодирование на уровне контекстно зависимых звукосочетаний
Идеи, информация, намерения Упорядоченные слова
Упорядоченные корни, аффиксы Отличительные свойства Частотные компоненты, амплитуды, длительность, периодичность, шум» паузы, скорость изменения звукосочетаний
Речи. Большинство современных моделей восприятия речи человеком основывается на концепции аналитического синтеза [86]. Согласно этой модели, люди декодируют речь посредством умозрительного синтеза альтернативных интерпретаций и сравнения их с поступающими речевыми сигналами, чтобы определить степень соответствия. Уровень лингвистической структуры, на котором применима такая модель, является предметом серьезных дискуссий. Некоторые ограничивают область применения этой модели уровнем распознавания отличительных свойств отдельных фонем, когда алгоритм отличает одну фонему от другой или обнаруживает ее отсутствие либо различает длительности фонем. В противоположность такому подходу могут использоваться эталоны естественного языка в предположении, что модель аналитического синтеза способна работать на уровне связного разговора в пределах нескольких предложений.
Основная идея, состоящая в том, что люди при декодировании речи используют свои знания лингвистической структуры соответствующего языка, вполне приемлема. В табл. 3.2 представлены различные уровни лингвистической структуры и составляющие их элементы.
На каждом лингвистическом уровне существуют ограничения на возможные комбинации и упорядочение элементов. Семантические ограничения на уровне беседы и высказывания определяются теми допустимыми понятиями и словами, которые имеют смысл в контексте других понятий и слов. Обычно прагматические ограничения применяются также для сужения круга возможных интерпретаций воспринимаемого предложения в условиях реальной действительности в соответствии с уровнем знания слушателем текущего состояния реального мира. Синтаксические ограничения определяют возможный порядок слов в предложении. В английском языке прилагательные предшествуют существительным, которые они определяют. Во французском языке прилагательные обычно следуют за существитель
ными. Морфемы — это наименьшие значимые языковые единицы. К ним относятся корни и аффиксы (приставки и суффиксы). Английское слово faithfully состоит из трех морфем: корня faith, суффикса ful со значением «иметь свойство» и суффикса 1у, указывающего, что это слово представляет собой наречие, образованное от глагола. Фонологические ограничения определяют порядок расположения фонем в словах. Английский язык содержит слова, которые оканчиваются фонемой. Так, в конце слова sing, записанного с использованием международной фонетической транскрипции (Международная фонетическая ассоциация, 1949 г.), стоит символ |ті|. В английском языке также есть слова, оканчивающиеся фонемой |п|, например слово sin. Однако, в то время как фонема |п| может встречаться и в начале слова, фонема |ті| в начале слов не употребляется.
Фонетические ограничения определяют акустические и артикуляционные детали конкретных фонем в конкретной фонетической среде, в результате чего данная фонема не является акустически инвариантной, несмотря на наше инвариантное осознанное ее восприятие. Например, фонема |к| по-разному реализуется в каждом из следующих слов: keep, kill, kelp, cat, cool, coal, call. Тем не менее говорящий по-английски будет утверждать, что все эти слова начинаются со звука "кау". Этим постулируется, что говорящий по-английски человек использует знание таких «вариационных» правил, которые позволяют ему мысленно синтезировать акустически детализированные представления о возможных словах и затем сопоставлять их с входными речевыми сигналами. (Более подробное введение в теорию и модели восприятия речи см. в работе [12].)
Поскольку в алгоритмах распознавания речи не используются знания лингвистической структуры в той степени, в какой это делает человек, характеристики алгоритмов распознавания, свойственных людям, качественно и количественно отличаются от характеристик алгоритмов генерации искусственной речи, воспринимаемой слушателем-человеком. В оставшейся части этой главы будут рассмотрены отдельные исследования по распознаванию речи, генерации речи и интеграции систем распознавания и генерации речи в интерактивные речевые системы.