Терминология в области систем генерации речи
Система генерации речи представляет собой зеркальное отображение системы распознавания речи. Она включает в себя генератор сообщений в форме символьных строк, алгоритм генерации речи, который используется в ходе преобразования строки символов в некоторую акустическую имитацию речи, и человека, воспринимающего сгенерированную речь. Система генерации речи всегда функционирует в условиях среды, определяемой задачей пользователя.
Метод генерации
Подобно системам распознавания системы генерации речи имеют несколько параметров. Существуют два основных метода генерации — метод синтезирования речи и метод генерации речевых сигналов на базе цифрового представления. Метод синтезирования предполагает генерацию речи полностью по некоторому алгоритму без использования предварительной записи речи человека. Термин «цифровое представление речи» применяется в случаях, когда речь человека первоначально была записана в цифровом виде, а затем преобразована и представлена в более компактном формате данных. Наиболее распространенными методами (существуют и другие) являются преобразование Фурье, линейное кодирование с предсказанием и кодирование параметров формы сигнала. Эти методы называют также алгоритмическим синтезом (применяется для получения синтезированной речи) и аналитическим синтезом (применяется при генерации на основе цифрового представлення, когда используется технология сжатия данных) [23].
На рис. 3.3 представлены два рассмотренных общих принципа реализации систем генерации речи. Метод аналитического синтеза ориентирован на получение речи в цифровом представлении, что показано на схеме слева. При алгоритмическом синтезе речи используется множество правил преобразования текста или фонетической структуры некоторого вида в требуемые для генерации синтезированной речи параметры акустического или голосового тракта.
Размер словаря
Еще одним параметром системы генерации речи является размер словаря. Системы генерации речи могут иметь фиксированный или неограниченный словарь. Системы с фиксированным словарем содержат множество слов или фраз, которые используются для формирования сообщений. В системах с неограниченным словарем может генерироваться неограниченное число синтаксически правильных сообщений, строящихся из фонем или фонетических сегментов [69, 71]. В цифровых системах генерации речи используются только фиксированные словари. В системах, реализующих метод синтезирования речи, применяются как фиксированные, так и неограниченные словари. Если пользователь может изменять элементы словаря, тогда системы с фиксированным словарем называют системами, программируемыми пользователем. Системы с фиксированным словарем
Аналитический синтез |
Синтез по правилам |
Текст Фонемы, аллофоны, дифтонги и др. |
Говорящий субъект
Аналоговый катушечный магнитофон
I |
Сжатие цифровых данных с помощью линейного предиктивного кодирования, преобразования Фурье, Коди - Рования формы сигнала и др. '
Акустические параметры,
Параметры речевого тракта
Синтезированная речь |
Речь в цифровой форме |
Рис. S3. Методы генерации речи ([44] согласно Симпсону).
Называют системами, программируемыми поставщиком, если для получения нового словаря пользователь должен обращаться к изготовителю или третьей стороне.
Тип голоса
В системах генерации речи на базе цифрового представления может реализовываться неограниченное множество различных голосов. Это связано с тем, что словарь такой системы зависит от конкретных дикторов (от регистрируемых людей). Однако, как только для некоторого применения выбирается определенный говорящий субъект, для обеспечения согласования звуковых характеристик его голоса с эталонами новый словарь должен формироваться в системе с участием именно данного диктора. Что же касается системы с синтезированием речи, то ее словарь не зависит от говорящего, но зато число различных типов голосов, получаемых при использовании такой системы, ограничено и обычно составляет от одного до шести. С помощью управляющей программы большинство синтезированных образцов речи может изменяться по основной частоте (воспринимаемой как высота голоса) и по быстроте речи. Большинство выпускаемых промышленностью синтезаторов речи генерирует
мужские голоса и лишь несколько синтезаторов воспроизводят речь, соответствующую женскому голосу. С помощью программного управления произношением отдельных фонем могут быть получены некоторые вариации диалекта и акцента. Обзоры по Промышленно выпускаемым системам генерации речи содержатся в работах [8, 65, 69, 83].
Скорость передачи данных, разборчивость и естественность синтезируемой речи
Оценка систем генерации речи часто производится по скорости передачи данных, разборчивости и естественности генерируемой речи. В литературе по генерации речи в связи с термином «скорость передачи данных» часто возникает двусмысленность, так как он может обозначать либо объем памяти, необходимой для хранения речевой информации, либо скорость, с которой речевые данные передаются к устройству воспроизведения речи, либо действительную скорость воспроизведения сгенерированной речи [73].
Термины «естественность» и «разборчивость», к сожалению, часто путают в современной технической документации и научной литературе. Понятие «разборчивость» имеет очень точный смысл. Оно обозначает долю правильно распознанных слушателем речевых элементов. Элементами речи могут быть слова, предложения, отдельные звуки речи (фонемы) или даже воспринимаемые акустические свойства этих фонем. В работе [36] даны исчерпывающие рекомендации по тестированию систем генерации и распознавания на разборчивость воспроизводимой речи. Степень естественности речи определяется мнением слушателя, которое по некоторой шкале качества характеризует степень близости звуков синтезированной речи звукам, произносимым человеком. Разборчивость и естественность речи могут измеряться независимо, хотя не существует [73] стандартных тестов для измерения степени естественности речи. Кроме того, естественность и разборчивость речи не обязательно коррелируют [87]. Например, речь диктора, передаваемая по радио, может звучать естественно на фоне постоянного шума, но быть малоразборчивой. Наоборот, хорошо известные пилоту синтезированные речевые предупреждающие сообщения могут звучать «механически», тем не менее пилоты оценивают такие сообщения как более понятные, чем обычные сообщения по бортовой радиосети [73, 81].