ЧЕЛОВЕЧЕСКИЙ ФАКТОР

Терминология в области систем генерации речи


Система генерации речи представляет собой зеркальное отоб­ражение системы распознавания речи. Она включает в себя генератор сообщений в форме символьных строк, алгоритм ге­нерации речи, который используется в ходе преобразования строки символов в некоторую акустическую имитацию речи, и человека, воспринимающего сгенерированную речь. Система генерации речи всегда функционирует в условиях среды, опре­деляемой задачей пользователя.

Метод генерации

Подобно системам распознавания системы генерации речи име­ют несколько параметров. Существуют два основных метода генерации — метод синтезирования речи и метод генерации ре­чевых сигналов на базе цифрового представления. Метод син­тезирования предполагает генерацию речи полностью по неко­торому алгоритму без использования предварительной записи речи человека. Термин «цифровое представление речи» приме­няется в случаях, когда речь человека первоначально была за­писана в цифровом виде, а затем преобразована и представле­на в более компактном формате данных. Наиболее распрост­раненными методами (существуют и другие) являются преобразование Фурье, линейное кодирование с предсказанием и кодирование параметров формы сигнала. Эти методы назы­вают также алгоритмическим синтезом (применяется для по­лучения синтезированной речи) и аналитическим синтезом (применяется при генерации на основе цифрового представле­ння, когда используется технология сжатия данных) [23].

На рис. 3.3 представлены два рассмотренных общих прин­ципа реализации систем генерации речи. Метод аналитического синтеза ориентирован на получение речи в цифровом представ­лении, что показано на схеме слева. При алгоритмическом син­тезе речи используется множество правил преобразования тек­ста или фонетической структуры некоторого вида в требуемые для генерации синтезированной речи параметры акустического или голосового тракта.

Размер словаря

Еще одним параметром системы генерации речи является раз­мер словаря. Системы генерации речи могут иметь фиксиро­ванный или неограниченный словарь. Системы с фиксированным словарем содержат множество слов или фраз, которые исполь­зуются для формирования сообщений. В системах с неограни­ченным словарем может генерироваться неограниченное число синтаксически правильных сообщений, строящихся из фонем или фонетических сегментов [69, 71]. В цифровых системах ге­нерации речи используются только фиксированные словари. В системах, реализующих метод синтезирования речи, применя­ются как фиксированные, так и неограниченные словари. Если пользователь может изменять элементы словаря, тогда системы с фиксированным словарем называют системами, программи­руемыми пользователем. Системы с фиксированным словарем

Аналитический синтез

Синтез по правилам

Текст

Фонемы, аллофоны, дифтонги и др.

Говорящий субъект

Аналоговый катушечный магнитофон


I

Сжатие цифровых данных с помо­щью линейного предиктивного коди­рования, преобразования Фурье, Коди - Рования формы сигнала и др. '

Акустические параметры,

Параметры речевого тракта


Синтезирован­ная речь

Речь в цифровой форме

Рис. S3. Методы генерации речи ([44] согласно Симпсону).

Называют системами, программируемыми поставщиком, если для получения нового словаря пользователь должен обращаться к изготовителю или третьей стороне.

Тип голоса

В системах генерации речи на базе цифрового представления может реализовываться неограниченное множество различных голосов. Это связано с тем, что словарь такой системы зависит от конкретных дикторов (от регистрируемых людей). Однако, как только для некоторого применения выбирается определен­ный говорящий субъект, для обеспечения согласования звуко­вых характеристик его голоса с эталонами новый словарь дол­жен формироваться в системе с участием именно данного дик­тора. Что же касается системы с синтезированием речи, то ее словарь не зависит от говорящего, но зато число различных типов голосов, получаемых при использовании такой системы, ограничено и обычно составляет от одного до шести. С помощью управляющей программы большинство синтезированных образ­цов речи может изменяться по основной частоте (воспринимае­мой как высота голоса) и по быстроте речи. Большинство вы­пускаемых промышленностью синтезаторов речи генерирует
мужские голоса и лишь несколько синтезаторов воспроизводят речь, соответствующую женскому голосу. С помощью программ­ного управления произношением отдельных фонем могут быть получены некоторые вариации диалекта и акцента. Обзоры по Промышленно выпускаемым системам генерации речи содержат­ся в работах [8, 65, 69, 83].

Скорость передачи данных, разборчивость и естественность синтезируемой речи

Оценка систем генерации речи часто производится по скорости передачи данных, разборчивости и естественности генерируемой речи. В литературе по генерации речи в связи с термином «скорость передачи данных» часто возникает двусмысленность, так как он может обозначать либо объем памяти, необходимой для хранения речевой информации, либо скорость, с которой речевые данные передаются к устройству воспроизведения речи, либо действительную скорость воспроизведения сгенерирован­ной речи [73].

Термины «естественность» и «разборчивость», к сожалению, часто путают в современной технической документации и науч­ной литературе. Понятие «разборчивость» имеет очень точный смысл. Оно обозначает долю правильно распознанных слуша­телем речевых элементов. Элементами речи могут быть слова, предложения, отдельные звуки речи (фонемы) или даже вос­принимаемые акустические свойства этих фонем. В работе [36] даны исчерпывающие рекомендации по тестированию систем генерации и распознавания на разборчивость воспроизводимой речи. Степень естественности речи определяется мнением слу­шателя, которое по некоторой шкале качества характеризует степень близости звуков синтезированной речи звукам, произ­носимым человеком. Разборчивость и естественность речи могут измеряться независимо, хотя не существует [73] стандарт­ных тестов для измерения степени естественности речи. Кроме того, естественность и разборчивость речи не обязательно кор­релируют [87]. Например, речь диктора, передаваемая по радио, может звучать естественно на фоне постоянного шума, но быть малоразборчивой. Наоборот, хорошо известные пилоту синтези­рованные речевые предупреждающие сообщения могут звучать «механически», тем не менее пилоты оценивают такие сообще­ния как более понятные, чем обычные сообщения по бортовой радиосети [73, 81].

ЧЕЛОВЕЧЕСКИЙ ФАКТОР

Этапы проектирования программного обеспечения интерфейса человек — ЭВМ

Проектирование качественного программного обеспечения ин­терфейса человек —ЭВМ не является жестким, статическим процессом. Характер и содержание каждого интерфейса варьи­руются в соответствии с конкретной областью его использова­ния, и в группах разработчиков часто …

Оценка эффективности человеко-машинных систем

Существует целый ряд общих методов оценки эффективности для различных уровней характеристик человеко-машинных сис­тем, однако оценка эффективности распознавания речи в слож­ней задаче управления, связанной с отображением информации, представляется задачей более трудной …

Потребность в документации

Соответствующая документация необходима для обеспечения эффективных и экономичных процедур разработки, использо­вания и сопровождения программных систем в целях организа­ции систематического обмена информацией между управленчес­ким персоналом, разработчиками системы и пользователями на всех …

Как с нами связаться:

Украина:
г.Александрия
тел./факс +38 05235  77193 Бухгалтерия
+38 050 512 11 94 — гл. инженер-менеджер (продажи всего оборудования)

+38 050 457 13 30 — Рашид - продажи новинок
e-mail: msd@msd.com.ua
Схема проезда к производственному офису:
Схема проезда к МСД

Оперативная связь

Укажите свой телефон или адрес эл. почты — наш менеджер перезвонит Вам в удобное для Вас время.