ЧЕЛОВЕЧЕСКИЙ ФАКТОР

Терминология в области систем распознавания речи

Система распознавания речи включает в себя человека, алго­ритм распознавания и устройство, которое соответствующим образом реагирует на распознанную речь. Алгоритм распознает различные фрагменты речи человека и транслирует их в сим­вольные строки. Эти фрагменты могут быть словами, фразами или (на нижнем уровне) слогами либо фонемами — гласными и согласными звуками языка.

Иногда вместо термина «распознавание речи» используют термин «распознавание голоса», что ведет к путанице между идентификацией говорящего (диктора) и идентификацией голо­са. Идентификация диктора — это автоматическая идентифика­ция данного говорящего человека. Чтобы избежать двусмыс­ленных ситуаций, в настоящей главе будем исключительно пользоваться термином «распознавание речи».

Методы распознавания речи

На рис. 3.2 показаны общие процессы, реализуемые алгоритма­ми распознавания речи в лабораторных и коммерческих систе­мах. Фрагмент речи человека преобразуется из аналоговой формы в цифровое представление с помощью различных мето­дов (могут быть использованы методы фильтрации, различные методы анализа временных рядов, например фурье-анализ или метод линейного кодирования с предсказанием). Эти методы обеспечивают сжатие данных и приводят к уменьшению объема памяти для их хранения. Получаемые данные в цифровом пред­ставлении нормализуются с учетом быстроты речи, амплитуд и физических характеристик входных фрагментов речи (напри­мер, фонового шума). Известны акустические свойства, которые могут быть выявлены по цифровому представлению и исполь­зованы для различения многочисленных фрагментов речи. Од­ним из таких свойств является наличие периодичности в ана­лизируемых данных. Определенные звуки речи, которые во вре­мя произнесения появляются вследствие вибрации голосовых связок, периодичны по своей природе. Цифровое представление фрагмента речи пользователя и его свойства дают некоторый образ данных, который затем можно сравнивать с эталонами

Говорящий субъект

Терминология в области систем распознавания речи

*

HCBMB е Фрагменпь речи

I

Терминология в области систем распознавания речи

Распозначнь й Распознанная строка

Речи {полные слова шсазь [фонечь, скга или текст)

Рас. 3 2. Методы распознавания речи ([441 согласно Симпсону)


Возможных фрагментов речи, хранимыми в системе распозна­вания.

В современных коммерческих системах производится срав­нение целых фрагментов речи (см. левую ветвь на рис. 3.2). В таких системах используется заранее записываемый в память словарь полных фрагментов речи (слов и коротких фраз). В не­которых лабораторных системах делаются попытки анализа цифровых представлений фрагментов речи на уровне акустиче­ских сегментов. Полученный ряд сегментов сравнивается с хра­нимыми в словаре эталонами слов (также представленных ря­дами сегментов) для обнаружения подходящей пары. Для огра­ничения числа альтернативных интерпретаций, рассматриваемых алгоритмом распознавания, могут использоваться правила, оп­ределяющие допустимый синтаксис предложения или позволяю­щие сравнивать осмысленность возможных интерпретаций по отношению к содержащейся в базе данных информации. В ко­нечном счете при любом методе распознавания система либо выбирает пару, подходящую для фрагмента высказывания поль­зователя, либо отбрасывает его как нераспознаваемое. Это ре­шение основывается на метрике, вычисляемой по различиям между фрагментом речи пользователя и ближайшим подходя­щим эталоном.

Зависимость от говорящего субъекта (диктора)

Системы распознавания речи отличаются несколькими парамет­рами. Зависимость от диктора определяется тем, в какой сте­пени система использует данные о характеристиках голоса определенного человека, работающего с данной системой (или группы людей). Системы, зависящие от диктора («субъектоза - виснмые» системы), распознают речь только того человека, эталоны речи которого содержатся в системе. Большинство современных систем распознавания речи являются субъектоза - висимыми. Независимые от диктора («субъектонезависимые») системы теоретически способны распознавать речь, произне­сенную любым человеком на определенном языке. Субъектоне - зависимое распознавание речи пока возможно для небольших словарных наборов из 10—20 фрагментов речи. На практике точность распознавания зависит от сходства речевых характе­ристик группы людей, использующих данную систему распозна­вания. Так называемые субъектонезависимые системы можно было бы еще называть системами распознавания с групповой зависимостью от пользователей. Чем меньше изменчивость ха­рактеристик в группе дикторов, тем выше средняя точность рас­познавания для группы пользователей системы. Например, речь, произносимая с иностранным акцентом, распознается менее надежно, чем речь, произнесенная с акцентом, применительно

Таблица 3.1. Уровни лингвистической изменчивости

Лингвистический уровень Пример

Семейство языков Семейство романских языков

Отдельный язык Французский язык

Диалект Парижский диалект французского языка

Языковые особенности Речь определенной женщины

Текущие изменения речи Конкретный разговор 2 ноября 1984 г. при

Обращении с гневной жалобой на ошибку в выставленном счете

К которому эта система была разработана. Кроме того, на практике субъектонезависимые системы с трудом отличают речь мужчины от речи женщины. Например, субъектонезависимая система, предназначенная для распознавания речи только муж­чин или только женщин, будет обеспечивать более высокую точность распознавания, чем система, предназначенная для рас­познавания речи и мужчин, и женщин [61].

Изменчивость речи

Лингвисты различают по крайней мере пять уровней изменчи­вости в разговорном языке. Это семейства языков, отдельные языки, диалекты, языковые особенности и текущие изменения в речи отдельных субъектов. Эти уровни и соответствующие примеры представлены в табл. 3.1. На высшем уровне находятся Семейства языков. Например, французский, итальянский, испан­ский и португальский языки имеют аналогичные грамматические структуры, словари и составы фонем. Все они принадлежат се­мейству романских языков, которое входит в более обширное индоевропейское семейство, охватывающее германские языки; к последним относится, в частности, английский язык. Следую­щий уровень занимают отдельные языки. Далее находится уро­вень диалектов соответствующих языков. Например, британский диалект английского языка значительно отличается по словарю и произношению от американского и австралийского диалектов английского языка. Категоризация самих диалектов многоме'рна и может быть сделана по географическому признаку, социаль­ным классам, эпохам и даже по регионам [1]. Языковые особен­ности — это совокупность характеристик речи некоторого инди­вида, которая изменяется во времени в зависимости от психо­логических, физиологических и социологических факторов. Аналогичные языковые особенности могут группироваться со­гласно различным признакам, например по полу, акценту или диалекту.

Существующая практика разделения систем распознавания на субъектозависимые и субъектонезависимые значительно су­жает возможный диапазон изменчивости распознаваемой речи. Даже системы, зависящие от диктора, способны распознавать речь людей, не зарегистрированных в системе, однако точность распознавания будет низкой. В основе различий между субъ - ектозависимыми и субъектонезависимыми системами лежит, главным образом, инженерная стратегия задания эталонов (шаблонов). Такой подход создает неверное представление о диапазоне изменчивости речи и определяющих его факторах: местном акценте, поле говорящего, напряжении или рабочей нагрузке, страхе и т. д. Две главные проблемы создания систем распознавания речи — это учет изменчивости речи человека и большой объем словаря. Успехи в этих областях будут зависеть от фундаментальных исследований в лингвистике на всех уров­нях структуры языка [24].

Тональность речи

Еще одним параметром систем распознавания является тональ­ность речи, т. е. способ сообщения речевых фрагментов системе [47]. Наиболее распространены системы с раздельным произно­шением слов. В таких системах пользователь должен делать короткую іпаузу (~100 мс) между произносимыми им словар­ными элементами. Системы другого типа способны распозна­вать слова в пределах целостного фрагмента речи, в котором слова не разделены искусственной паузой. Однако при этом отдельные слова произносятся в одном и том же интонационном стиле так, как если бы они читались по списку. Термин «рас­познавание слитной речи» часто используют, когда говорят о распознавании фрагментов речи без искусственных пауз между словами. В этой главе термин «распознавание слитной речи» служит для обозначения распознавания фрагментов речи, про­износимых в естественном речевом ритме с естественной инто­нацией (просодией). Рассматриваемый термин добавляет еще один параметр в задачу распознавания. Он был использован для ссылки на системы, которые пытались корректно выполнять задачи с использованием непрерывного речевого ввода [47]. Мерой успешного функционирования таких систем является скорее точность ответа, а не точность распознавания слов или точность распознавания сообщений. Упрощенно такие системы могут быть названы системами, понимающими, что им говорят, и присваивающими смысл принимаемым ими сообщениям.

Объем словаря

Третьим параметром является объем словаря (словарный за­пас). В системах распознавания речи с фиксированным словар - ньш запасом должны храниться образцы подлежащих распо­знаванию слов и фраз. При этом автоматические системы вы­полняют «акустическое» сопоставление с образцом на уровне слов и фраз и обычно их словари содержат 100—200 фрагмен­тов речи [35]. Для систем распознавания с неограниченными словарями разрабатываются алгоритмы, которые анализируют речь на уровне фонетических сегментов, определяют произне­сенные слова и, возможно, генерируют орфографически коррек­тный теист.

Регистрация пользователей (подготовка эталонов)

Четвертый параметр системы распознавания речи — способ ре­гистрации речи пользователя. Регистрация речи пользователя — это процесс формирования для распознающей системы эталонов по различным элементам словаря. Эталоны строятся на основе получения выборочных образцов устной речи применительно к каждому словарному элементу. В субъектозависимых системах при необходимости получения высокой точности распознавания регистрация каждого пользователя должна производиться от­дельно. Обычно пользователь говорит в микрофон, связанный с системой распознавания, и произносит каждый элемент один или несколько раз. Система распознавания преобразует резуль­таты аналоговой регистрации речи человека в цифровые эта­лоны. Большинство систем обеспечивает ту или иную процедуру регистрации речи пользователя. В наиболее гибких системах предусматривается несколько возможных процедур. Субъекто­независимые системы, напротив, проектируются в предположе­нии, что в них регистрируется информация о фрагментах речи, определяемых производителем системы. Это означает, что про­изводитель сам разрабатывает такие речевые эталоны, относи­тельно которых у него есть уверенность в том, что они обеспечат в субъектонезависимой системе более высокую точность распо­знавания. Некоторые исследователи (см., например, [60]) пере­водят субъектозависимые системы в разряд систем распознава­ния с групповой зависимостью или квазинезависимых от поль­зователя, вводя в них утонченные процедуры регистрации.

ЧЕЛОВЕЧЕСКИЙ ФАКТОР

Этапы проектирования программного обеспечения интерфейса человек — ЭВМ

Проектирование качественного программного обеспечения ин­терфейса человек —ЭВМ не является жестким, статическим процессом. Характер и содержание каждого интерфейса варьи­руются в соответствии с конкретной областью его использова­ния, и в группах разработчиков часто …

Оценка эффективности человеко-машинных систем

Существует целый ряд общих методов оценки эффективности для различных уровней характеристик человеко-машинных сис­тем, однако оценка эффективности распознавания речи в слож­ней задаче управления, связанной с отображением информации, представляется задачей более трудной …

Потребность в документации

Соответствующая документация необходима для обеспечения эффективных и экономичных процедур разработки, использо­вания и сопровождения программных систем в целях организа­ции систематического обмена информацией между управленчес­ким персоналом, разработчиками системы и пользователями на всех …

Как с нами связаться:

Украина:
г.Александрия
тел./факс +38 05235  77193 Бухгалтерия
+38 050 512 11 94 — гл. инженер-менеджер (продажи всего оборудования)

+38 050 457 13 30 — Рашид - продажи новинок
e-mail: msd@msd.com.ua
Схема проезда к производственному офису:
Схема проезда к МСД

Оперативная связь

Укажите свой телефон или адрес эл. почты — наш менеджер перезвонит Вам в удобное для Вас время.