Меры эффективности алгоритма
Наиболее часто используемой мерой эффективности алгоритмов распознавания речи является точность распознавания. Этот параметр есть не что иное, как аналог разборчивости речи — характеристики, которая наиболее часто применяется в качестве меры эффективности алгоритмов генерации речи. Оба указанных показателя просто характеризуют долю правильно распознаваемых «слушателем» фрагментов речи из множества таких фрагментов, представленных при определенной совокупности условий прослушивания. Когда измеряется точность распознавания, функцию «слушателя» выполняет алгоритм распознавания. И наоборот, для оценки разборчивости речи, генерируемой алгоритмом, используются люди.
Классы ошибок, встречающихся при распознавании речи либо людьми, либо машинами, совпадают, однако эффективность распознавания человеком или машиной может существенно различаться. Ошибки можно подразделить на следующие четыре взаимоисключающие категории, или класса: 1) подмены, или ошибки замещения (одно речевое выражение из словаря принимается за другое); 2) ложное восприятие (воспринимается выражение, которое не было произнесено); 3) ошибки «пропуска» (исключение речевого выражения, которое в действительности было произнесено); 4) непризнание, или ошибка отбрасывания (обнаруживается, но не распознается речевое выражение, которое является правильным элементом словаря). Ошибки отбрасывания часто рассматриваются в литературе по распознаванию речи. В литературе по проблемам разборчивости речи такие ошибки не обсуждаются; они похожи на те случаи, когда субъект отвечает: «не знаю».
Однако как машины, так и люди могут производить и правильное отбрасывание. Такое отклонение оказывается корректным, когда алгоритм «отказывается» обрабатывать фрагмент речи, не содержащийся в существующем словаре. Это может произойти, например, когда пользователь кашляет или что-нибудь говорит другому человеку в рабочей зоне. Подобным образом слушающий человек будет корректно отбрасывать фрагменты, произнесенные на незнакомом иностранном языке. А при низком отношении сигнал/шум он будет отклонять непонятные слова на своем языке и заменять их на подходящие по смыслу слова [25]. Такая способность человека требует знания синтаксиса, семантики и наличия прагматического подхода, а выпускаемые промышленностью системы распознавания речи пока еще далеки от того, чтобы обладать такой способностью [24,47].