Будущие исследования в области систем генерации речи
Исследования, направленные на речевые средства представления информации, способствуют эффективному проектированию интерактивных систем с речевым управлением и вводом — выводом. Характерными проблемами проектирования интегрированных систем речевого ввода — вывода являются выбор типа голоса (поведенческий или механический; мужской или женский); форма представления сообщений и синтаксическая структура,, определяемая речевым актом; присваивание приоритетов функционально различным генерируемым речевым сообщениям; методы интегрирования речевых и визуальных сообщений в тех случаях, когда они представляют одну и ту же информацию. Исследования по речевому выводу информации в диалоговых системах также должны быть связаны с вопросом о том, как осуществлять параллельную обработку нескольких сообщений. Необходимо рассмотреть два случая: 1) пользователь говорит в микрофон системы распознавания речи, а в это время устройство воспроизведения речи, радио или средство внутренней селекторной связи передает очередное сообщение, 2) одновременно выдается несколько речевых сообщений. Вообще говоря, пока еще неизвестны какие-то универсальные принципы назначения приоритетов проектируемым речевым сообщениям и разработки логики принятия решений о том, прерывать текущее сообщение или нет и какое очередное сообщение должно быть выбрано для воспроизведения.
Воспроизведение речи также требует усовершенствования алгоритмов генерации типа текст — речь, чтобы исключить необходимость ручного редактирования речевой информации.
Сравнительная важность различных типов фонетической точности и точности просодии для обеспечения разборчивости, понятности и информативности синтезированной речи — еше одна область, требующая дальнейших исследований. Потеря оперативной разборчивости из-за неточности передачи гласных, согласных и фонем, ударений в словах и просодии никогда не подвергалась систематическим измерениям. Вследствие игнорирования отличительных признаков синтезированной речи и до некоторой степени речи человека, оцифрованной при низкой скорости двоичной передачи данных, точность в системах передачи речи может быть более критичным параметром, чем в речи человека. Однако насколько избыточной должна быть речь и какая точность наиболее важна (синтаксическая, семантическая или фонетическая),^не определены экспериментально для всех типов речевых актов. Кроме того, для субъектов, страдающих потерей слуха в области высоких звуковых частот, восприятие машинной речи может оказаться особенно трудным как раз потому, что она для них не будет содержать отличительных признаков речи человека. Это следует учитывать при определении требований к разборчивости речевых сообщений, предназначенных для таких групп пользователей или к речевой системе, работающей в условиях сильного шума.
Что же касается распознавания речи, то принципы проектирования, которые могут быть выработаны на основе современных исследований субъективных факторов, будут преимущественно опираться на качественные оценки (с небольшим числом сильно ограниченных количественных элементов). В табл. 3.6 приведен ряд соображений, касающихся проектирования и реализации систем генерации речи и являющихся обобщением результатов исследований, рассмотренных в разд. 3.4.