Формальное планирование и проведение экспериментов
Процесс итогового оценивания, как правило, включает в себя проведение некоторых формализованных экспериментов. При этом необходимо проявлять осторожность в выборе как методик проведения экспериментов, так и строгих или приближенных планов этих экспериментов.
Методики проведения экспериментов
Согласно [154], качественное исследование интерфейса человек— ЭВМ требует особого внимания к подбору пользователей для проведения эксперимента, к внешним условиям работы и методам сбора и анализа данных.
Правильный подбор пользователей для проведения экспериментов крайне важен для качества оценивания. В случае, когда программный интерфейс проектировался для пользователей-новичков, неприемлема его оценка опытными пользователями. Определение подходящего уровня квалификации часто является сложным вопросом, потому что интерфейс характеризуется целым рядом параметров. Обычно пользователь хорошо знаком лишь с каким-либо одним аспектом работы, например с языком программирования, но оказывается некомпетентным в вопросах работы конкретного интерактивного редактора. Поэтому определение характеристик соответствующей категории пользователей и уровня их квалификации является центральным пунктом проблемы эффективности итогового оценивания. С проблемой выбора пользователей непосредственно связан вопрос о продолжительности их обучения работе с интерфейсом перед проведением эксперимента. Можно сформировать относительно однородную группу пользователей, проведя с ними занятия до начала этапа формативного оценивания. В результате к моменту проведения эксперимента все участвующие в нем пользователи могут в равной мере владеть навыками работы с интерфейсом. Необходимые продолжительность и способ обучения зависят от конкретной ситуации и могут определяться предварительным тестированием.
Одна из особенностей процесса оценивания программного интерфейса человек—ЭВМ заключается в том, что он обычно автоматизируется. Представление и сбор данных осуществляются программным обеспечением ЭВМ. В связи с этим тому, кто проводит оценивание, часто приходится выполнять функции управления повторным циклическим выводом на печатающий терминал или дисплей в замкнутом контуре взаимодействия. Тем не менее очень важно тщательно проводить наблюдение для обеспечения уверенности в том, что неверные действия пользователя не являются следствием сбоев в аппаратной части системы или непонимания им задания. Даже в случае полностью автоматизированного процесса оценивания при вычислительной машине всегда должен находиться человек, выполняющий функции наблюдателя. В дополнение к этому необходимо качественно разработать и предварительно проверить инструкции для пользователя, чтобы гарантировать полное понимание последним поставленных перед ним задач.
Требуется также рассмотреть различные параметры условий исследования. В случае, когда итоговое оценивание проводится в лабораторных условиях разработчика, следует проанализировать рабочие условия организаций, для которых предназначена система, для того чтобы учесть все ключевые параметры, характерные для рабочей среды. Поддержание порядка на рабочем месте, освещение, расположение оборудования, всевозможные посторонние помехи — все это взаимосвязанные факторы, которые могут отрицательно повлиять на результаты непосредственного оценивания интерфейса в рабочей обстановке и потому должны быть приняты во внимание. Для оценивания разрабатываются либо подробные схемы решения задач, либо только их краткие описания, что определяется типом задачи, характером оценивания и уровнем квалификации пользователя.
В процессе итогового оценивания учитываются как эффективность работы пользователя, так и даваемые им субъективные оценки интерфейсу. Несмотря на то что на этой стадии обычно проводится измерение пользовательских предпочтений, подобные методы оценки еще недостаточно хорошо разработаны. Часто субъективные мнения пользователей о системе расходятся с фактической оценкой эффективности работы, что отражает действительное расхождение между эмоциональной оценкой, даваемой пользователем системе, и рабочими возможностями интерфейса или свидетельствует о субъективности суждений. Требуются дополнительные исследования по проблеме повышения эффективности субъективных оценок, и с этой целью в настоящее время желательно использовать оценочные шкалы в сочетании с измерениями фактически выполненной работы во время оценивания. Перспективным инструментом субъективного оценивания представляются методики, использующие количественные оценки [30] и двухаспектные характеристики [28].
Одним из преимуществ процесса оценивания программного интерфейса является возможность проводить его средствами самого программного обеспечения независимо от пользователя. Описано [26] применение как специальных файлов протоколирования для оценивания эффективности работы пользователя в оперативном режиме, так и программ отметки данных при неверных действиях пользователя для последующего их анализа в автономном режиме.
Авторы работы [99] включили в пакет программ по оцениванию качества интерфейса процедуру просмотра архивных данных, посредством которой последовательность действий пользователя может быть выборочно пересмотрена в режиме поиска отдельных символов и действий определенного функционального назначения. При разработке систем измерения эффективности работы с интерфейсом важно правильно выбирать степень детализации производимой ими оценки. Например, протоколирование последовательности всех нажимаемых пользователем клавиш в состоянии обеспечить любую форму обобщенной оценки интерфейса самыми разными способами, но требует чрезмерной емкости памяти и последующего длительного автономного анализа данных. Предварительное планирование основных стратегий анализа данных поможет избежать неудач, возможных при бессистемном экспериментировании.
Использование методов планирования экспериментов
В настоящее время существует целый ряд методик, применение которых может быть полезным при планировании экспериментов, предназначенных для оценивания программного интерфейса человек — ЭВМ; большинство из этих методов подробно описано в литературе [15, 34, 79, 98].
Хороший план эксперимента предполагает случайное распределение объектов исследования по отношению к условиям оценивания с целью контроля систематических ошибок. Часто используется та или иная форма многофакторного дисперсионного анализа.
Вследствие сложности программных интерфейсов для получения их обобщенной оценки часто бывает необходимо одновременное оценивание по нескольким факторам. Так как при использовании факторных планов все уровни какого-либо одного фактора рассматриваются в сочетании с каждым из уровней всех остальных факторов, результирующее количество комбинаций обрабатываемых величин увеличивается в геометрической прогрессии. Решение дилеммы обобщенные результаты— затраты состоит в использовании методик планирования, более экономичных в отношении объема обрабатываемого материала.
Авторы работы [156] рекомендуют использование трех альтернативных методик, позволяющих проводить качественное оценивание интерфейсов; при этом обработке подлежит меньший объем данных, чем в случае полного факторного эксперимента. К этим методикам относятся: факторный анализ, иерархическое планирование и дробный факторный эксперимент. Сокращение количества факторов, рассматриваемых на этапе итогового оценивания, может быть более эффективным при использовании двух - или трехуровневых факторных планов с одним наблюдением на каждом уровне, а не планов с множественными наблюдениями. При этом взаимодействия более высокого порядка могут рассматриваться как ошибки для эффектов низшего порядка.
Иерархические планы могут использоваться для сокращения числа комбинаций уровней факторов, так как они основаны на принципе, в соответствии с которым определенное значение одного фактора сочетается лишь с конкретным значением уровня другого фактора. Поскольку применение данного метода предполагает независимость факторов, относящихся к разным иерархическим уровням, при его использовании необходимо очень точно определять иерархические взаимоотношения между различными факторами.
По-видимому, наиболее распространенной альтернативой полному факторному эксперименту является дробный факторный эксперимент. Методики, описанные - на этом принципе, экономичны вследствие использования при оценивании только частей полных факторных планов. Подробный анализ применения данной методики в качестве эффективного способа широкомасштабной многофакторной оценки содержится в книге [34].
Основная цель итогового оценивания проекта заключается, как правило, в определении количественных характеристик связи между эффективностью работы пользователя и параметрами структуры проектируемого интерфейса. Эти функциональные связи соответствуют в свою очередь эмпирическим моделям программного интерфейса. В качестве методики определения этих эмпирических моделей предлагается применение полиномиального регрессионного анализа [15]. Сбор данных при этом проводится последовательно по методике «поверхности отклика».
При разработке эмпирических моделей часто используются центральные композиционные планы [15, 153], так как они минимизируют количество данных, необходимых для решения задач с полиномиальной моделью регрессии. Известно их применение для оценивания степени воздействия четырех временных параметров системы (системной задержки, скорости представления изображения, скорости реагирования на ввод с клавиатуры и размера буферной памяти клавиатуры) на эффективность работы пользователя, его субъективное мнение о системе и на подбор материала для итогового оценивания во время ввода данных в вычислительную машину [156]. В той же работе рассмотрена также проблема применения процедур моделирования для сосредоточения оцениваемых величин в. быстродействующей базе данных, что должно способствовать более полному пониманию разработчиками интерфейса человек— ЭВМ и может принести пользу в последующих проектах.
Приближенные методы планирования экспериментов
В случае, когда итоговое оценивание проводится не в лабораторных условиях проектной организации, часто бывает трудно реализовать полностью контролируемый эксперимент. Авторы работы [29] рекомендуют использование отличающихся контрольных групп и планирование ряда приближенных экспериментов в реальных условиях, не позволяющих обеспечить случайное распределение пользователей по отношению к оцениваемой структуре интерфейса.