Методы измерения в Интернете
Собираемые данные
Особенностью Интернета как инструмента коммуникаций является его опосредованность через массу технических устройств: серверы, маршрутизаторы, файрволы и т. д. Действия пользователей, которые осуществляются через все это оборудование, автоматически фиксируются в памяти устройств, где могут иногда сохраняться значительное время. Этот простой факт предоставляет маркетологам огромные возможности для проведения анализа поведения посетителей сайта.
Технология записи событий на сервере может быть разной, но в общем случае для каждого запроса пользователя, то есть для каждого запроса браузером чего бы то ни было с сервера, записывается определенный набор данных, обычно в виде текстовой строки. Каждый раз, когда на нашем компьютере появляется или обновляется какая‑либо информация из Интернета, включая почту и системы обмена мгновенными сообщениями, мы делаем множество таких запросов. Даже на простое открытие одной страницы на сервере пишется несколько десятков строк лог‑файла. Текстовая строка содержит большое количество полей с параметрами, наиболее важные из которых для анализа в интернет‑маркетинге перечислены ниже.
• IP‑АДРЕС ИЛИ ХОСТ (сетевой адрес компьютера, за которым работает пользователь). Чаще всего выглядит как набор цифр, разделенный точками, например 212.117.163.2. Собственно IP‑адрес – это набор цифр, а хост – это соответствующий ему буквенный адрес. Хост может присутствовать не всегда, тогда как IP‑адрес должен быть всегда. Все компьютеры, подключенные к сети Интернет, должны иметь такой номер, поскольку для других компьютеров и прочих сетевых устройств он является их единственным идентификатором, по которому к ним можно обратиться. Важно, что IP‑адреса жестко распределены между провайдерами интернет‑доступа и компаниями, то есть тот или иной провайдер имеет право предоставлять своим пользователям тот или иной IP‑адрес и никакой другой. Эта привязка, конечно, не постоянна, провайдеры меняют блоки принадлежащих им IP‑адресов по разным причинам, однако эти изменения случаются у каждого провайдера достаточно редко (вопрос месяцев и лет). Следовательно, по IP‑адресу мы всегда можем выяснить, через какого провайдера этот пользователь в данный момент работал. Провайдер, в свою очередь, привязан к географической точке (городу или району), в которой он работает, либо если провайдер работает в нескольких регионах, то каждая сеть привязана к своему городу. Таким образом, зная IP‑адреса своих пользователей, мы можем определить их географическое местоположение.
Посмотреть, к какому региону относится нужный вам IP‑адрес, можно на сайтах: ripe. net (европейский регион, включая Россию), afrinic. net (Африка), apnic. net (Азия), lacnic. net (Латинская Америка и Карибский регион), arin. net (Северная Америка). На рис. 7.2. показан результат запроса к базе Ripe.
Рис. 7.2. Результат запроса к базе данных Ripe. В результате запроса показан диапазон сети (в первой строке), которым владеет указанная ниже компания, а также адрес компании как место расположения устройств, имеющих адрес из этой сети. Для данного IP‑адреса это город Соммерсет в Англии
• ДАТА И ВРЕМЯ, в которые сделан запрос. Указывается время, установленное на сервере, а не на компьютере пользователя, и они могут различаться. Однако даже если время на сервере установлено неверно, то оно неверно для всех пользователей одновременно.
• ЗАПРОШЕННЫЙ ЭЛЕМЕНТ, то есть что конкретно запросил пользователь на сервере. Это может быть HTML‑документ (страница сайта), картинка, видеоролик, исполняемый скрипт, архив, множество других вещей, которые пользователь может захотеть получить. Каждая страница на сайте состоит из множества элементов, часть из которых мы явно видим, а другую – нет. При получении страницы сайта с сервера браузер считывает ее (разбирает язык разметки HTML) и определяет, какие еще элементы нужны для показа страницы: картинки, таблицы стилей и проч. Также еще до того, как «отдать» страницу пользователю, сервер может «собрать» страницу из множества различных модулей, хранящихся на сервере отдельно. Для каждого элемента, задействованного на странице, создается свой запрос и записывается строчка в отчет. • REFERRER, ИЛИ ССЫЛАЮЩИЙСЯ ДОКУМЕНТ, то есть адрес страницы, на которой была ссылка на запрашиваемый элемент. Refferer – это адрес страницы какого‑либо сайта, откуда был совершен переход, в том числе это могут быть и страницы вашего сайта. Адрес ссылающегося документа содержит много информации, например, если это был переход из результатов поиска поисковой машины, то можно из адреса referrer определить поисковый запрос, а также – какая именно поисковая машина была задействована. Иногда это поле бывает пустым, тогда такой переход на сайт называют type‑in‑переходом.
Type‑in‑трафик
Поле referrer может быть пустым, если пользователь обращается к странице (или к какому‑либо другому элементу):
• набрав ее адрес в строке браузера;
• перейдя из закладок;
• перейдя на «домашнюю страницу»;
• перейдя из почтовой программы или из любого приложения (например, из Word).
В этом случае сервер не может определить, откуда был сделан переход, и не указывает это в журнале записи событий. Все переходы на сайте без указания ссылки совокупно называются Type‑in‑трафиком.
Следует отметить, что ссылка может не записываться также при переходе из flash‑ролика. Поэтому, если вы используете для рекламы Flash‑баннеры, то переходов с них вы вообще не увидите. Кроме того, в некоторых случаях proxy‑сервер, через который пользователи осуществляют доступ в Интернет, может отрезать referrer и не передавать его внешним серверам. Особенно это касается корпоративных сетей с высокой степенью защищенности.
• USER AGENT – кодовое обозначение операционной системы и браузера, используемых для доступа к сайту. Пример UA: «Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)» – это Windows XP с IE 6.0.
• COOKIE – значение переменной, записанной в текстовый файл на компьютере пользователя. Каждый сайт может записать на компьютер пользователя небольшой текстовый файл в специальную директорию, прочитать потом этот файл может только тот же самый сайт, определяемый по домену. Файлы cookie используются для идентификации пользователя в течение его визита, а также при повторном переходе на сайт. Поэтому в файл записывается обычно идентификационный номер. Для того чтобы сайт устанавливал cookie, необходимо написать небольшую программу (скрипт), которая, собственно, и будет создавать уникальный номер, а потом записывать его пользователю в случае, если у него еще нет cookie этого сервера. В лог‑файл пишется прочитанное значение, если у пользователя еще нет cookie этого сайта, поле остается пустым.
• РЕЗУЛЬТАТ – код результата запроса пользователей. Наиболее известный результат – это 404 «страница не найдена», однако самый часто встречающийся – 200 «данные переданы успешно». Нам для анализа результат нужен именно для того, чтобы определять случаи, когда пользователь по каким‑либо причинам не получил нужную страницу.
Кроме параметров, перечисленных выше, фиксируется еще большое количество различных данных: размер переданного файла, промежуточные IP‑адреса, тип запроса и другие. Маркетологов эти параметры не слишком интересуют, они нужны скорее системным администраторам для контроля работы серверов и программ.
Наконец, при помощи дополнительного программного обеспечения мы можем фиксировать такие параметры, как наличие java‑script и его версии, наличие и версии flash‑модуля, разрешение экрана и другие параметры, которые также могут быть интересны, однако не важны для анализа эффективности маркетинговых действий.