Идентификация посетителей
Один и тот же пользователь может просматривать достаточно большое число страниц, запрашивать на сервере множество разных файлов, поэтому первая задача статистики – определение принадлежности различных запросов одному пользователю, или, говоря строгим языком, Идентификация уникального посетителя.
Без идентификации все посещения и посетители сливаются в одну сплошную неразличимую массу, и мы уже не можем отделить поведение одного пользователя от других.
Существует Четыре основных метода идентификации посетителей, Которые используются в различных ситуациях для решения различных задач.
1. ПО IP‑АДРЕСУ. Каждый компьютер в момент подключения к любой сети TCP/IP (к которым относится и Интернет) имеет уникальный и однозначный IP‑адрес, который не изменяется в течение всего времени подключения к Интернету, а для постоянного подключения вообще не меняется. Следовательно, можно однозначно идентифицировать компьютер пользователя по IP‑адресу.
Этот метод идентификации совсем не точен, поскольку несколько пользователей могут иметь один и тот же IP‑адрес, если они находятся, например, за общим proxy‑сервером. В этом случае они все будут иметь тот IP‑адрес, который подставляет им proxy‑сервер. Таких пользователей сегодня большинство – это все пользователи корпоративных сетей, большинство пользователей домашних сетей, пользователи в интернет‑кафе, институтах и т. д. Но и это еще не все: в том случае, когда пользователь выходит в сеть через коммутируемое соединение, при каждом соединении он получает новый IP‑адрес. Более того, dial‑up‑соединение может быть разорвано в процессе сессии, и оно будет восстановлено потом уже с новым уникальным IP‑адресом. Все это, конечно, уменьшает точность идентификации.
Последние годы применяется идентификация одновременно по IP‑адресу и какому‑либо еще постоянному параметру, которым может выступать User Agent или разрешение экрана. То есть пользователь идентифицируется по сочетанию двух параметров. Однако и этот метод недостаточно точен, поскольку в корпоративных сетях последнее время техника в очень большой степени унифицирована, и если в домашних сетях действительно за общим IP‑адресом скрывается «зоопарк» различных компьютеров, то в корпоративных сетях все компьютеры часто имеют одинаковую конфигурацию и одинаковый набор программного обеспечения. Расхождение числа реальных пользователей и числа пользователей, определенных по IP, тем больше, чем больше сайт. Хостов всегда меньше. Для посещаемости менее 500 человек разница несущественна.
Методика идентификации по IP‑адресу весьма грубая, несмотря на все дополнения и уточнения. Эта методика никак не позволяет идентифицировать посетителя между сессиями – при повторном посещении – и не всегда дает возможность отличить друг от друга корпоративных пользователей или пользователей в одной домашней сети. Несомненное преимущество метода: он возможен всегда, поскольку у пользователя всегда есть IP‑адрес.
2. ПО COOKIE. В отличие от IP‑адреса, уникальные cookie записываются на каждый компьютер посетителей сайта, поэтому эта технология изначально намного точнее. В cookie‑файлы может записываться все что угодно, но обычно это уникальный идентификатор, который сохраняется и после того, как пользователь уходит с сайта и вообще отключается от Интернета. При следующем посещении сайта даже через длительный промежуток времени пользователь может быть идентифицирован повторно, то есть «узнан» сайтом. Поэтому данная методика используется сегодня чаще других.
Но и она не лишена погрешностей. Пользователи могут отключать cookie – это делают немногие, всего около 4 % всех пользователей, cookie могут стираться пользователем в результате переустановки системы или после окончания каждого сеанса связи с Интернетом, если сделаны такие предустановки на компьютере. Однако самой большой погрешностью метода является то, что он определяет не пользователей, а браузеры, за которыми работают пользователи. Если за одним компьютером работает несколько пользователей, они пользуются общей учетной записью и одним и тем же браузером, поэтому они будут считаться одним пользователем. И наоборот, человек, по каким‑то причинам использующий несколько браузеров на одном компьютере, будет считаться столько раз, сколько различных браузеров он использует.
И конечно, если в распоряжении пользователя несколько компьютеров с доступом в Интернет, то на каждом из них будут свои cookie‑файлы. Все больше и больше пользователей имеют доступ одновременно из нескольких мест, включая и сотовый телефон, который тоже умеет принимать cookies, поэтому эта погрешность наибольшая и все время возрастает. Статистика по cookies завышает число пользователей в несколько раз. Тем не менее это наиболее точная методика идентификации посетителей на сегодняшний день.
Несмотря на то что методика идентификации пользователей по cookie имеет ряд погрешностей и идентифицирует не людей, но браузеры пользователей, она намного более точна, чем методика определения по IP‑адресу, и активно используется сегодня.
3. ПО СЕССИОННЫМ ИДЕНТИФИКАТОРАМ. При помощи несложного программного модуля можно присвоить пользователю уникальный идентификатор, который будет передаваться в адресной строке при перемещении пользователя от страницы к странице. Это выглядит как добавление к адресной строке конструкции вида? sessid=65468765213249875419876, где набор цифр – это и есть уникальный идентификатор (он может состоять из букв или быть смешанным в зависимости от используемых для этого программ). В отличие от метода идентификации по cookie, сессионный идентификатор нельзя отключить, его нельзя запретить на proxy‑сервере. Конечно, можно стереть идентификатор из адреса, но это почти исключительное событие: большинство пользователей не имеют для этого достаточных знаний. В то же время сессионные идентификаторы не сохраняются после разрыва сессии, хотя сама по себе сессия может иметь иногда неограниченную длину – до тех пор, пока не будет закрыт браузер.
Этот метод идентификации, очевидно, может быть использован только в рамках одной сессии, однако в течение сессии он точнее всех других. Основное применение сессионных идентификаторов – это сохранение параметров при переходе между страницами. Например, пользовательские запросы или настройки гораздо проще сохранить на сервере в базе данных и сопоставлять с идентификатором, чем передавать в строке, где они могут банально не поместиться.
Сессионные идентификаторы имеют два важных отрицательных качества: во‑первых, они затрудняют индексацию поисковыми машинами, вплоть до полного запрета. Дело в том, что поисковый робот не различает идентификаторы и вынужден считать каждую страницу множество раз, что замусоривает базу данных поисковой машины. Во‑вторых, на страницу с таким идентификатором часто невозможно поставить закладку или отправить кому‑либо в виде ссылки. В силу этого сфера применения сессионных идентификаторов ограничена именно решением технической задачи передачи настроек пользователя между страницами сайта и, в основном, применяется для внутренних интерфейсов систем, где не требуется ставить закладку и которые не должны индексироваться поисковыми машинами. Например, для внутренних интерфейсов банков.
4. АВТОРИЗАЦИЯ ПОЛЬЗОВАТЕЛЯ. Единственный совершенно надежный метод идентификации пользователя – это его авторизация (ввод логина и пароля). К сожалению, далеко не всегда можно применять авторизацию, так как пользователи не любят регистрироваться и оставлять о себе какие‑то личные данные. Заставить их делать это без потерь аудитории можно лишь в редких случаях. Кроме того, даже в случае, если пользователь зарегистрировался, нередко возникает ситуация, когда он теряет логин и пароль и поэтому регистрируется заново.
Например, около трети покупателей интернет‑магазина «Озон» (крупнейшего сегодня в России по числу покупателей) забывают свои регистрационные данные и при следующей покупке заново регистрируются. Даже введение пластиковых карточек с данными пользователя, которые бесплатно выдавались при первой покупке, хоть и улучшило ситуацию, но не решило ее полностью. Для магазина «Озон» это критическая проблема, потому что три четверти продаж совершается постоянными покупателями, и работа с постоянными покупателями – важнейшая составляющая маркетинга компании.
Наконец, пользователь может просто‑напросто передать пароль (мы все это нередко делаем) своим друзьям или знакомым, чтобы они могли совершать какие‑то действия от его имени.
Таким образом, метод идентификации по регистрационным данным – наиболее точный метод определения людей (не браузеров, а именно людей). Однако он имеет узкую сферу применения в силу нежелания пользователей оставлять о себе информацию в Интернете.
Для анализа в интернет‑маркетинге используется чаще всего метод идентификации по cookies. Остальные методы применяют только в тех случаях, когда cookies недоступны. Если на сайте осуществляется авторизация пользователей, например для интернет‑сервисов или для интернет‑магазинов, то можно использовать авторизационные данные для анализа продаж.