Поисковые системы
Поисковые системы (их называют также поисковыми машинами) - это полностью автоматизированные интерактивные сервисные службы, осуществляющие поиск информации в Интернете по введенному пользователем текстовому запросу. Рассмотрим подробнее принцип действия поисковых машин.
Создав и разместив в сети Интернет какой-либо web-сайт, разработчик регистрирует его адрес в поисковой системе, иными словами — вносит URL стартовой странички этого сайта в поле на поисковом сервере, предназначенное для регистрации новых «поступлений». Вслед за этим специальная программа поисковой машины, называемая роботом или слайдером (от англ. spider - паук), просматривает данный документ, проходит по всем обнаруженным на нем гиперссылкам и вносит информацию об обнаруженных страницах в базу данных поисковой системы, которая носит название индекса Этот процесс называется индексацией web-страниц. Как правило, индекс поискового сервера содержит только адреса web-страниц и краткую «аннотацию», поясняющую их содержимое, почерпнутую из текста самих индексируемых документов. Спустя определенное время робот автоматически проводит переиндексацию, чтобы удалить из базы данных устаревшие и более недействительные ссылки.
Пользователь, обращаясь к услугам поисковой машины, просто вводит в поле текстового запроса ключевые слова или некую ключевую фразу, характеризующую предмет его интересов, после чего нажимает кнопку «Искать». По данной команде поисковый сервер передает управление другой программе, которая называется поисковым механизмом. Эта программа сравнивает введенные пользователем ключевые слова с содержимым индекса, выявляя возможные соответствия.
Для увеличения вероятности обнаружения интересующих пользователя данных наиболее «продвинутые» версии подобных программ могут самостоятельно просклонять и проспрягать ключевые слова, увеличив тем самым количество искомых словоформ. Например, получив запрос со словом «идти», поисковый механизм может расширить диапазон поиска, включив в список ключевых слов производные от исходного глаголы «пойти», «шел», «шла», «пойдет» и т. д. Ссылки на web-страницы, в описании которых поисковый механизм обнаруживает подобные слова, автоматически включаются им в файл отчета. Этот файл предоставляется пользователю в виде перечня, содержащего гиперссылки на найденные ресурсы с краткими текстовыми аннотациями для каждой из них. Степень соответствия обнаруженных таким образом ссылок исходному запросу называется релевантностью поиска. Интерфейс большинства поисковых машин интуитивно понятен даже для неподготовленного пользователя (рис. 2.1) и, как правило, не вызывает затруднений в изучении. Адреса большинства популярных российских и зарубежных поисковых систем приведены в приложении 1 к этой книге, поэтому здесь я не буду надоедать читателю их подробным перечислением.
Существуют серверы, осуществляющие поиск информации только на русском языке и только в русскоязычной части Интернета, есть службы, с помощью которых можно искать информацию только на англоязычных сайтах, а также «интернациональные» поисковые машины, индексирующие ресурсы на всем пространстве Интернета. Однако качество работы большинства поисковых систем все же не идеально, и релевантность предоставляемых ими отчетов зачастую оставляет желать лучшего. Поисковый механизм - не живой человек, и какие бы совершенные эвристические методы анализа информации не были в нем заложены, понимание многозначности некоторых слов и свойственное нам интуитивное восприятие разговорной речи ему, увы, недоступно. Следовательно, каков вопрос — таков ответ: на запрос «закон» вы можете получить и полный текст Уголовного кодекса РФ, и формулу закона всемирного тяготения, и список Законов всемирного свинства небезызвестного Мерфи, и русскую народную пословицу про закон и дышло.