Материал предоставлен http://it.rfet.ru

Поиск информации и поисковые машины

За века, прошедшие со времени изобретения книг, человечество придумало только три основных способа поиска информации в большом количестве страниц. И каждый из нас встречался с ними еще до своего первого выхода в Сеть.

Для поиска нужной страницы в Интернете используются эти же способы, просто они автоматизированы и выполняются специальными программами.

Эти способы — оглавление, ссылки и предметный указатель.

Оглавление

Первый, самый простой способ поиска нужной страницы — это оглавление книги. Читатель просматривает его, находит нужную ему главу, видит номер страницы и открывает ее, пролистав книгу до нужного номера страницы.

Аналогом этого способа поиска в Интернете являются каталоги. В них «страницы» (сайты Интернета) разложены по рубрикам, так что пользователь может, последовательно просматривая оглавление каталога, выбрать нужную рубрику, просмотреть сайты, относящиеся к ней, а затем перейти на нужный сайт или страницу.

Сначала, в середине 1990-х годов, именно каталоги были основным способом упорядочения Интернета, но потом они постепенно уступили первенство поисковикам, и на то было много причин. О существующих каталогах мы рассказывали в разделе «Предложение и поиск информации в Интернете».

Ссылки

Второй привычный нам способ поиска — это ссылки в тексте на нужные страницы книги, например «подробнее об этом см. на стр. 234». Чтобы найти нужный текст, читатель книги должен открыть указанную страницу 234 и найти в ее тексте интересующий фрагмент.

В Интернете идею отсылок читателя со страницы на страницу превратили в автоматические ссылки на страницы, на которые пользователь просто щелкает мышкой. Ссылки в Интернете называются гипертекстовыми ссылками («гипер» означает, что ссылка уводит за пределы текста, на другую страницу).

Ссылки — это основной, «корневой» принцип Интернета, а ведь по сути это старая идея текстовых ссылок, просто автоматизированная.

Ссылки в каталогах и на обычных сайтах чаще всего расставляют вручную. Веб-мастер размечает специальными пометками фрагмент текста и присоединяет к нему адрес соответствующей страницы. Конечно, часто ссылки расставляются и автоматически при формировании веб-страницы.

Предметный указатель, или индекс

Третий, самый интересный для нас способ поиска нужной страницы, — это алфавитный список важных терминов в конце книги, так называемый предметный указатель, или индекс. Вы наверняка встречали его в учебниках, а также в научных и технических изданиях. Вот как может выглядеть фрагмент типичного индекса:

Тау Кита, 90

Третья космическая скорость, 255; 294

Туманность, 14; 29; 188

Туманность Андромеды, 29; 188

Тяжёлые кварки, 347

В индексе перечислены важные для данной книги термины (ключевые слова) и номера страниц, на которых эти термины встречаются. Если читатель книги не может найти нужную страницу по оглавлению, он может предположить, какие слова могут встречаться на ней, и заглянуть в индекс.

Именно эта идея поиска нужной страницы по ключевым словам в индексе и стала основной при создании интернет-поисковиков. Естественно, составление и использование поискового индекса в Интернете автоматизированы.

Фактически, когда пользователь вводит поисковый запрос в поисковую машину, он обращается к предметному указателю Интернета, или индексу — списку всех ключевых слов Интернета, с указанием того, на каких страницах они встречаются.

Каким же образом составляется и работает этот индекс Интернета?

Раздел 6. Как устроены поисковые системыКак работает поисковая машина