Материал предоставлен http://it.rfet.ru

Индексация баз данных

Очень часто сайты с большим объемом данных хранят свои страницы в какой-либо базе данных (например, MySQL или Microsoft SQL Server). Так гораздо удобнее для хранения и обновления сайта, поскольку база данных позволяет легко добавлять, модифицировать и удалять информацию.

Как поисковики обращаются с такими сайтами, могут ли они их индексировать?

Ответ прост:

Если страницы сайта выдаются из базы данных при переходе по ссылкам внутри сайта, то поисковику в принципе все равно, откуда они берутся. Находится ли страница на сайте или генерируется динамически при переходе по ссылке — для индексации не важно. А вот если для получения страницы пользователь должен обязательно ввести какой-то запрос к базе данных, то поисковик таких страниц просто «не видит».

Пример

Допустим, у вас есть онлайновая энциклопедия фильмов и актеров, содержащая 100 тысяч статей в алфавитном порядке.

Конечно, хранить и редактировать такое количество страниц «россыпью», в виде HTML-файлов крайне неудобно. Поэтому статьи энциклопедии будут, скорее всего, храниться в базе данных, где их достаточно просто свести в одну таблицу и хранить в нескольких файлах базы данных.

Пусть теперь вы подали свой сайт на индексацию в поисковики. Если у вас на сайте будет полное оглавление статей энциклопедии, в виде иерархического списка (скажем, по буквам алфавита) или в виде простого линейного списка заголовков статей, то поисковик пройдет по такому оглавлению как по обычным ссылкам и проиндексирует всю вашу энциклопедию. Сделает он это, скорее всего, не сразу, а за несколько проходов (так как статей много), но в конце концов все статьи энциклопедии попадут в индекс.

Если же у автора сайта не хватило сил и времени создать такое оглавление для доступа к отдельным статьям энциклопедии (а это большая работа — сделать 100 тысяч аккуратных ссылок в том или ином виде), то пользователь сможет найти статью только с помощью поиска в базе данных по ключевым словам, входящим в заголовок или тело статьи. Такие средства есть практически в любой базе данных, и веб-мастера ими активно пользуются.

Но поисковик — не пользователь, он ведь не будет специально перебирать и подставлять все слова русского языка в окошко для поиска на вашем сайте. Он зайдет на страницу поиска, ссылок на статьи энциклопедии не обнаружит и отправится дальше индексировать Интернет по своему расписанию. Окошко поиска (так называемая форма поиска) не является ссылкой на другие страницы и интереса у поисковика не вызовет. Следовательно, в данном случае он проиндексирует только одну страницу — страницу поиска по энциклопедии, а сама энциклопедия останется для него невидимой.

Таким образом, при создании сайта нужно помнить, что поисковик индексирует на вашем сайте лишь то, на что есть гипертекстовая ссылка. Большие базы данных с единственным способом доступа к их содержимому в виде окна поиска — для поисковика невидимы. Таких баз в Интернете много, именно поэтому говорят о «глубинном Интернете», который невидим поисковикам и который больше видимого в десятки или даже сотни раз.

Какие сайты индексирует поисковая машина?Как часто поисковая машина обходит Интернет?