Опубликован: 06.03.2006 | Уровень: для всех | Доступ: платный
Лекция 9:

Поиск информации в Web

Раз он в море закинул невод - Пришел невод с одною тиной Он в другой раз закинул невод - Пришел невод с травой морскою.

"Сказка о рыбаке и рыбке". А.С. Пушкин

В Интернете размещены миллионы сайтов, причем с актуальной информацией соседствует много устаревших ресурсов, мусора и недобросовестной рекламы.

Интернет - это наиболее демократичный источник информации. Каждый может разместить в Сети собственный ресурс и высказать свое мнение. В этом одновременно сила и слабость Всемирной сети. Плюсы наличия столь демократической площадки очевидны.

Однако отсутствие единоначалия и единых требований по оформлению информации приводит к тому, что в Сети мало кто озабочен тем, чтобы избежать дублирования информации или следовать стандартам, принятым на сайте соседа. И здесь наблюдается резкий контраст с корпоративным документооборотом, описанным ранее.

Находить информацию в Интернете, вероятно, было бы очень трудно, если бы не были созданы мощные поисковые инструменты: поисковые машины (поисковики), каталоги (рубрикаторы), рейтинги, метапоисковые системы и тематические списки ссылок, онлайновые энциклопедии и справочники.

Как показывает практика, для поиска разного рода информации наиболее эффективными оказываются различные инструменты (рис. 4.19). Рассмотрим каждую категорию по отдельности.

Для каждого типа информации следует выбирать свой инструмент поиска

Рис. 4.19. Для каждого типа информации следует выбирать свой инструмент поиска

Индексированные каталоги

Каталог представляет собой данные, структурированные по темам в виде иерархических структур. Тематические разделы первого уровня определяют наиболее популярные, максимально широкие темы, такие как "спорт", "отдых", "наука", "магазины" и т.д. В каждом таком разделе есть подразделы. Таким образом, пользователь может уточнять интересующую его область, путешествуя по дереву каталога и постепенно сужая область поиска. Например, при поиске информации о ноутбуках цепочка поиска может выглядеть следующим образом:

Информационные технологии -> Компьютеры -> Ноутбуки.

Дойдя до нужного подкаталога, пользователь находит в нем набор ссылок.

Обычно в каталоге все ссылки являются профильными, поскольку составлением каталогов занимаются не программы, а люди. Очевидно, что если ведется поиск общей информации по некоторой широкой теме, то целесообразно обратиться к каталогу. Если же необходимо найти конкретный документ, то каталог окажется малоэффективным поисковым средством.

Существует огромное количество каталогов. Один из наиболее популярных каталогов в России находится по адресу http://list.mail.ru/.

Помимо каталогов общего профиля, в Сети достаточно много специализированных каталогов. Например, по адресу www.kinder.ru можно найти прекрасный каталог, посвященный детским ресурсам. В случае, если внутри отдельной темы каталога находится огромное количество ресурсов, возникает проблема выбора. В некоторых каталогах имеется сортировка по популярности, например, в каталоге Яндекса сортировка идет по индексу цитирования - числу ссылок на сайт с других сайтов.

Помимо каталогов в Сети существуют рейтинги. Одним из наиболее популярных рейтингов является Rambler's Top 100. (http://top100.rambler.ru/top100/). На рис. 4.20 показан рейтинг ресурсов. Популярность ресурса оценивается по ряду параметров, в том числе так называемым хостам (количество уникальных посетителей в единицу времени) и хитам (количество заходов на сайт за единицу времени).

Пример ранжирования ссылок в рейтинге Rambler Top 100

Рис. 4.20. Пример ранжирования ссылок в рейтинге Rambler Top 100
Ольга Тимофеева
Ольга Тимофеева
Ольга Прускавцова
Ольга Прускавцова
Anna Getova
Anna Getova
Болгария
Алексей Васильев
Алексей Васильев
Россия, Сергиев Посад