Санкт-Петербургский государственный университет
Опубликован: 17.08.2014 | Доступ: свободный | Студентов: 1910 / 861 | Длительность: 09:10:00
Лекция 5:

Internet/Intranet технологии

< Лекция 4 || Лекция 5: 123 || Лекция 6 >

5.2. Поисковые системы

Для быстрого поиска информации в Internet разработаны специальные программы, которые по заданным адресам и ссылкам мгновенно отыскивают нужную информацию. При этом число обработанных информационных ресурсов может достигать сотен тысяч.

Поисковая система - Web-сайт, предоставляющий возможность поиска информации в Internet. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на Ftp-серверах, товары в Internet-магазинах, а также информацию в группах новостей Usenet.

В последнее время появился новый тип поисковых движков, основанных на технологии RSS - семейство XML-форматов, предназначенных для описания лент новостей, анонсов статей, изменений в блогах и т. п. Можно назвать и аналогичные технологии: Rich Site Summary (стандарт RSS 0.9x) - обогащённая сводка сайта; RDF Site Summary (RSS 0.9 и 1.0) - сводка сайта с применением инфраструктуры описания ресурсов; Really Simple Syndication (RSS 2.x) - очень простое приобретение информации. Информация из различных источников, представленная в формате XML на базе RSS-стандартов, может быть собрана, обработана и представлена пользователю в удобном для него виде специальными программами-агрегаторами.

Комплекс программ, обеспечивающий функциональность поисковой системы, называют поисковым движком или поисковой машиной. Основными критериями качества работы поисковой машины являются релевантность, полнота базы, учёт морфологии языка. Индексация информации осуществляется специальными поисковыми роботами. Улучшение работы поисковых систем - это одна из приоритетных задач сегодняшнего Internet.

Первой поисковой системой для Всемирной паутины был "Wandex" - робот, разработанный в 1993 году Мэтью Грэйем (Matthew Gray) из Массачусетского технологического института. Также в 1993 году появилась поисковая система Aliweb, работающая до сих пор. Первой полнотекстовой (т. н. "Crawler-based" - то есть индексирующей ресурсы при помощи робота) поисковой системой стала "WebCrawler", запущенная в 1994 году. В отличие от своих предшественников она позволяла пользователям искать по любым ключевым словам на любой Web-странице - с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором стало известно в широких кругах. В 1994 году был запущен поисковик Lycos, разработанный в американском университете Карнеги Мелона.

Вскоре появилось множество других конкурирующих поисковых машин таких, как Excite, Infoseek, Inktomi, Northern Light и AltaVista. В некотором смысле они конкурировали с популярными Интернет-каталогами, такими, как Yahoo! Позже каталоги соединились или добавили к себе поисковые машины, чтобы увеличить функциональность. В 1996 году русскоязычным пользователям Internet стало доступно морфологическое расширение к поисковой машине AltaVista и оригинальные российские поисковые машины Rambler и Aport. 23 сентября 1997 года была реализована поисковая система Yandex.

Помимо поисковых машин для Всемирной паутины существовали и поисковики для других протоколов такие, как Archie для поиска по анонимным FTP-серверам и Veronica для поиска в Gopher.

В настоящее время совокупности поисковых и сервисных программ образуют мощные общедоступные и коммерческие поисковые службы: в зарубежном секторе Internet - это AltaVista, Excite, Google, HotBot, Infoseek (Go)Light, Lycos, Magellan, Norbern, Yahoo!, Open Text, Web Crawler, в русскоязычном секторе основными полнотекстовыми поисковыми системами считаются Апорт, "Иван Сусанин", "Кирилл и Мефодий", "Россия-Он-Лайн", Rambler, List.ru, Russia on the Net, FTP-Search, Yandex.

Большинство русскоязычных поисковых систем индексируют и ищут тексты на многих языках - украинском, белорусском, английском и др. Отличаются же они от "всеязычных" систем, индексирующих все документы подряд, тем, что, в основном, индексируют ресурсы, расположенные в доменных зонах, где доминирует русский язык или другими способами ограничивают своих роботов русскоязычными сайтами.

Наряду с универсальными поисковыми системами большой популярностью пользуются специализированные такие, как метапоисковые MetaCrawler.com и Nigma.ru, или осуществляющие "вертикальный" поиск (по конкретным типам: новости, картинки, видео, фото, вакансии, группы товаров и т. п.).

< Лекция 4 || Лекция 5: 123 || Лекция 6 >