Информационно-поисковые тезаурусы
Основные принципы разработки, создания и использования традиционных информационно-поисковых тезаурусов. Примеры тезаурусов
Начало разработки информационно-поисковых тезаурусов для различных предметных областей относится к середине 60-х годов. В то время большинство информационных систем не являлись полнотекстовыми, а хранили достаточно ограниченный набор информации о документе: библиографические данные, реферат. Добавление списка ключевых слов, характеризующих основное содержание документа, существенно расширяло возможности поиска документов. С начала 70-х годов создаются национальные и международные стандарты разработки информационно-поисковых тезаурусов.
Значимость разработки и использования информационно-поисковых тезаурусов значительно снизилась с появлением полнотекстовых информационно-поисковых систем, а также возможностей поиска по всем словам текста с помощью методов ранжированного информационного поиска, поскольку такие системы обеспечивают возможность поиска информации неподготовленному пользователю в любых предметных областях, без предварительных затрат на разработку тезаурусов.
Потенциально использование тезаурусов в качестве средств для описания основного содержания текста позволяет преодолевать многие проблемы пословного поиска, упомянутые в лекции 3, а также проблему, связанную с избытком приписанных тексту слов, которых оказывается так много, что возникает отдельная задача по определению их значимости для данного текста.
Однако многочисленные исследования по определению эффективности различных методов представления документов при информационном поиске показали, что эффективность пословного индексирования сравнима с эффективностью поиска, использующего ручное индексирование по тезаурусу.
Действительно, применение хорошо разработанного тезауруса при ручном индексировании должно снимать проблемы синонимии, близких понятий, многозначности. Однако при этом могут возникнуть существенные различия между понятиями, используемыми в тезаурусе, и информационной потребностью пользователя, когда пользователю трудно сформулировать описание нужных ему текстов посредством понятий тезауруса или тезаурус действительно не содержит адекватных понятий. В этих случаях пословное индексирование имеет преимущество из-за больших выразительных возможностей.
Кроме того, при ручном индексировании серьезную проблему составляет фактор субъективности, когда приписывание тексту терминов тезауруса зависит от умения и опыта индексаторов, от количества текстов, которые необходимо проиндексировать, и т.п.
Тем не менее и в настоящее время существуют информационные службы, имеющие и разрабатывающие информационно-поисковые тезаурусы, а также имеющие штат профессиональных индексаторов, индексирующих документы на основе тезаурусов. Примерами таких организаций являются Исследовательская служба Конгресса США, индексирующая по тезаурусу LIV (Legislative Indexing Vocabulary); Организация по продовольствию и сельскому хозяйству при ООН (FAO - Food and Agriculture Organization), разрабатывающая тезаурус AGROVOC; службы Европейского сообщества, использующие для индексирования Европейского законодательства тезаурус EUROVOC и др. Происходит и процесс обновления стандартов разработки тезаурусов.
За прошедшие годы были разработаны и использовались информационными и терминологическими службами сотни тезаурусов, каждый из которых содержит ценную информацию о своей предметной области. Поэтому многие разработчики автоматических информационных систем исследовали вопросы о применении существующих информационно-поисковых тезаурусов при обработке документов в автоматическом режиме. Однако подавляющее большинство экспериментов окончились неудачей: применение информационно-поисковых тезаурусов в процессе автоматического индексирования увеличивало полноту поиска, но резко снижало его точность.
Более того, международный стандарт по разработке одноязычных тезаурусов (ISO 2788) четко указывает, что стандарт должен применяться в организациях, имеющих людей-индексаторов, которые анализируют содержание документов и описывают основные темы документов с помощью терминов тезауруса. "Применение стандарта не предполагает его применение в тех организациях, которые используют полностью автоматические методы индексирования".
Возникает вопрос: почему существующая парадигма разработки информационно-поисковых тезаурусов не дает возможности использовать созданные ресурсы в автоматических режимах индексирования текста? Можно ли и как именно создавать тезаурусы для автоматического индексирования? Для этого необходимо разобраться, какие особенности существующей парадигмы разработки информационно-поисковых тезаурусов не позволяют их использовать в автоматических режимах.
В дальнейшем тексте информационно-поисковые тезаурусы, создаваемые в соответствии с существующими международными и национальными стандартами, будем называть традиционными информационно-поисковыми тезаурусами.
Назначение информационно-поисковых тезаурусов
В различных стандартах и пособиях приводятся разные определения информационно-поисковых тезаурусов. Объемлющее определение информационно-поискового тезауруса можно сформулировать следующим образом:
Информационно-поисковый тезаурус (ИПТ) - это контролируемый словарь терминов на естественном языке, явно указывающий отношения между терминами и предназначенный для информационного поиска.
Основными целями разработки традиционных ИПТ являются следующие: