Опубликован: 05.11.2008 | Уровень: специалист | Доступ: платный | ВУЗ: Московский государственный университет имени М.В.Ломоносова
Лекция 10:

Информационно-поисковые тезаурусы и автоматическая обработка текстов

Нарушение условий надежности

Если условия надежности выполняются почти всегда, по умолчанию, то применяются специальные пометки - модификаторы отношений, что означает, что отношение более слабое. В связи с этим вводятся ограничения по транзитивности.

Используются два модификатора:

  • модификатор В ("возможно") - отношение выполняется не для всех примеров;
  • модификатор А ("аспект", точка зрения) - отношение существует не все время.

Например,

ПЕНСИОНЕР
	ВЫШЕ_В		СТАРЫЙ ЧЕЛОВЕК
	ЦЕЛОЕ_А		ПЕНСИОННАЯ СИСТЕМА

Сравнение используемого отношения ЧАСТЬ-ЦЕЛОЕ с другими подходами

Наиболее близким по такой трактовке отношений ЧАСТЬ-ЦЕЛОЕ является онтология Дж. Совы (John Sowa). Описывая классификацию ролей и отношений в своей онтологии верхнего уровня, автор рассматривает случаи зависимости (prehension) понятий друг от друга. Зависимость может быть внешняя (extrinsic) и внутренняя (intrinsic). Если одна сущность в отношении зависимости может исчезнуть, не меняя форму или существование другой сущности, это означает, что это отношение внешнее. Если исчезновение одной из сущностей меняет структуру или существование другой сущности, то это отношение внутреннее.

Основным видом внутренне зависимых сущностей являются компоненты. Среди компонентов выделяются части и свойства. Части делятся на физические части, участников и стадии, а свойства - на атрибуты и способы.

Таким образом, Sowa также объединяет в один куст отношений такие отношения, как физические части, участники, стадии, свойства, по свойству внутренней зависимости.

Разработка Общественно-политического тезауруса как ресурса для автоматической обработки текстов. Соединение трех существующих традиций. Общественно-политический тезаурус как лингвистическая онтология

Мы видим, что Общественно-политический тезаурус представляет собой лингвистическую онтологию, которая строится на сочетании трех различных традиций и методологий:

  • методологии разработки традиционных информационно-поисковых тезаурусов;
  • методологии разработки лингвистических ресурсов типа WordNet;
  • методологии созданий формальных онтологий.

Поскольку предполагается работать с терминологией, большими предметными областями и свободными текстами, то важно использовать опыт разработки информационно-поисковых тезаурусов, а именно:

  • информационно-поисковый контекст;
  • единицы онтологии создаются на основе значений терминов;
  • описание большого числа многословных выражений, принципы включения/невключения многословных единиц;
  • небольшой набор отношений между понятийными единицами.

Так как предполагается применять онтологию в автоматическом режиме обработки текстов, то необходимо использовать методологию разработки лексических ресурсов типа WordNet, в которой важны следующие положения:

  • понятия онтологии создаются на основе значений реально существующих языковых выражений - терминов ;
  • многоступенчатое иерархическое построение лексико-терминологической системы понятий;
  • принципы описания значений многозначных слов и выражений.

Из методологии разработки формальных онтологий важны следующие положения:

  • разработка лингвистической онтологии как иерархической системы понятий;
  • включение в состав отношений тезауруса отношений онтологической зависимости, которые описывают зависимость существования понятия или примеров понятия от существования других понятий (примеров понятия). Показано, что применение таких отношений в лингвистическом ресурсе эффективно для решения задач информационного поиска;
  • в качестве аксиом (правил вывода) - использование свойств транзитивности и наследования таксономических отношений и транзитивности отношений онтологической зависимости.

Контрольные вопросы

  1. В чем состоят отличительные особенности Тезауруса для автоматического концептуального индексирования?
  2. Каковы возможные способы установление отношений в тезаурусах?
  3. Что такое отношения онтологической зависимости?

10.2. Тезаурус для автоматического концептуального индексирования как ресурс для решения информационно-поисковых задач

С 1995 года Общественно-политический тезаурус используется в таких областях автоматической обработки текстов, как автоматическое концептуальное индексирование, автоматическая рубрикация текстов, автоматическое аннотирование текстов. Все эти применения тезауруса базируются на тематическом представлении текста, моделирующем тематическую структуру документа на базе узлов близких по смыслу терминов.

Совокупность этапов, преобразующих исходный текст в тематическое представление, называется Автоматической Лингвистической Обработкой Текста (АЛОТ).

Обработка документов в УИС РОССИЯ

Рис. 10.1. Обработка документов в УИС РОССИЯ

Тезаурус и технология автоматического построения тематического представления содержания документа позволили развить в рамках УИС РОССИЯ (Университетской информационной системе РОССИЯ, uisrussia.msu.ru) гибкую технологию эффективной автоматической рубрикации текстов. Созданные системы автоматической рубрикации работают с такими рубрикаторами, как рубрикатор исследовательской службы конгресса США, общеправовым тематическим классификатором Центральной избирательной комиссии РФ, классификатором правовых актов РФ. Всего было внедрено шесть различных систем автоматической рубрикации с разными рубрикаторами размером от 35 до 1200 рубрик.

Знания, описанные в Тезаурусе, а также технология построения тематического представления позволили создать систему автоматического аннотирования текстов. В 1998 году программа автоматического аннотирования англоязычных текстов участвовала в соревнованиях в рамках конференции SUMMAC, где эта программа получила лучшие результаты в номинации "Индикативная аннотация наилучшей длины".

Тезаурус используется как инструмент для автоматического концептуального индексирования и ранжированного информационного поиска в УИС РОССИЯ.

АЛОТ: основные этапы

На первом этапе работы алгоритма происходит сравнение единиц текста с единицами Тезауруса. Сравнение текста и Тезауруса происходит на основе морфологического представления единиц текста и единиц Тезауруса. Из множества найденных в тексте единиц Тезауруса выбирается единица, имеющая максимальную длину. Если один и тот же фрагмент текста соответствует разным единицам Тезауруса, то фиксируется многозначность термина.

В результате сопоставления с Тезаурусом текст отражается в последовательность дескрипторов Тезауруса. Все синонимы (варианты) одного и того же дескриптора отображаются в соответствующий дескриптор и далее не различаются. Для каждого дескриптора фиксируется частота его встречаемости в тексте.

Покрытие терминологией Тезауруса лексики НА РФ. На примере документа "Постановление Правительства РФ от 26 июня 1995 г. № 604"

Рис. 10.2. Покрытие терминологией Тезауруса лексики НА РФ. На примере документа "Постановление Правительства РФ от 26 июня 1995 г. № 604"

Чтобы определить тезаурусные связи между дескрипторами текста, необходимо найти те пары дескрипторов, которые описаны в тезаурусных статьях друг друга. Но этого недостаточно. Необходимо также найти и такие пары дескрипторов текста, связи между которыми выводятся по свойствам транзитивности и наследования. Совокупность связанных между собой дескрипторов текста, полученных в результате применения процедуры вывода, называется проекцией Тезауруса на текст - тезаурусной проекцией .

Таким образом, два дескриптора текста D1 и D2 оказываются непосредственно связанными в тезаурусной проекции, если:

  1. эти дескрипторы D1 и D2 находятся в одной тезаурусной статье;
  2. и между дескрипторами D1 и D2 существует путь в Тезаурусе, который состоит:
    • либо только из связей ВЫШЕ и ЦЕЛОЕ (в этому случае говорят, что дескрипторы D1 и D2 связаны по транзитивности связей ВЫШЕ и ЦЕЛОЕ );
    • либо из связей ВЫШЕ и ЦЕЛОЕ и одной связи АССОЦИАЦИЯ (в этому случае говорят, что дескрипторы D1 и D2 связаны по свойству наследования связи АССОЦИАЦИЯ связями ВЫШЕ и ЦЕЛОЕ ).

В построении тезаурусной проекции равным образом участвуют все дескрипторы, соответствующие неоднозначному термину. На основе тезаурусной проекции производится выбор дескриптора, соответствующего определенному значению термина. Для каждого значения неоднозначного термина проверяется:

  • употреблялись ли в данном тексте наряду с неоднозначным термином однозначные термины, соответствующие дескриптору, который выражает это значение неоднозначного термина;
  • имеет ли дескриптор, соответствующий этому значению неоднозначного термина, тезаурусные связи с другими дескрипторами проекции.

Если выполняется одно из вышеперечисленных условий, то считается, что "текст поддерживает" данное значение неоднозначного термина. Если текст "поддерживает" только одно значение неоднозначного термина, то выбирается соответствующий ему дескриптор.

Если текст "поддерживает" дескрипторы, соответствующие разным значениям термина, то для каждого вхождения неоднозначного термина рассматриваются ближайшие по тексту дескрипторы, для них проверяются вышеуказанные условия и выбирается тот дескриптор неоднозначного термина, который "поддерживается" первым из ближайших по тексту дескрипторов.

Алина 2
Алина 2
Россия, г. Москва
Александр Вицентий
Александр Вицентий
Россия