Лингвистическая онтология WordNet
8.2. WordNet: применение в информационном поиске
Для того чтобы попытаться реализовать схему автоматического концептуального индексирования и концептуального поиска, необходимо иметь лингвистический ресурс, организованный на основе понятий или значений слов. Поэтому такие ресурсы, как WordNet, могут использоваться как база для организации приложений концептуального индексирования и поиска. В этой лекции рассматривается два нижеследующих эксперимента.
Векторная модель информационного поиска с вектором по синсетам WordNet
Целью экспериментов была попытка выполнить поиск документов на основе не отдельных слов, а значений WordNet. Для каждого документа сначала выполняется процедура разрешения многозначности существительных, которая выбирает единственное значение и в результате которой каждому тексту ставится в соответствие вектор синсетов WordNet. После того как вектор создан, с ним могут выполняться такие же операции, как и с пословными векторами.
Эффективность использования векторов синсетов сравнивалась с эффективностью информационного поиска на основе стандартной модели, использующей вектора слов. В стандартном прогоне и документы, и запросы представляются как вектора лемм всех значимых слов. В концептуальных прогонах и документы, и запросы представляются как вектора, состоящие из трех подвекторов:
- вектор лемм слов, не найденных в WordNet, либо найденных, но многозначность которых не удалось разрешить (например, не являющихся существительными);
- вектор синсетов существительных для слов с разрешенной многозначностью;
- вектор лемм существительных для слов с разрешенной многозначностью.
Второй и третий подвектора представляют собой альтернативные представления документа, поскольку одни и те же слова этого документа порождают отдельные элементы каждого вектора.
Для каждого запроса стандартный прогон векторной модели сравнивался со следующими комбинациями перечисленных выше подвекторов (цифры соответствуют весу, который дается 1-му, 2-му и 3-му подвектору, соответственно):
- 110 - данная комбинация дает одинаковые веса словам, отличным от существительных, и синсетам существительных;
- 211 - данная комбинация учитывает как синсеты существительных, так и леммы существительных, поэтому оставшиеся слова учитываются в двойном размере;
- 101 - в данной комбинации подвектор синсетов существительных игнорируется, а леммы существительных и другие леммы документа получают одинаковые веса. Обратите внимание, что этот вектор отличается от стандартного прогона, поскольку результат сравнения для системы подвекторов вычисляется как сумма результатов сравнения каждого вектора.
Для экспериментов было использовано 5 разных коллекций документов (компьютерная область, медицинская область, газетные статьи и др.), и для каждой коллекции было выполнено более 30 различных запросов.
Оценки эффективности информационного поиска на основе показателя средней точности показали серьезное ухудшение эффективности для векторов, включающих синсеты (от 6,2% до 42,3%).
Основная причина такого ухудшения эффективности заключается в том, что процедура разрешения многозначности для слова в запросе может выбрать одно значение, а для того же слова в документе - другое значение. Например, при поиске по запросу "separation anxiety in infants and preschool children" из первых 15 документов стандартный прогон выдает 7 релевантных документов, в то время как прогон 110 - только один релевантный документ. Проблема вызвана выбором значения слова separation, для которого в WordNet описано 8 значений. Процедура разрешения многозначности выбирает такое значение этого слова в запросе, которое не было выбрано ни в одном из релевантных текстов.
Эксперименты по расширению запросов на основе отношений WordNet
Другая группа экспериментов по использованию WordNet в информационном поиске исследовала возможность расширения запросов синонимами или другими словами, связанными со словами запроса отношениями, которые описаны в WordNet. В таких экспериментах нет необходимости выбора единственного значения слова, что в случае ошибки привело бы к серьезному ухудшению результатов поиска.
Для экспериментов были использованы следующие соображения.
Во-первых, расширяться должны только важные для запроса понятия. Важность аппроксимируется количеством документов, в которых встречается конкретное слово запроса - слова, частотность которых в документах коллекции больше некоторого числа N, не участвуют в расширении запроса.
Во-вторых, чтобы смоделировать разрешение многозначности, запрос расширяется только теми словами, которые оказались в окрестностях расширения по крайней мере двух слов запроса.
Таким образом, сначала для каждого слова запроса, частотность которого меньше некоторого числа N, и каждого синсета для значений этого слова извлекается список близких по WordNet слов.
Те слова, которые встретились по крайней мере в двух таких списках, добавляются к исходному запросу.
Исследовались различные величины N - 10% коллекции и 5% коллекции.
Для расширения запроса использовались синсеты, находящиеся на расстоянии одного или двух отношений от исходных синсетов - все виды связей трактовались одинаково.
Добавленные слова могли учитываться с разными величинами весов: w = 0.3, 0.5, 0.8.
Максимальное улучшение, которое удалось получить, - 0.7% средней точности, что не является статистически значимой величиной ( N = 5%, расстояние - 2, w = 0.3 ).
Авторы подчеркивают, что идея аппроксимации разрешения многозначности путем поиска повторов в списках расширения оказалась неэффективной в виду того, что чаще всего это метод приводил к добавлению в запрос очень общих слов, таких как "система".
Для того чтобы исключить из рассмотрения эффект лексической многозначности и исследовать возможности WordNet по расширению поискового запроса, были выполнены эксперименты с ручным выбором значения многозначных слов в запросе.
Для каждого синсета, соответствующего слову запроса, в запрос могут быть добавлены разные слова на основе различных отношений данного синсета, например: синонимы; гипонимы (все слова из нижестоящих синсетов иерархии гипоним-гипероним ); все слова, отстоящие на один шаг от текущего синсета по любому типу отношений.
Чтобы исследовать все такие возможности, был образован вектор, состоящий из 11 подвекторов: 10 - для слов исходного запроса, один - для синонимов, один - для каждого типа отношений существительных в WordNet. Сходство с документами вычислялось как взвешенная сумма результатов сравнений с каждым из подвекторов.
Исследовались четыре варианта векторов:
- расширение только по синонимам;
- расширение "синонимы + полная иерархия вниз";
- расширение "синонимы + родители + полная иерархия вниз";
- расширение "синонимы + слова из любых синсетов на один шаг по любому типу отношений".
Тестирование проходило на двух типах вопросов: более длинной и более короткой версии. При поиске по полному запросу ни одной из комбинаций не удалось улучшить результаты поиска более чем на 2 процента. Короткие вопросы состояли из небольшого списка синсетов, например, {cancer}, {skin_cancer}, {phramaceutical}.
Для укороченного запроса, используя 4-й тип расширения, при котором все добавления учитывались с коэффициентом 0,5, было получено 35% улучшение: средняя точность для укороченного запроса без расширения была 0,1634, с расширением - 0,2205. Средняя точность поиска по полному запросу - 0,3586.
Выводы авторов эксперимента заключаются в том, что для успешного применения WordNet в информационном поиске необходимо значительно улучшить эффективность автоматического разрешения лексической многозначности, между тем парадигматических отношений в WordNet недостаточно для решения этой задачи.
Проект Meaning
Проект Meaning является продолжением проекта EuroWordNet. Авторы проекта мотивируют необходимость продолжения работ тем, что десятки человеко-лет были затрачены для создания ворднетов для разных языков, но этих усилий недостаточно, чтобы обеспечить качество многоязычных приложений компьютерной обработки текстов.
Прогресс в этой области связан с решением двух промежуточных задач: автоматическое разрешение лексической многозначности и масштабное обогащение лексических баз знаний.
Проблема, однако, заключается в том, что существуют взаимозависимые факторы:
- для того чтобы достичь качественного разрешения лексической многозначности, необходимо значительно больше лингвистических и семантических знаний, чем имеется в текущих лексических базах знаний (к примеру, в ворднетах);
- для того чтобы обогатить существующие лексические базы знаний, необходимо получать информацию из корпусов с качественной семантической разметкой.
В проекте планируется выполнить три последовательных цикла масштабного разрешения лексической многозначности и извлечения знаний для пяти европейских языков, включая баскский, испанский, итальянский, голландский и английский языки. Накопленные знания должны храниться в Многоязычном Центральном Репозитории.
Эксперименты по семантическому индексированию в рамках проекта Meaning
В рамках европейского проекта Meaning голландская компания Irion Technologies разработала технологию концептуального индексирования TwentyOne, комбинирующую лингвистический и статистический подходы. Авторы разработки считают, что неудачи с применением WordNet в информационно-поисковых приложениях связаны с трудностями встраивания такого рода лингвистических ресурсов в приложения, а также с проблемами оптимального использования содержащейся в ворднетах информации.
Основой технологии является статистическая машина поиска, базирующаяся на стандартной векторной модели и обеспечивающая быстрый поиск документов.
Лингвистические технологии используются для улучшения результатов, выданных статистической машиной, в двух направлениях:
- максимизация полноты результатов за счет использования синонимии ворднетов;
- максимизация точности результатов за счет сравнения запросов с конкретными фразами документов, а не с целыми документами.
Фраза представляет собой именную группу (noun phrase). Каждая фраза ассоциируется с отдельными словами, определенной комбинацией слов, а также комбинацией частей слов.
Система TwentyOne использует совокупность факторов для сравнения запроса с фразами текста:
- число совпадающих концептов между запросом и каждой фразой;
- степень нечеткого сопоставления между запросом и каждой фразой;
- степень деривационного несовпадения, слитного/раздельного написания и т.п.;
- были ли использованы синонимы;
- был ли использован тот же язык.
Суть технологии в том, что сначала выдаются документы, которые имеют наибольшее совпадение по концептам фраз с запросом. Среди документов, имеющих одинаковое количество сопоставленных понятий между собственными фразами и запросом, первыми выдаются наиболее схожие по конкретному набору слов.
В проводимых экспериментах для сравнения были построены четыре индекса:
- HTM - традиционный пословный индекс;
- NP - индексы именных групп из запроса, с применением пословных методов, без использования ворднетов;
- FULL - полные индексы с использованием ворднетов, но без процедуры разрешения многозначности, что приводит к полному расширению по синонимам и переводам для всех возможных значений слов запроса;
- WSD - индексы, использующие ворднеты вместе с процедурой снижения многозначности на основе предметных областей ворднет.
В эксперименте индексы тестируются в системе автоматической рубрикации текстов на коллекции Reuter. Описывается, что максимальных значений F-меры система автоматической рубрикации достигает для индекса WSD: полнота - 80,7, точность - 72,2. Минимум система имеет на базе индекса HTM: полнота - 67,8, точность - 70,4.
Нужно, однако, отметить, что описываемые результаты на основе пословного индекса значительно ниже, чем результаты других пословных систем на основе этой же коллекции. Иными словами, произведенные улучшения получаются по сравнению с заниженным недостаточно эффективным уровнем работы системы на основе пословного индекса, и значительные улучшения могли бы быть осуществлены еще в рамках такого индекса.
Контрольные вопросы
- Что такое концептуальное индексирование и концептуальный поиск?
- Каковы проблемы использования онтологии в информационном поиске?