Московский государственный университет имени М.В.Ломоносова
Опубликован: 05.11.2008 | Доступ: свободный | Студентов: 1337 / 258 | Оценка: 4.32 / 4.15 | Длительность: 11:59:00
ISBN: 978-5-9963-0007-5
Специальности: Программист
Лекция 8:

Лингвистическая онтология WordNet

< Лекция 7 || Лекция 8: 123456 || Лекция 9 >
Аннотация: В данной лекции описана лингвистическая онтология WordNet, описание ресурса, основные принципы, индекс ILI, онтология верхнего уровня в EuroWordNet, WordNet: применение в информационном поиске, применение в вопросно-ответных системах и т.д. Приведены примеры.
Ключевые слова: ресурс, лексема, гипотеза отделимости, гипотеза образца, hypothesis, гипотеза о покрытии, comprehensive, синсет, антонимия, иерархическое отношение, artifact, quantity, меронимия, blooming, glass, irregular, plating, sharpness, pencil, surface, punch, hole, ICE, sharp edge, needle, metallization, wheel, качественные прилагательные, гипонимия, сходство, slow, головной синсет, сателлитный синсет, LANE, speech, utterance, относительные прилагательные, farm, characteristic, speculation, тропонимия, foot, , казуатив, результатив, blow, PIPS, лингвистическая онтология, машинный перевод, класс сущностей, происхождение, форма, состав, функция, динамические сущности, статические сущности, причина, ментальный, физический, расположение, цель, стандартный прогон, концептуальный прогон, полный запрос, извлечение знаний, многоязычность, вопросно-ответная система, массив, гигабайт, байт, правильный ответ, булевский поиск, морфологический анализ, иерархия типов

8.1. Описание ресурса. EuroWordNet

Лингвистический ресурс WordNet разработан в Принстонском университете США. WordNet относится к классу лексических онтологий, свободно доступен в Интернете, и на его основе были выполнены тысячи экспериментов в области информационного поиска.

WordNet версии 2.1 охватывает приблизительно 155 тысяч различных лексем и словосочетаний, организованных в 117 тысяч понятий, или совокупностей синонимов (synset); общее число пар "лексема-значение" насчитывает 200 тысяч.

Разработка тезауруса была начата в 1984 году. В 1995 году WordNet появился в Интернете в свободном доступе и вызвал всплеск исследований по его использованию в различных компьютерных приложениях автоматической обработки текстов. Результаты применения WordNet оказались не столь однозначно положительными, но WordNet открыл новую эпоху разработки сверхбольших структурированных лингвистических ресурсов, вызвал появление большого числа последователей в разных странах, создающих такие "ворднеты" для своих языков, а также стал базой для многоплановых дискуссий и исследований того, на основе каких принципов должны строиться большие лингвистические ресурсы, пригодные для разнообразных приложений в области компьютерной лингвистики.

Первоначально WordNet создавался как модель человеческой памяти. Многие решения представления описаний слов в WordNet мотивируются психолингвистическими экспериментами. Однако нужно отметить, что WordNet вызвал значительно больший интерес у компьютерных лингвистов, чем у психолингвистов.

WordNet: основные принципы

Основоположник WordNet Джордж Миллер формулирует основные гипотезы, лежащие в основе разработки WordNet, следующим образом:

  • гипотеза отделимости: описание лексического компонента естественного языка может быть отделено и может изучаться отдельно;
  • гипотеза "образца" (patterning hypothesis): существует такое формальное описание слов, которое может быть применено к большинству слов языка;
  • гипотеза о покрытии (comprehensiveness hypothesis): для эффективного использования компьютерного словаря в приложениях автоматической обработки текстов такие словари должны быть очень большой величины.

В то время была популярной теория семантического компонентного анализа, в которой предполагалось, что значение слова, как и значение предложения, может быть представлено на основе набора семантических примитивов. Однако годы исследований не выявили лучшего набора семантических примитивов, пригодного для использования в ресурсах для обработки естественного языка.

В качестве альтернативы был выбран подход так называемой реляционной семантики, когда значения слов представляются некоторым выражением компонентов, а не на основе описания отношений между значениями разных слов.

Основным отношением в WordNet является отношение синонимии. Наборы синонимов - синсеты - основные структурные элементы WordNet.

Понятие синонимии базируется на критерии, что два выражения являются синонимичными, если замена одного из них на другое в предложении не меняет значения истинности этого высказывания.

Понятие синонимии, используемое в WordNet, не требует заменяемости синонимов во всех контекстах - по такому критерию в естественном языке было бы слишком мало синонимов. Используется значительно более слабое утверждение, что синонимы WordNet должны быть взаимозаменимы хотя бы в некотором множестве контекстов. Например, замена plank для слова board редко меняет значение истинности в контексте плотницкого дела, но существуют контексты, где такая замена не может считаться приемлемой.

Именно определение синонимии в терминах заменимости делает необходимым разделение WordNet на отдельные подструктуры по частям речи.

В состав словаря входят лексемы, относящиеся к четырем частям речи: прилагательное, существительное, глагол и наречие. Лексемы различных частей речи хранятся отдельно, и описания, соответствующие каждой части речи, имеют различную структуру.

Синсет может рассматриваться как представление лексикализованного понятия (концепта) английского языка.

Авторы считают, что синсет существительных представляет понятия существительных, глаголы выражают глагольные концепты, прилагательные - концепты прилагательных и т.п.

Кроме того, авторы считают, что такое разделение соответствует психолингвистическим экспериментам, что представление информации о прилагательных, существительных, глаголах и наречиях устроено в человеческой памяти по-разному.

Большинство синсетов снабжены толкованием, подобным толкованиям в традиционных словарях, - это толкование рассматривается как одно для всех синонимов синсета. Если слово имеет несколько значений, то оно входит в несколько различных синсетов.

Описание существительных

Между существительными в словаре установлены следующие семантические отношения:

  • синонимия;
  • антонимия;
  • гипонимия/гиперонимия - отношение, которое иначе может быть названо ВЫШЕ-НИЖЕ, isA -отношение. Отношение транзитивно и несимметрично. Гипоним наследует все свойства гиперонима. Это отношение является центральным отношением для описания существительных;
  • меронимия (отношение ЧАСТЬ-ЦЕЛОЕ ). Внутри этого отношения выделяются отношения быть_элементом и быть_сделанным_из.

WordNet: гипонимы

Основным отношением между синсетами существительных является родо-видовое отношение, при этом видовой синсет называется гипонимом, а родовой - гиперонимом. Это транзитивное иерархическое отношение, которое может быть также названо isA -отношением.

Синсет X называется гипонимом синсета Y, если носители английского языка считают нормальными предложения типа " An X is a (kind of) Y ".

Таким образом, отношения между синсетами образуют иерархическую структуру.

При построении иерархических систем на базе родо-видовых отношений обычно предполагается, что свойства вышестоящих понятий наследуются нижестоящими - так называемое свойство наследования.

Таким образом, существительные в WordNet организованы в виде иерархической системы с наследованием; были сделаны систематические усилия, чтобы для каждого синсета найти его родовое понятие, его гипероним.

При этом предполагается, что есть возможность найти различия между синонимией и гиперонимией. На практике, однако, различие не всегда очевидно.

Кроме того, если традиционные словари могут в качестве различных значений одного и того же слова включить и более широкое, и более специализированное значение, например, board (доска) в широком смысле и в более специализированном, как surfboard (доска для серфинга), при разработке WordNet предпочтение отдавалось решениям, в которых одно и то же слово не представлено и в синсете гипонима, и в синсете гиперонима.

WordNet разделяет существительные на несколько иерархий, каждая со своим начальным понятием. Всего для существительных имеется 25 синсетов верхнего уровня, такие как {act, activity} (деятельность), {animal, fauna} (животное), {artifact} (продукт труда), {food} (пища), {process} (процесс), {quantity, amount} (количество) и др.

Отношение ЧАСТЬ-ЦЕЛОЕ

Меронимия представляет собой скорее совокупность несколько отличающихся отношений, чем четкое отделяемое отношение.

В качестве первого определения меронимии, которое, однако, исключает некоторые очевидные случаи отношения ЧАСТЬ-ЦЕЛОЕ, может служить следующее положение:

X является меронимом Y тогда и только тогда, если предложения вида " Y имеет X (или Xы) " и " X - это часть Y " являются нормальными для X и Y, интерпретируемых как родовые понятия.

Сущности, такие как группы, классы и коллекции, состоят в отношении меронимии со своими элементами:

  • Примеры групп: племя, команда, комитет, семья, оркестр, суд, отряд и др.
  • Примеры классов: пролетариат, аристократия, буржуазия.
  • Примеры коллекций: куча, лес, библиотека (как коллекция книг).

Отношение ЧАСТЬ-ЦЕЛОЕ представляет собой семейство близких отношений. Наиболее центральным типом этого отношения являются физические объекты.

  • Если и ЧАСТЬ, и ЦЕЛОЕ являются неисчислимыми, то говорят об отношении ингредиентов, например: спирт - водка.
  • Если ЧАСТЬ - исчислимое, а ЦЕЛОЕ - неисчислимое, то говорят об отношении ЧАСТИЦА-ВЕЩЕСТВО: песчинка - песок, снежинка - снег, капля - дождь.
  • Если ЧАСТЬ - неисчислимое, а ЦЕЛОЕ - исчислимое, то это так называемое отношение МАТЕРИАЛ-ОБЪЕКТ: стекло - бокал.

В WordNet выделяются три подвида отношения ЧАСТЬ-ЦЕЛОЕ: собственно часть, быть_элементом и быть_сделанным_из, например:

  • собственно часть:
    • flower, bloom, blossom - (reproductive organ of angiosperm plants esp. one having showy or colorful parts)
      • PART OF: angiosperm, flowering plant - (plants having seeds in a closed ovary)
  • элемент:
    • homo, man, human being, human - (any living or extinct member of the family Hominidae)
      • MEMBER OF: genus Homo - (type genus of the family Hominidae)
  • вещество:
    • glass - (a brittle transparent solid with irregular atomic structure)
      • SUBSTANCE OF: glassware, glasswork - (articles made of glass)
      • SUBSTANCE OF: plate glass, sheet of glass - (glass formed into a thin sheet)

Для частей характерно, что у многих разных сущностей части могут называться одинаково, например, point (острие) может быть у стрелы, ножа, иголки, карандаша, булавки и т.п. В таких случаях описываются все такие холонимы, например,

  • собственно часть:
    • point - (sharp end; "he stuck the point of the knife into a tree"; "he broke the point of his pencil")
      • PART OF: awl - (a pointed tool for marking surfaces or for punching small holes)
      • PART OF: icepick, ice pick - (pick consisting of a steel rod with a sharp point; used for breaking up blocks of ice)
      • PART OF: knife - (edge tool used as a cutting instrument; has a pointed blade with a sharp edge and a handle)
      • PART OF: needle - (a sharp pointed implement (usually steel))
      • PART OF: pencil - (a thin cylindrical pointed writing implement; a rod of marking substance encased in wood)
      • PART OF: pin - (a small slender (often pointed) piece of wood or metal used to support or fasten or attach things)

Авторы подчеркивают, что одной из проблем описания отношений меронимии является то, что части описываются несколько выше, чем это необходимо. Например, часто утверждается, что колесо - это часть транспортного средства, но тогда сани не являются транспортным средством. Однако часто такая ситуация является следствием того, что понятие необходимого уровня не лексикализовано в языке. Для данного конкретного примера WordNet вводит специальное дополнительное понятие {wheeled vehicle} - колесное транспортное средство.

< Лекция 7 || Лекция 8: 123456 || Лекция 9 >