Россия, г. Москва |
Лингвистическая онтология WordNet
8.1. Описание ресурса. EuroWordNet
Лингвистический ресурс WordNet разработан в Принстонском университете США. WordNet относится к классу лексических онтологий, свободно доступен в Интернете, и на его основе были выполнены тысячи экспериментов в области информационного поиска.
WordNet версии 2.1 охватывает приблизительно 155 тысяч различных лексем и словосочетаний, организованных в 117 тысяч понятий, или совокупностей синонимов (synset); общее число пар "лексема-значение" насчитывает 200 тысяч.
Разработка тезауруса была начата в 1984 году. В 1995 году WordNet появился в Интернете в свободном доступе и вызвал всплеск исследований по его использованию в различных компьютерных приложениях автоматической обработки текстов. Результаты применения WordNet оказались не столь однозначно положительными, но WordNet открыл новую эпоху разработки сверхбольших структурированных лингвистических ресурсов, вызвал появление большого числа последователей в разных странах, создающих такие "ворднеты" для своих языков, а также стал базой для многоплановых дискуссий и исследований того, на основе каких принципов должны строиться большие лингвистические ресурсы, пригодные для разнообразных приложений в области компьютерной лингвистики.
Первоначально WordNet создавался как модель человеческой памяти. Многие решения представления описаний слов в WordNet мотивируются психолингвистическими экспериментами. Однако нужно отметить, что WordNet вызвал значительно больший интерес у компьютерных лингвистов, чем у психолингвистов.
WordNet: основные принципы
Основоположник WordNet Джордж Миллер формулирует основные гипотезы, лежащие в основе разработки WordNet, следующим образом:
- гипотеза отделимости: описание лексического компонента естественного языка может быть отделено и может изучаться отдельно;
- гипотеза "образца" (patterning hypothesis): существует такое формальное описание слов, которое может быть применено к большинству слов языка;
- гипотеза о покрытии (comprehensiveness hypothesis): для эффективного использования компьютерного словаря в приложениях автоматической обработки текстов такие словари должны быть очень большой величины.
В то время была популярной теория семантического компонентного анализа, в которой предполагалось, что значение слова, как и значение предложения, может быть представлено на основе набора семантических примитивов. Однако годы исследований не выявили лучшего набора семантических примитивов, пригодного для использования в ресурсах для обработки естественного языка.
В качестве альтернативы был выбран подход так называемой реляционной семантики, когда значения слов представляются некоторым выражением компонентов, а не на основе описания отношений между значениями разных слов.
Основным отношением в WordNet является отношение синонимии. Наборы синонимов - синсеты - основные структурные элементы WordNet.
Понятие синонимии базируется на критерии, что два выражения являются синонимичными, если замена одного из них на другое в предложении не меняет значения истинности этого высказывания.
Понятие синонимии, используемое в WordNet, не требует заменяемости синонимов во всех контекстах - по такому критерию в естественном языке было бы слишком мало синонимов. Используется значительно более слабое утверждение, что синонимы WordNet должны быть взаимозаменимы хотя бы в некотором множестве контекстов. Например, замена plank для слова board редко меняет значение истинности в контексте плотницкого дела, но существуют контексты, где такая замена не может считаться приемлемой.
Именно определение синонимии в терминах заменимости делает необходимым разделение WordNet на отдельные подструктуры по частям речи.
В состав словаря входят лексемы, относящиеся к четырем частям речи: прилагательное, существительное, глагол и наречие. Лексемы различных частей речи хранятся отдельно, и описания, соответствующие каждой части речи, имеют различную структуру.
Синсет может рассматриваться как представление лексикализованного понятия (концепта) английского языка.
Авторы считают, что синсет существительных представляет понятия существительных, глаголы выражают глагольные концепты, прилагательные - концепты прилагательных и т.п.
Кроме того, авторы считают, что такое разделение соответствует психолингвистическим экспериментам, что представление информации о прилагательных, существительных, глаголах и наречиях устроено в человеческой памяти по-разному.
Большинство синсетов снабжены толкованием, подобным толкованиям в традиционных словарях, - это толкование рассматривается как одно для всех синонимов синсета. Если слово имеет несколько значений, то оно входит в несколько различных синсетов.
Описание существительных
Между существительными в словаре установлены следующие семантические отношения:
- синонимия;
- антонимия;
- гипонимия/гиперонимия - отношение, которое иначе может быть названо ВЫШЕ-НИЖЕ, isA -отношение. Отношение транзитивно и несимметрично. Гипоним наследует все свойства гиперонима. Это отношение является центральным отношением для описания существительных;
- меронимия (отношение ЧАСТЬ-ЦЕЛОЕ ). Внутри этого отношения выделяются отношения быть_элементом и быть_сделанным_из.
WordNet: гипонимы
Основным отношением между синсетами существительных является родо-видовое отношение, при этом видовой синсет называется гипонимом, а родовой - гиперонимом. Это транзитивное иерархическое отношение, которое может быть также названо isA -отношением.
Синсет X называется гипонимом синсета Y, если носители английского языка считают нормальными предложения типа " An X is a (kind of) Y ".
Таким образом, отношения между синсетами образуют иерархическую структуру.
При построении иерархических систем на базе родо-видовых отношений обычно предполагается, что свойства вышестоящих понятий наследуются нижестоящими - так называемое свойство наследования.
Таким образом, существительные в WordNet организованы в виде иерархической системы с наследованием; были сделаны систематические усилия, чтобы для каждого синсета найти его родовое понятие, его гипероним.
При этом предполагается, что есть возможность найти различия между синонимией и гиперонимией. На практике, однако, различие не всегда очевидно.
Кроме того, если традиционные словари могут в качестве различных значений одного и того же слова включить и более широкое, и более специализированное значение, например, board (доска) в широком смысле и в более специализированном, как surfboard (доска для серфинга), при разработке WordNet предпочтение отдавалось решениям, в которых одно и то же слово не представлено и в синсете гипонима, и в синсете гиперонима.
WordNet разделяет существительные на несколько иерархий, каждая со своим начальным понятием. Всего для существительных имеется 25 синсетов верхнего уровня, такие как {act, activity} (деятельность), {animal, fauna} (животное), {artifact} (продукт труда), {food} (пища), {process} (процесс), {quantity, amount} (количество) и др.
Отношение ЧАСТЬ-ЦЕЛОЕ
Меронимия представляет собой скорее совокупность несколько отличающихся отношений, чем четкое отделяемое отношение.
В качестве первого определения меронимии, которое, однако, исключает некоторые очевидные случаи отношения ЧАСТЬ-ЦЕЛОЕ, может служить следующее положение:
X является меронимом Y тогда и только тогда, если предложения вида " Y имеет X (или Xы) " и " X - это часть Y " являются нормальными для X и Y, интерпретируемых как родовые понятия.
Сущности, такие как группы, классы и коллекции, состоят в отношении меронимии со своими элементами:
- Примеры групп: племя, команда, комитет, семья, оркестр, суд, отряд и др.
- Примеры классов: пролетариат, аристократия, буржуазия.
- Примеры коллекций: куча, лес, библиотека (как коллекция книг).
Отношение ЧАСТЬ-ЦЕЛОЕ представляет собой семейство близких отношений. Наиболее центральным типом этого отношения являются физические объекты.
- Если и ЧАСТЬ, и ЦЕЛОЕ являются неисчислимыми, то говорят об отношении ингредиентов, например: спирт - водка.
- Если ЧАСТЬ - исчислимое, а ЦЕЛОЕ - неисчислимое, то говорят об отношении ЧАСТИЦА-ВЕЩЕСТВО: песчинка - песок, снежинка - снег, капля - дождь.
- Если ЧАСТЬ - неисчислимое, а ЦЕЛОЕ - исчислимое, то это так называемое отношение МАТЕРИАЛ-ОБЪЕКТ: стекло - бокал.
В WordNet выделяются три подвида отношения ЧАСТЬ-ЦЕЛОЕ: собственно часть, быть_элементом и быть_сделанным_из, например:
- собственно часть:
- элемент:
-
homo, man, human being, human - (any living or extinct member of the family Hominidae)
- MEMBER OF: genus Homo - (type genus of the family Hominidae)
-
homo, man, human being, human - (any living or extinct member of the family Hominidae)
- вещество:
Для частей характерно, что у многих разных сущностей части могут называться одинаково, например, point (острие) может быть у стрелы, ножа, иголки, карандаша, булавки и т.п. В таких случаях описываются все такие холонимы, например,
- собственно часть:
-
point - (sharp end; "he stuck the point of the knife into a tree"; "he broke the point of his pencil")
- PART OF: awl - (a pointed tool for marking surfaces or for punching small holes)
- PART OF: icepick, ice pick - (pick consisting of a steel rod with a sharp point; used for breaking up blocks of ice)
- PART OF: knife - (edge tool used as a cutting instrument; has a pointed blade with a sharp edge and a handle)
- PART OF: needle - (a sharp pointed implement (usually steel))
- PART OF: pencil - (a thin cylindrical pointed writing implement; a rod of marking substance encased in wood)
- PART OF: pin - (a small slender (often pointed) piece of wood or metal used to support or fasten or attach things)
-
point - (sharp end; "he stuck the point of the knife into a tree"; "he broke the point of his pencil")
Авторы подчеркивают, что одной из проблем описания отношений меронимии является то, что части описываются несколько выше, чем это необходимо. Например, часто утверждается, что колесо - это часть транспортного средства, но тогда сани не являются транспортным средством. Однако часто такая ситуация является следствием того, что понятие необходимого уровня не лексикализовано в языке. Для данного конкретного примера WordNet вводит специальное дополнительное понятие {wheeled vehicle} - колесное транспортное средство.