Россия, г. Москва |
Лингвистическая онтология WordNet
EuroWordNet
Ресурс WordNet, разработанный для английского языка, вызвал в мире огромный интерес к разработке такого рода ресурсов для десятков других языков.
Создание ворднетов для разных языков в рамках проекта EuroWordNet включает два этапа. На первом этапе (1996-1999) ворднеты создавались для голландского, испанского и итальянского языков. На втором - для французского, чешского, немецкого и эстонского языков.
В проекте стоял серьезный выбор: нужно ли стремиться к разработке языково-независимой структуры, с которой необходимо сопоставить единицы каждого языка, или, может быть, нужно иметь единую систему синсетов - новая единица в иерархической сети может быть включена, если хотя бы один язык из рассматриваемых имеет лексему или устойчивый оборот с таким значением.
По принятому в проекте решению каждый ворднет должен сохранять специфику своего языка. При этом каждый ворднет должен содержать отсылки на значения английского ворднета, что позволяет сравнивать ворднеты, обнаруживать непоследовательности в их построении и видеть различия в устройстве языковых систем.
Одновременно в рамках проекта была создана небольшая онтология верхнего уровня, к которой должен быть приписан каждый создаваемый ворднет.
Авторы проекта EuroWordNet подчеркивают различие между ресурсом класса wordnet как лингвистическими онтологиями и формальными онтологиями. Лингвистическая онтология должна отражать отношения между лексикализованными словами и выражениями языка, например, описывать, какие слова могут использоваться, чтобы заменить в тексте слово spoon (ложка) - object, tableware, silverware, merchandise, cutlery.
Таким образом, ворднеты - это сеть языково-специфичных лексикализованных единиц (в отличие от формальных онтологий, которые представляют собой структуру данных с формально определенными понятиями).
Основные предполагаемые применения ворднетов - это предсказание той или иной возможной замены лексических единиц в тексте для целей информационного поиска, генерации текстов, машинного перевода, разрешения лексической многозначности.
Учитывая сложности, которые возникали при применении ворднетов в приложениях, европейские разработчики предложили ряд существенных нововведений в структуре создаваемых ворднетов. Большой класс этих изменений касается описания отношений между синсетами, которые можно разделить на следующие группы:
- приписывание дополнительных атрибутов к существующим отношениям;
- введение отношений между различными частями речи;
- введение дополнительных отношений между словами (синсетами) одной части речи.
Индекс ILI
Для того чтобы установить связи между различными языками, в проекте EuroWordNet синсеты каждого ворднета имеют отсылку на так называемый межязыковой индекс (interlingual index), в качестве которого выбираются синсеты Принстонского WordNet.
Онтология верхнего уровня в EuroWordNet
Онтология верхнего уровня EuroWordNet состоит из 63 признаков, которые могут комбинироваться. Назначение онтологии - служить единым описанием понятий верхнего уровня для ворднетов.
Все сущности делятся на три класса: сущности 1-го порядка, 2-го порядка и 3-го порядка.
- Конкретные синсеты характеризуются как сущности 1-го порядка и могут описываться 4 ролями теории порождающего лексикона Дж. Пустейовского: происхождение, форма, состав и функция. Например, vehicle (транспортное средство) описывается следующими признаками: артефакт (происхождение) + объект (форма) + транспортное средство (функция).
- События, действия, отношения принадлежат к сущностям 2-го порядка, которые характеризуются по типу ситуации: динамические или статические, а также могут определяться одним или более ситуационными компонентами: причина, ментальный, физический, расположение, цель и др. Каждая сущность 2-го порядка имеет один тип ситуации и один или более ситуационных компонентов. Например, change location характеризуется как динамический + расположение + агентивный (причина) + физический.
- Сущности 3-го порядка представляют собой ненаблюдаемые сущности, которые существуют вне пространства и времени. Они могут скорее истинными или ложными, чем реальными. Они могут утверждаться, отрицаться, запомниться или забыться. Примеры: идея, мысль, теория, план.
Контрольные вопросы
- Как называются элементарные структурные единицы WordNet?
- Перечислите основные отношения в WordNet.
- Какими средствами в WordNet представляются глаголы?