Московский государственный университет имени М.В.Ломоносова
Опубликован: 05.11.2008 | Доступ: свободный | Студентов: 1319 / 246 | Оценка: 4.32 / 4.15 | Длительность: 11:59:00
ISBN: 978-5-9963-0007-5
Специальности: Программист
Лекция 8:

Лингвистическая онтология WordNet

< Лекция 7 || Лекция 8: 123456 || Лекция 9 >

EuroWordNet

Ресурс WordNet, разработанный для английского языка, вызвал в мире огромный интерес к разработке такого рода ресурсов для десятков других языков.

Создание ворднетов для разных языков в рамках проекта EuroWordNet включает два этапа. На первом этапе (1996-1999) ворднеты создавались для голландского, испанского и итальянского языков. На втором - для французского, чешского, немецкого и эстонского языков.

В проекте стоял серьезный выбор: нужно ли стремиться к разработке языково-независимой структуры, с которой необходимо сопоставить единицы каждого языка, или, может быть, нужно иметь единую систему синсетов - новая единица в иерархической сети может быть включена, если хотя бы один язык из рассматриваемых имеет лексему или устойчивый оборот с таким значением.

По принятому в проекте решению каждый ворднет должен сохранять специфику своего языка. При этом каждый ворднет должен содержать отсылки на значения английского ворднета, что позволяет сравнивать ворднеты, обнаруживать непоследовательности в их построении и видеть различия в устройстве языковых систем.

Одновременно в рамках проекта была создана небольшая онтология верхнего уровня, к которой должен быть приписан каждый создаваемый ворднет.

Авторы проекта EuroWordNet подчеркивают различие между ресурсом класса wordnet как лингвистическими онтологиями и формальными онтологиями. Лингвистическая онтология должна отражать отношения между лексикализованными словами и выражениями языка, например, описывать, какие слова могут использоваться, чтобы заменить в тексте слово spoon (ложка) - object, tableware, silverware, merchandise, cutlery.

Таким образом, ворднеты - это сеть языково-специфичных лексикализованных единиц (в отличие от формальных онтологий, которые представляют собой структуру данных с формально определенными понятиями).

Основные предполагаемые применения ворднетов - это предсказание той или иной возможной замены лексических единиц в тексте для целей информационного поиска, генерации текстов, машинного перевода, разрешения лексической многозначности.

Учитывая сложности, которые возникали при применении ворднетов в приложениях, европейские разработчики предложили ряд существенных нововведений в структуре создаваемых ворднетов. Большой класс этих изменений касается описания отношений между синсетами, которые можно разделить на следующие группы:

  • приписывание дополнительных атрибутов к существующим отношениям;
  • введение отношений между различными частями речи;
  • введение дополнительных отношений между словами (синсетами) одной части речи.

Индекс ILI

Для того чтобы установить связи между различными языками, в проекте EuroWordNet синсеты каждого ворднета имеют отсылку на так называемый межязыковой индекс (interlingual index), в качестве которого выбираются синсеты Принстонского WordNet.

Архитектура базы данных EuroWordNet

Рис. 8.1. Архитектура базы данных EuroWordNet

Онтология верхнего уровня в EuroWordNet

Онтология верхнего уровня EuroWordNet состоит из 63 признаков, которые могут комбинироваться. Назначение онтологии - служить единым описанием понятий верхнего уровня для ворднетов.

Все сущности делятся на три класса: сущности 1-го порядка, 2-го порядка и 3-го порядка.

  1. Конкретные синсеты характеризуются как сущности 1-го порядка и могут описываться 4 ролями теории порождающего лексикона Дж. Пустейовского: происхождение, форма, состав и функция. Например, vehicle (транспортное средство) описывается следующими признаками: артефакт (происхождение) + объект (форма) + транспортное средство (функция).
  2. События, действия, отношения принадлежат к сущностям 2-го порядка, которые характеризуются по типу ситуации: динамические или статические, а также могут определяться одним или более ситуационными компонентами: причина, ментальный, физический, расположение, цель и др. Каждая сущность 2-го порядка имеет один тип ситуации и один или более ситуационных компонентов. Например, change location характеризуется как динамический + расположение + агентивный (причина) + физический.
  3. Сущности 3-го порядка представляют собой ненаблюдаемые сущности, которые существуют вне пространства и времени. Они могут скорее истинными или ложными, чем реальными. Они могут утверждаться, отрицаться, запомниться или забыться. Примеры: идея, мысль, теория, план.

Контрольные вопросы

  1. Как называются элементарные структурные единицы WordNet?
  2. Перечислите основные отношения в WordNet.
  3. Какими средствами в WordNet представляются глаголы?
< Лекция 7 || Лекция 8: 123456 || Лекция 9 >