Информационно-поисковые тезаурусы и автоматическая обработка текстов
10.3. Технология автоматической рубрикации текстов с использованием тезауруса для автоматического концептуального индексирования
Задачей систем автоматического рубрицирования является разбиение поступающего потока текстов на тематические подпотоки в соответствии с заранее заданными рубриками.
Дадим некоторые определения.
Под рубрикатором понимается классификационная таблица иерархической классификации, содержащая полный перечень включенных в систему классов и предназначенная для систематизации информационных фондов, массивов и изданий, а также для поиска в них (ГОСТ 7.74-96).
Предметная рубрика - элемент информационно-поискового языка, представляющий собой краткую формулировку темы на естественном языке.
Адекватная предметная рубрика - предметная рубрика, формулировка которой выражает объем понятия, наиболее точно соответствующего объему понятия о предмете документа.
- каждый документ предметной области должен иметь соответствующую предметную рубрику;
- не должно быть рубрик, которым соответствует относительно малое количество документов;
- рубрики по возможности должны быть четко отделены друг от друга. Для близких по содержанию рубрик лучше иметь краткие комментарии и четко различать, в каких случаях проставлять одну из рубрик, в каких случаях - обе рубрики.
Критерии оценки качества рубрицирования
Для оценки эффективности работы систем рубрицирования используются такие характеристики, как точность и полнота.
Точность (precision) - это отношение , где - количество текстов, правильно отнесенных системой к некоторой рубрике, а - общее количество текстов, отнесенных системой к этой рубрике.
Полнота (recall) - это отношение , где - количество текстов, правильно отнесенных системой к некоторой рубрике, а - общее количество текстов, которые должны быть отнесены к этой рубрике.
Проблемы ручного рубрицирования
Характерными особенностями ручного рубрицирования являются:
- высокая точность рубрицирования.
Обычно процент документов, в которых проставлена явно неправильная рубрика, чрезвычайно мал;
- низкая полнота рубрицирования.
Обычно специалисты по рубрикации проставляют одну-две основных рубрики, характеризующие основное содержание документа, хотя документ может быть отнесен и к ряду других рубрик. В результате получается, что при сравнении результатов рубрикации разными экспертами одних и тех же документов процент совпадения проставленных рубрик может оказаться весьма низким - 60%. Это приводит к тому, что похожие документы могут получить достаточно разные наборы рубрик. Такая ситуация усугубляется при увеличении величины и иерархической сложности рубрикатора. Непоследовательность ручного рубрицирования становится серьезной проблемой для настройки разного типа систем автоматического рубрицирования, поскольку затрудняется построение формальных правил отнесения документов к той или иной рубрике;
- низкая скорость обработки документов.
Методы автоматической рубрикации
Наиболее эффективными, но и наиболее трудозатратными являются методы автоматического рубрицирования, основанные на знаниях. При рубрицировании текстов на основе знаний используются заранее сформированные базы знаний, в которых описываются языковые выражения, соответствующие той или иной рубрике, правила выбора между рубриками и др.
Другим классом методов для автоматической рубрикации текстов являются методы машинного обучения, которые в качестве обучающих примеров используют заранее отрубрицированные вручную тексты.
Приводятся очень высокие оценки результатов работы методов машинного обучения, время обучения составляет доли секунд. Однако при ближайшем рассмотрении оказывается, что практически все такие методы тестируются на одной и той же текстовой коллекции - это коллекция финансовых сообщений информационного агентства Рейтер, которая была специально создана несколько лет назад для тестирования методов автоматической рубрикации текстов.
Эта коллекция характеризуется следующими основными чертами:
- рубрикатор, включающий 135 рубрик, относительно прост, без иерархии;
- небольшие по величине тексты принадлежат достаточно узкой области финансовых известий;
- для обучения представляется более 15 тысяч отрубрицированных документов;
- подавляющее большинство документов относится к приблизительно 20 рубрикам рубрикатора.
Все эти особенности коллекции значительно упрощают решение задачи машинного обучения автоматической рубрикации текстов.
Проблемы автоматического рубрицирования
Проблемы автоматического рубрицирования связаны со следующими обстоятельствами:
- для автоматической рубрикации нужно сначала так или иначе создать образ рубрики как некоторое выражение на основе слов и (или) терминов реальных текстов. Это может быть сделано на основе экспертного описания рубрики или методов машинного обучения по уже отрубрицированным коллекцям;
- при автоматической обработке конкретных текстов могут возникнуть достаточно серьезные проблемы анализа языкового материала, контекста употребления того или иного слова, требующие привлечения обширных знаний о языке и предметной области, которые очень трудно описать в действующих программных системах автоматической рубрикации.
Типы ошибок автоматического рубрицирования
- Появление "лишних рубрик" - то есть в процессе автоматического рубрицирования документ был отнесен к ошибочной рубрике, не соответствующей содержимому документа. Причины этого могут быть разные:
- Содержание рубрики сложнее, чем это выглядит по формулировке.
Например, если рубрика в рубрикаторе новостей называется "Выборы", то обычно не считается правильным, если к этой рубрике будет отнесен текст о выборах президента UEFA.
- Лексическая многозначность.
Текст отнесен не к той рубрике из-за того, что некоторые слова, сопоставленные рубрике, в конкретном тексте употреблены в другом значении - таком, которое не соответствует данной рубрике.
- Ложная корреляция.
Ложная корреляция может возникнуть в случаях, когда для отнесения текста к рубрике необходимо присутствие в тексте двух логических элементов. Например, для рубрицирования по рубрике "Экономические реформы" необходимо присутствие в тексте двух тематических элементов - темы экономики и темы реформы. Ложная корреляция и, соответственно, неправильное отнесение текста к данной рубрике возникает в тех случаях, когда такие тематические элементы присутствуют в тексте, но не имеют отношения друг к другу, например, такая ситуация может произойти, если в тексте речь шла о судебной реформе и были упомянуты некоторые экономические вопросы.
- Рубрикация по несущественному элементу.
Текст отнесен к рубрике по слову или словосочетанию, которое по сути соответствует содержанию рубрики, но в данном тексте это опорное слово или словосочетание употреблено случайно или в каком-то специфическом контексте, из-за чего текст становится нерелевантным рубрике.
Например, текст может быть отнесен к рубрике "Средства массовой информации" на основе следующего фрагмента: Около 40 человек умерли во Франции в результате установившейся в стране жары: Правительство и средства массовой информации следят за ситуацией:"
- Содержание рубрики сложнее, чем это выглядит по формулировке.
- Пропуск правильных рубрик - то есть в процессе автоматического рубрицирования документ не был отнесен к какой-либо из рубрик, которая на самом деле имеет отношение к содержимому документа. Причины тоже могут быть разные:
- Нехватка базы описания рубрики.
Правильная рубрика не определена, поскольку в тексте упомянуты слова, не описанные в словаре системы рубрицирования.
- Лексическая многозначность.
Может стать причиной потери правильной рубрики для рубрикации.
- Слишком сложная структура документа.
Может привести к пропуску правильной рубрики при автоматической рубрикации, например, если в состав документа входит заголовок и большая таблица, при этом все информация для правильного отнесения текста к рубрике содержится только в заголовке.
- Нехватка базы описания рубрики.