Опубликован: 14.12.2009 | Уровень: специалист | Доступ: свободно

Лекция 7: Принципы целостного целенаправленного распознавания и их реализация в программах компании ABBYY FineReader-рукопись и FormReader

< Лекция 6 || Лекция 7: 12 || Лекция 8 >
Аннотация: В данной лекции рассматривается модель восприятия "с пониманием" на основе принципов целостности и целенаправленности.

Задача

Частным случаем задачи машинного зрительного восприятия сложных изображений является автоматическое чтение рукописных и печатных текстов.

Практическое значение этой задачи определяется необходимостью представления, хранения и использования в электронном виде чрезвычайно большого количества накопленной и вновь создающейся текстовой информации. Кроме того, большое значение имеет оперативный ввод в информационные и управляющие системы информации с машиночитаемых бланков, содержащих как напечатанные, так и рукописные тексты, например, ввод банковских платежных документов, бланков заказов, налоговых деклараций, анкет и т. п. Практическое значение имеют и многочисленные другие задачи автоматического анализа изображений.

В разработанных компанией ABBYY системах FineReader -рукопись и FormReader при распознавании рукописных текстов используются структурный, растровый, признаковый, дифференциальный и лингвистический уровни. Основным является структурный уровень.

Общие принципы

Главный принцип, положенный в основу построения структурного уровня, - это принцип целостности. В соответствии с этим принципом распознаваемый объект рассматривается как целое, состоящее из структурных частей, связанных между собой пространственными отношениями. Фрагмент изображения интерпретируется как конкретный целостный объект, в нашем случае - рукописный символ, если на изображении присутствуют все структурные части этого объекта и эти части находятся в определяемых структурно-метрическим описанием объекта отношениях. С другой стороны, части распознаваемого объекта получают интерпретацию только в составе объединяющего их целого. Распознаваемый объект (целое) сначала присутствует в виде гипотезы, и это позволяет целенаправленно выделять на изображении и интерпретировать образующие его структурные части.

Гипотезы формируются следующим образом. Признаковый и нормируемый растровый уровень порождают список гипотез, упорядоченный по вероятности их подтверждения. В формировании списка проверяемых гипотез участвуют не только растровые эталоны и выделяемые на изображении локальные признаки, но и текущий результат распознавания, а также информация из моделей, определяемых проблемной средой, то есть информация из внешней задачи.

Требования к признаковому и растровому уровням на этом этапе состоят лишь в том, что истинная гипотеза должна присутствовать в формируемом списке и находиться в нем максимально близко к началу. Кроме того, при сильно нарушенной структуре символа результату, полученному на структурном уровне, может соответствовать низкая уверенность или отказ от распознавания. В этом случае предварительным результатом распознавания является упорядоченный список гипотез, полученных на признаковом и растровом уровнях.

Процесс

Проверка на структурном уровне выдвинутых гипотез сводится к целенаправленному поиску непосредственно на входном изображении совокупности элементов, удовлетворяющих структурному описанию (модели) данного класса распознаваемых объектов. При этом процесс проверки гипотез характеризуется следующими особенностями.

Сегментация изображения на отдельные элементы, а также интерпретация этих элементов должны осуществляться непосредственно в ходе распознавания (этапы предварительной сегментации и описания отсутствуют) и проводятся исключительно в рамках целостного образования - проверяемой гипотезы.

Сегментация изображения и интерпретация получаемых элементов осуществляется целенаправленно и управляется проверяемой гипотезой и текущим результатом, причем все результаты интерпретируются совместно.

После окончания проверки очередной гипотезы все полученные в ходе ее проверки результаты, связанные с выделением структурных элементов, аннулируются, поскольку они имеют смысл только по отношению к этой гипотезе. Одновременно с проверкой гипотезы вычисляется интегральная оценка качества ее подтверждения.

В полной схеме автоматического зрительного восприятия, ориентированного на анализ сложных изображений, процессы "снизу вверх" и "сверху вниз" должны разворачиваться в диапазоне от исходного непрепарированного изображения до наиболее высокого уровня, отражающего полную информацию о проблемной среде и семантике решаемой задачи. В описываемых программах этот диапазон несколько сужен снизу и значительно - сверху.

Нижним уровнем структурного анализа в программах чтения рукописных символов являются линии изображения, аппроксимированные отрезками прямых. Верхний уровень - это чаще всего достаточно ограниченная информация о простых семантических конструкциях внешней задачи, а также лингвистическая информация (словарь). Информация из внешней задачи в наибольшей степени используется при распознавании и вводе форм, например, таких как анкеты, налоговые декларации или банковские платежные документы.

Модель

Структурные описания задают обобщенные метрические характеристики структурных частей объекта и пространственные отношения между ними. Очень приближенно, без какой-либо математической нагрузки, структурное описание можно интерпретировать как ориентированный, раскрашенный, мультисвязный граф с петлями.

Целостное, структурное описание объекта (знака) состоит из обобщенных описаний структурных частей объекта и обобщенных пространственных отношений между ними. Обычно разделяют обобщения и укрупнения как что-то независимое, при этом в проблематике ИИ чаще рассматриваются обобщения (индукция-дедукция). Укрупнения, т. е. взаимодействия между частями и целым (анализ-синтез), рассматриваются реже.

В рассматриваемой системе описание знака является укрупнением, поскольку связывает в единое целое образующие его части. В то же время описание знака является обобщением, соответствующим не отдельному объекту, а всем объектам данного класса, поскольку описание определяет не конкретные значения, а некоторую многомерную область допустимых значений характеристик частей и отношений между ними.

Назовем метрические характеристики структурных элементов и отношения между ними структурными параметрами. Описания разных классов изображений независимы и в общем случае имеют разное число и состав структурных параметров. Тем не менее интегральные оценки качества подтверждения разных гипотез должны быть сопоставимы. Сопоставимость достигается тем, что оценки подтверждения гипотез имеют общий физический смысл.

Пусть некоторому классу изображений соответствуют структурные параметры (x_1,x_2,\ldots,\ldots x_n). Конкретное изображение класса отображается точкой в n-мерной системе координат:

X(x_1,x_2,\ldots x_n)

Для всех параметров известны "идеальные" и предельно допустимые значения. Если определить параметры оценки изображения х_i как разность между текущим и идеальным значением, то все х_i \ge 0.

Входящие в описания класса параметры независимы. Это не является, как может показаться, недостатком описаний, поскольку в их состав могут входить любые отношения между параметрами, в том числе и отношения между отношениями.

С учетом введенных ограничений, так же как мы уже делали ранее, граница области допустимых значений параметров класса D задается выпуклой поверхностью F(X)=0. Назовем х_i\mах разность между максимальным и идеальным значением i -ro параметра. Поскольку все предельно допустимые и идеальные значения параметров i независимы и известны, область D - это n -мерный параллелепипед, и уравнение границы области допустимых значений параметров:

F(X)=\prod_i(x_i \max-x_i)=0\:\:\:\:\:или\:\:\:\:\prod_i(1-x_i/x_i\max)=0.

Конкретное изображение отображается в пространстве \{X\} точкой X(x_1,x_2,\ldots x_n).

Качество изображения тем выше, чем ближе эта точка к началу координат и, соответственно, дальше от границы области допустимых значений D.

Так же как в модели поведения, введем оценочную функцию:

Z(X)=F(0)-F(X).

И с учетом уравнения границы области допустимых значений параметров:

Z(X)=1-\prod_i(1-x_i/x_i \max).

Поскольку функция F(x) выпукла, функция Z(x) монотонна.

При X =0, т. е. когда все параметры изображения идеальны, функция Z(x)=0. В любой точке границы области допустимых значений параметров функция принимает максимальное значение Z(x) = 1.

Величина, оценивающая качество изображения как представителя конкретного класса:

W=1-Z(x)=\prod_i(1-x_i/x_i \max).

Эта же величина является интегральной оценкой качества подтверждения гипотезы.

Интегральная оценка используется для принятия решения на структурном уровне в том случае, когда изображение допускает неоднозначную структурную интерпретацию. Кроме того, неоднозначность может сниматься парными дифференциальными классификаторами, которые строятся для путающихся пар, а также лингвистическим уровнем (словарь) или контекстом, идущим от внешней задачи.

Используемые при подтверждении гипотез структурные описания должны быть отображаемыми в объекты своего класса и только в объекты своего класса. Принципиальная отображаемость является необходимым критерием целостности. С помощью отображения описаний, то есть получения изображений для точек

X(x_1,x_2,\ldots x_n) лежащих вблизи границы области допустимых значений параметров, разработчик мог бы визуально контролировать качество созданных им описаний.

Построение и отладка структурных описаний - это трудоемкий процесс, не поддающийся пока автоматизации. Также не удается для общего случая создать алгоритмы построения изображений по их структурным описаниям. Обе названные проблемы сродни общим проблемам описания функциональных взаимодействий между частями и целым.

Особенностью системы FineReader -рукопись является то, что в ней нет фиксированного набора отношений, а используется "конструктор", позволяющий в процессе создания описаний строить практически любые отношения, и создан аппарат, дающий возможность работать с любыми отношениями.

< Лекция 6 || Лекция 7: 12 || Лекция 8 >
Владислав Нагорный
Владислав Нагорный

Подскажите, пожалуйста, планируете ли вы возобновление программ высшего образования? Если да, есть ли какие-то примерные сроки?

Спасибо!

Лариса Парфенова
Лариса Парфенова

1) Можно ли экстерном получить второе высшее образование "Программная инженерия" ?

2) Трудоустраиваете ли Вы выпускников?

3) Можно ли с Вашим дипломом поступить в аспирантуру?