Опубликован: 02.09.2013 | Доступ: свободный | Студентов: 429 / 54 | Длительность: 19:27:00

Лекция 3: Детекторы и дескрипторы ключевых точек. Алгоритмы классификации изображений. Задача детектирования объектов на изображениях и методы её решения

< Лекция 2 || Лекция 3: 1234 || Лекция 4 >

4. Задача детектирования объектов на изображениях и методы ее решения

4.1. Постановка задачи детектирования объектов

Задача детектирования решается человеческим зрением за считанные доли секунды. Для машины же такая задача является сложной. Сложность обусловлена многими причинами, среди которых можно выделить несколько основных:

  1. Разнообразие форм и цветов представителей класса объектов. Например, в случае множества транспортных средств – это разнообразие моделей и цветов автомобилей.
  2. Перекрытие детектируемых объектов. Естественная ситуация, когда с точки зрения камеры объекты видны только частично, например, обозревается только крыша и ветровое стекло автомобиля.
  3. Разная степень освещенности объектов. В зависимости от времени суток одинаковые объекты могут выглядеть и восприниматься абсолютно по-разному.

Цель детектирования – определить наличие объекта на изображении и найти его положение в системе координат пикселей исходного изображения. Положение объекта в зависимости от выбора алгоритма детектирования может определяться координатами прямоугольника, окаймляющего объект, либо контуром этого объекта, либо координатами точек, наиболее характерных для объекта.

Решение задачи детектирования объектов позволяет анализировать качественный состав сцены, представленной на изображении, а также получить информацию о взаимном расположении объектов.

4.2. Методы решения задачи детектирования объектов

Множество всех методов решения задачи детектирования можно разделить на три основные группы:

  • Методы, которые для описания объекта используют признаки, наиболее характерные для объектов. В качестве признаков могут быть выбраны точечные особенности объекта, либо признаки, построенные для изображения, содержащего только объект.
  • Методы поиска объектов, соответствующих шаблону – некоторому описанию объектов.
  • Методы детектирования движения объектов – выделение движущихся объектов на основании нескольких изображений или кадров видео одной и той же сцены.
4.2.1. Методы, основанные на извлечении признаков

Один из возможных подходов к решению задачи детектирования состоит в том, чтобы использовать алгоритмы машинного обучения для построения моделей классов объектов и алгоритмы вывода для поиска объектов на изображении.

Построение модели состоит из двух этапов (рис.3.6):

  • Извлечение признаков, характерных для объектов класса, – построение характеристических векторов-признаков для ключевых точек объекта (углов, ребер [5] или контуров объектов [100]) или для всего объекта.
  • Тренировка модели на полученных признаках для последующего распознавания объектов.
Схема построения модели класса с использованием  методов, основанных на извлечении характерных признаков

Рис. 3.6. Схема построения модели класса с использованием методов, основанных на извлечении характерных признаков

Техники данной группы описывают объект с использованием векторов- признаков. Вектора строятся на основании цветовой информации (гистограмма ориентированных градиентов (Histogram of Oriented Gradients или HOG) – один из наиболее популярных способов). Также может быть использована контекстная информация (context based) [108, 84], а в некоторых случаях – данные о геометрии и взаимном расположении частей объекта (part-based) [39]. Тем не менее, все эти методы строят некоторую математическую модель объекта на каждом изображении тренировочной выборки, содержащем объект. Формально признак x_i – это числовая характеристика. Для каждой ключевой точки алгоритмы данной группы строят вектор признаков (x_1,x_2,...,x_n) . Таким образом, объект описывается набором векторов признаков в характерных точках. В результате тренировки строится модель, содержащая "усредненные" вектора признаков.

Алгоритм вывода (поиска) по существу включает два этапа:

  • Извлечение признаков объекта из тестового изображения. При извлечении признаков возникает две основные проблемы:
  • На изображении может быть много объектов одного класса, а необходимо найти всех представителей. Поэтому необходимо просматривать все части изображения, проходя "бегущим" окном (sliding window) от левого верхнего до правого нижнего угла. При этом размер окна определяется размером изображений тренировочной выборки.
  • Объекты на изображении могут иметь разный масштаб. Самое распространенное решение – масштабирование изображения.
  • Поиск объектов на изображении (рис.3.7). Входными данными алгоритма поиска являются формальное описание объекта – набор признаков, которые выделены из тестового изображения, – и модель класса объектов. На основании этой информации классификатор принимает решение о принадлежности объекта классу. Некоторые методы поиска также оценивают степень достоверности того, что объект принадлежит рассматриваемому классу.
Схема поиска объектов с использованием методов,   основанных на извлечении характерных признаков

Рис. 3.7. Схема поиска объектов с использованием методов, основанных на извлечении характерных признаков

Качество рассматриваемых методов в основном зависит от того, насколько хорошо выбраны признаки, т.е. насколько хорошо эти признаки дифференцируют классы объектов. Существуют специализированные методы, основанные на извлечении признаков, для детектирования лиц [114, 113, 92], транспортных средств [4] и пешеходов [26, 115, 49].

4.2.2. Методы поиска по шаблону

Детектирование объектов на основании некоторого шаблона предполагает, что имеется изображение объекта с выделенными признаками – шаблон – и тестовое изображение, которое сопоставляется этому шаблону.

Схема решения задачи детектирования объектов с  использованием методов поиска объектов по шаблону

Рис. 3.8. Схема решения задачи детектирования объектов с использованием методов поиска объектов по шаблону

Результатом такого сопоставления (matching) [105] является мера сходства (рис.3.8). Считается, что если эта мера больше некоторого порога, то тестовое изображение – это изображение объекта.

В простейшем случае в качестве шаблона может выступать изображение объекта – матрица интенсивности цветов, наиболее характерных для объекта. Более сложные методы рассматриваемой группы в качестве шаблона используют наборы векторов признаков (дескрипторы), геометрическое представление объекта [56] или вероятностные модели объектов, которые содержат информацию о распределениях интенсивностей пикселей [5].

В процессе поиска осуществляется проход "бегущим окном", имеющим размеры шаблона, по изображению и сравнение описания части исходного изображения, покрываемого окном, и шаблона. Сопоставление с шаблоном подразумевает сравнение описание тестового и шаблонного изображений по некоторой выбранной метрике [147], как правило, выбирается Евклидово расстояние, норма L_1 , взвешенная свертка квадратичных ошибок, либо корреляция [105].

Допустим, что задано шаблонное описание объекта I_0(X) в дискретном пространстве пикселей \lbrace X_i=(x_i,y_i) \rbrace. Тогда задача поиска объекта сводится к задаче минимизации суммарной ошибки. Если в качестве меры сходства использовано Евклидово расстояние, то задача может быть записана следующим образом:

E(u) = \sum_{i}{(I(X_{i}+u) - I_{0}(X_{i}))^2} = \sum_{i}{e_{i}^2} \rightarrow min,

где u – смещение шаблонного описания в системе координат исходного изображения. В конечном итоге, независимо от выбранной метрики приходим к задаче оптимизации.

Для алгоритмов, которые используют сопоставление дескрипторов ключевых точек, одним из наиболее важных является вопрос выбора порога, используемого в качестве критерия соответствия (в простейшем случае, если расстояние между дескрипторами меньше данного порога, точки считаются соответствующими). Увеличение данного порога приводит, с одной стороны, к увеличению числа найденных совпадений (true positives), с другой стороны, к увеличению числа ложных срабатываний (false positives). Уменьшение же порога наряду с ростом числа правильно продетектированных несовпадений (true negatives) ведет к росту числа правильных соответствий, которые были отброшены (false negatives). Данная зависимость графически отображается с помощью ROC- кривой [105] – по величине площади под данной кривой (AUC – area under curve) можно судить о качестве выбранного алгоритма построения соответствий между ключевыми точками на разных изображениях.

Отметим, что методы детектирования по заданному шаблону эффективно работают при поиске одиночных объектов. При возникновении перекрытий в "бегущем окне" исчезают некоторые признаки в описании. Поэтому при сопоставлении окна шаблону вводится порог, по которому отсекаются неперспективные окна – окна, заведомо не содержащие объектов.

< Лекция 2 || Лекция 3: 1234 || Лекция 4 >
Андрей Терёхин
Андрей Терёхин

Нахожу в тесте вопросы, которые в принципе не освещаются в лекции. Нужно гуглить на других ресурсах, чтобы решить тест, или же он всё же должен испытывать знания, полученные в ходе лекции?

Демянчик Иван
Демянчик Иван

В главе 14 мы видим понятие фильтра, но не могу разобраться, чем он является в теории и практике.

" Искомый объект можно описать с помощью фильтра F= \lbrace f_{x',y'},x' \in \lbrace0, ...,w_f \rbrace , y' \in \lbrace 0,...,h_f \rbrace \rbrace "