Нахожу в тесте вопросы, которые в принципе не освещаются в лекции. Нужно гуглить на других ресурсах, чтобы решить тест, или же он всё же должен испытывать знания, полученные в ходе лекции? |
Самостоятельная работа 7: Оптимизация и распараллеливание вычислений в задаче детектирования объектов на изображениях с использованием алгоритма Latent SVM
3. Математическая постановка задачи детектирования объектов с n частями
3.1. Построение оценочной функции положения объекта
Пусть дано изображение l. Изображение представляется в виде матрицы пикселей. Каждый элемент матрицы состоит из трех компонент. Компоненты соответствуют интенсивностям цвета (RGB) в точке. Всего в изображении w элементов по горизонтали и h элементов по вертикали. В качестве входных данных для алгоритма выступает матрица, показанная на рис. 14.1.
Математической моделью изображения является карта признаков (свойств) . Фактически карта признаков представляет матрицу вещественных чисел, полученных в результате вычисления некоторой функции от интенсивностей текущего и набора окрестных пикселей.
Рассмотрим ситуацию, когда имеется изображение, по которому построена
карта свойств , и имеется объект для поиска. Искомый объект можно
описать с помощью фильтра
, где
и
– размеры фильтра изображения (рис. 14.2). Фильтр определяет набор
признаков, наиболее характерных для объекта заданного класса.
Для оценки наличия объекта в конкретной области применяется следующая свертка:
![]() |
( 1) |
где
.
Чем больше , тем больше вероятность того, что искомый объект
находится в точке
.
Теперь предположим, что объект состоит из n частей. Введем обозначения:
-
– грубый фильтр (фильтр для всего объекта),
-
– фильтр для i-ой части объекта (точный фильтр). Заметим, что положение точного фильтра задается относительно грубого.
В этом случае оценочную функцию можно записать следующим образом:
![]() |
( 2) |
где
и
– положение фильтра
в глобальных координатах
изображения, а
– размеры точного
фильтра с номером i
(2) позволяет найти на изображении объект фиксированного размера. Если
объект имеет размеры, отличные от эталонного, то в этом случае, объект не
будет найден. Для решения данной проблемы строят пирамиду
признаков H . Пирамида признаков содержит несколько уровней, на
каждом из которых находится карта свойств изображения, полученного в
результате уменьшения или увеличения исходной картинки. На уровне
находится карта свойств исходного изображения, а на 0-ом уровне – карта
свойств изображения, которое увеличено в два раза.
Далее предполагается, что фильтр может быть расположен на любом
уровне пирамиды признаков. Как следствие, чтобы определить положение
фильтра в исходном изображении и его масштаб, необходимо знать номер
уровня и положение левого верхнего угла фильтра на уровне. Пусть
– положение фильтра
на уровне
в пирамиде признаков H.
Введем функцию , которая получается из пирамиды признаков H и
координат положения
конкретное свойство изображения, путем
вычисления глобальных координат x и y фильтра
на слое l. Тогда
оценочную функцию можно записать следующим образом:
![]() |
( 3) |
До настоящего момента в построенной модели все части изображения
были никак не связаны и могли располагаться в любой части входной
картинки. Для реального объекта это не так (например, руки человека не
могут быть удалены бесконечно далеко от туловища). Пусть заданы
модели частей объекта , где
– идеальное расположение
его части, а
– коэффициенты квадратичной функции штрафа
, которая вносит вклад в значение оценочной
функции в случае чрезмерного удаления части от самого объекта. Тогда
модель для объекта с n частями формально определяется множеством
параметров (4).
![]() |
( 4) |
где параметр определяет соответствие коэффициентов между моделями. Таким образом, оценочная функция имеет вид (5).
![]() |
( 5) |
где первое слагаемое – результат применения фильтров к исходному
изображению (значения сверток грубого и точных фильтров с конкретной
матрицей признаков), второе слагаемое – штраф за счет деформации
взаимного расположения частей, b – параметр соответствия
коэффициентов между моделями, а – вектор с компонентами
. В результате оценочную функцию можно записать в свернутом виде (6),
если ввести дополнительные обозначения.
![]() |
( 6) |
где

3.2. Поиск частично видимых объектов
Предположим, что имеется модель для объекта с
частями Построена пирамида признаков для исходного изображения.
Для определения положения частично видимых объектов при вычислении
сверток каждую матрицу признаков в пирамиде необходимо дополнить
нулевыми границами. Размер границы определяется максимальными
размерами фильтров по каждому измерению согласно формулам (7).
![]() |
( 7) |
где .
При вычислении сверток с грубым фильтром матрица признаков дополняется нулевой границей, размер которой определяется в соответствии с приведенными формулами, с точными фильтрами данная граница должна быть удвоена.