При прохождении теста 1 в нем оказались вопросы, который во-первых в 1 лекции не рассматривались, во-вторых, оказалось, что вопрос был рассмаотрен в самостоятельно работе №2. Это значит, что их нужно выполнить перед прохождением теста? или это ошибка? |
Основные цветовые модели, представление изображения, базовые операции над изображениями
Обработка и анализ полутоновых изображений
Так же как и в случае бинарных изображений, работу с полутоновыми изображениями можно разделить на задачи фильтрации (удаление шумов, повышение чёткости, осветление тёмных участков) и задачи анализа (расчёт градиентов, поиск особых точек и границ объектов).
В процессе создания систем компьютерного зрения фильтрация изображения обычно предшествует извлечению более высокоуровневой информации о сцене, поэтому рассмотрим сначала методы фильтрации.
Линейная фильтрация является, пожалуй, самым часто применяемым методом обработки изображения из-за простоты реализации и скорости работы. Линейная фильтрация осуществляется с помощью дискретной свёртки изображения с заданным фильтром (ядро свёртки). Эту операцию можно представить формулой:
где – исходное изображение, – выходное изображение, – заданный фильтр, представленный изображением размером на .
Рассмотрим различные фильтры:
-
Фильтр
не изменяет изображения.
-
Фильтр
равномерно сглаживает изображение.
-
Фильтр
0.003 0.013 0.022 0.013 0.003 0.013 0.059 0.097 0.059 0.013 0.022 0.097 0.159 0.097 0.022 0.013 0.059 0.097 0.059 0.013 0.003 0.013 0.022 0.013 0.003 осуществляет фильтрацию по Гауссу.
Следует отметить, что для подсчёта дискретной свёртки на границе изображения можно, например, экстраполировать граничные пикселы за пределы изображения.
Фильтр
в противоположность фильтрам 2 и 3 не размывает, а делает изображение более чётким, потому что, как видно из конструкции фильтра, в однородных частях изображение не изменяется, а в местах изменения яркости это изменение усиливается.
Рассмотрим ещё один пример фильтра, на этот раз нелинейного, который повышает чёткость изображения, например, в случае неправильно выбранного фокуса при съёмке. Фильтрация осуществляется следующим образом:
Шаг 1: Из исходного изображения вычитается отфильтрованное с помощью гауссовского фильтра
– пиксель исходного изображения, * - операция свёртки, – пиксель отфильтрованного изображения.
Шаг 2: Модуль изображения, полученного на шаге 1, сравнивается с некоторым порогом (параметр алгоритма) и, если он меньше порога (пиксель находится в однородной области), то изображение не изменяется, а если больше порога (это соответствует области изменения яркости), то изменение яркости усиливается путём добавления к значению яркости – параметр алгоритма (чем он больше, тем контрастнее становятся границы объектов).
Другой пример нелинейного фильтра – это медианная фильтрация. Медианой набора чисел является число из набора, не меньшее половины чисел набора и не большее другой половины чисел набора. Для каждого пиксела изображения рассматривается его окрестность и вычисляется медиана яркостей пикселов из этой окрестности, значение которой и сохраняется в выходном изображении. Размер окна фильтрации задаётся пользователем (обычно это окна 3x3 или 5x5).
Следует отметить, что медианная фильтрация лучше сохраняет границы изображённых объектов, чем линейная фильтрация, но является более ресурсоёмкой по сравнению с линейной фильтрацией из-за необходимости осуществления операции сортировки.
Линейные фильтры можно также применять для выделения границ объектов. Рассмотрим фильтр Собеля:
Видим, что он даст максимальное значение, когда справа от текущего пиксела лежит светлый объект, а слева тёмный (в идеале чёрный с нулевой яркостью). То есть фильтр по сути является разностной схемой для вычисления производной функции интенсивности по x. При этом соседние строчки принимаются во внимание для того, чтобы уменьшить влияние шума при вычислении производной.
Фильтр Собеля размером 3x3 для вычисления производной по y имеет вид:
Для вычисления Лапласиана используется следующий фильтр:
Зная градиенты функции интенсивности и лапласиан, мы можем найти границы объектов, определяя их как точки с высокой нормой градиента (интенсивность резко изменяется на границе объекта) и нулевой второй производной (лапласиан = 0).
Пример нахождения границ объектов
Существуют и другие методы нахождения границ объектов на изображении. Пожалуй, наиболее популярным является метод Канни [4], реализацию которого можно найти в библиотеке OpenCV.
Кроме границ объектов в системах компьютерного зрения часто используются так называемые угловые точки, которые особенно важны для решения задачи слежения за объектом поскольку обладают свойством уникальности в некоторой окрестности.
Угловая точка на изображении определяется как точка, некоторая окрестность которой не похожа на окрестности, полученные сдвигом этой точки в любом направлении. На рисунке ниже проиллюстрировано, что в однородной области нет изменений в окрестности точки в любом направлении, если точка на ребре, то нет изменений вдоль ребра, если точка угловая, то сдвиг окрестности точки в любом направлении повлечёт изменение.
Математически меру схожести окрестностей можно выразить формулой
где – сдвиг окрестности, и - координаты пиксела в окрестности.
Рассмотрим метод представленный в работе [5] для определения положения угловых точек, который реализован в библиотеке OpenCV.
Считая, что и малы можно записать
Тогда
или
где
в угловых скобках записаны суммы квадратов производных и произведение частных производных.
Известно, что если матрица А имеет большие собственные числа, то квадратичная функция S изменяется во всех направлениях, то есть удовлетворяет условию угловой точки.
Таким образом, алгоритм имеет следующий вид:
Для каждого пиксела вычисляется минимальное собственное число матрицы A
Находятся локальные максимумы в карте минимальных собственных чисел матрицы А, анализируя окрестность 3 на 3.
Если величина найденного локального максимума превышает заданный порог, то координата этой точки записывается в выходной массив угловых точек.
Часто из-за ошибок экспозиции или из-за погрешностей в освещении изображение получается малоконтрастным. Рассмотрим алгоритм улучшения контраста, основанный на нахождении минимального и максимального значений яркости на изображении. Пусть max – максимальное значение яркости, а min – минимальное. Тогда новое значение пиксела можно записать
– старое значение пиксела. Применяя данное преобразование ко всем пикселам изображения, контраст повысится, так как минимальная яркость будет 0, максимальная 255, а остальные значения линейно масштабируются. Ниже изображено исходное изображение и результирующее изображение с повышенным контрастом.
Другой популярный алгоритм повышения контраста – это эквализация гистограммы. Он состоит из следующих шагов:
- Вычисляется гистограмма H для исходного изображения
- Значения бинов гистограммы нормализуются, так что их сумма равна 255
- Вычисляется интеграл гистограммы .
- Полученная интегральная кривая используется в качестве интерполяционной кривой по формуле , где – новое значение пикселя в точке – старое значение, – интегральная кривая.
Цветные изображения. Цветовые пространства
Если цветное изображение представить в виде трех одноканальных изображений, то для них применимы все рассмотренные методы обработки полутоновых изображений.
Следует отметить, что не все камеры формируют изображение в формате RGB, многие камеры видеонаблюдения вещают в формате YUV.
В этом формате яркостная составляющая Y выделена в отдельном канале. Две другие U и V несут цветовую информацию. Отметим, что человеческий глаз больше восприимчив к яркостной компоненте, поэтому основная обработка осуществляется для Y канала.
Переход из RGB в YUV и обратно осуществляется линейным преобразованием.
Существуют и другие удобные для анализа и обработки цветовые пространства, переход в которые из RGB может быть нелинейным.
Например, рассмотрим пространство HSV, которое удобно тем, что его каналы имеют ясное семантическое значение: H – оттенок цвета (Hue), S – насыщенность цвета (Saturation), V – интенсивность цвета (Value). Таким образом, модифицируя канал S, мы можем управлять насыщенностью цветов на изображении.
Ниже представлены четыре изображения: первое – исходное RGB изображение, второе изображение, у которого в каждом пикселе повышена насыщенность S, третье – увеличена яркость (канал V), четвертое – модифицирован канал H, так что цвета поменяли оттенки.