Опубликован: 01.06.2007 | Уровень: специалист | Доступ: платный | ВУЗ: Московский государственный университет путей сообщения
Лекция 16:

Перспективные нейросетевые технологии

16.7. Печать рукописи

Даже в пору, когда чистописание было одним из главных предметов первоклассника, воспитывающих красоту и порядок (несомненно, стимулирующий внутренний порядок) владения пером № 86 с нажимом, разбор рукописного текста был проблемой для развитого воображения. Мы содрогаемся, видя, с каким разнообразием извращений приемов владения современными изобразительными средствами студенты конспектируют мудрость своих наставников.

По прошествии некоторого времени мы с трудом понимаем собственные каракули, не говоря уж о чужих. А если Время поработало капитально, и ваши старания сравнимы с прочтением Кумранских рукописей? Ясно, что только ассоциативное мышление способно восстановить рукописный текст.

Поэтому автоматизация воспроизведения написанного является актуальной задачей.

… И окончательно впадая в детство, мы видим в основе распознавания по признакам все ту же методику чистописания.

Еще в "Основы нейросетевых технологий" мы обратили внимание на "признаковое" определение букв: а – кружочек с палочкой справа, заканчивающейся хвостиком вправо, б – кружочек с хвостиком сверху, вверх и вправо, ц – палочка с хвостиком вправо, к нему примыкает палочка, а к ней, справа внизу, странный специфический крючок, позволяющий сказать "что-то странное, но обязательно существующее", и т.д.

Представим себе "окно просмотра", сканирующее текст ( рис. 16.8 ).

Распознавание буквы по признакам

Рис. 16.8. Распознавание буквы по признакам

Оно "наложено" на входной слой нейросети. Связи нейронов входного слоя – рецепторов – соединяют их (скорее всего, на следующем же слое) с нейронами промежуточного выходного слоя (или на коре), закрепленными за признаками. Это соединение выполнено так, чтобы "захватить" случайно (в зависимости от почерка) отклоненную от эталона в букваре букву и выявить в ней отдельные признаки. Комбинация выявленных признаков на следующем (следующих) окончательно выходном слое определяет распознаваемую букву.

Возможно, что при наложении очередной буквы, ожидаемой в сложной вязи письма, нам понадобится процедура разглядывания: увеличение/уменьшение, наклон влево/вправо, – до тех пор, пока при некоторой фиксации образа не начнется их действительное распознавание. Поэтому, в дополнение к попытке "захвата", изображение располагается в "окне просмотра" так, что его "центр тяжести" совмещается с центром окна. Далее, изображение растягивается или сжимается, наклоняется влево или вправо так, чтобы максимально совпасть по размеру и углу наклона с размером и углом наклона эталонов, подававшихся в процессе обучения. Впрочем, это растяжение/сжатие и наклон могут осуществляться динамически, на основе проб, в процессе распознавания в поисках лучшего угадывания буквы.

Для выявления всех признаков и их относительного положения "окно просмотра" необходимо разбить на сектора, определяющие понятия "слева", "справа", "вверху", "внизу", "внизу справа" и т.д.

Определенную трудность представляют пропуски и пробелы. Например, как определить разрыв окружности буквы с от полной окружности буквы о? Ведь может возбудиться "полный кружок", только с меньшим значением величины возбуждения.

Мы предлагаем наряду с позитивным изображением элементов букв анализировать их негативное изображение. Тогда пустота в соответствии с эталоном будет "кричать" о себе, возбуждать рецепторы, обретет активность. Наличие пустоты мы сможем так же "поймать" посредством возбуждения нейронов, как и видимые линии.

Легко увидеть на основе наших действий, что распознавания букв недостаточно. Не поняв ничего, мы поднимаемся на уровень распознавания слов, включаем в работу контекст. Только таким комплексным методом мы восстанавливаем смысл написанного, и это сулит неограниченные возможности развития и совершенствования нейросетевой технологии прочтения.

… Выслушав данное (да и другие) соображение, мы не стали разочаровывать дядю Рамзая тем, что это давно известно, делается, и существует обширная литература. Мы привели его для иллюстрации естественной взаимной вытекаемости идей, базирующихся на одном основании, стараясь менторски наставить молодое поколение – рекомендовать и заинтересовать.

16.8. Экстренное торможение локомотива

В "Основы нейросетевых технологий" рассматривался простейший пример применения логической нейросети для распознавания букв. Было указано на обобщение принципа персептрона Розенблата. Действительно, распознавание выполняется методом "голосования" по суммарной величине возбуждения рецепторов, на которое "ложится" эталон.

Что, если такой принцип положить в основу распознавания препятствия на железнодорожном пути? Ведь на прямолинейном участке (а именно здесь скорость максимальна!) локомотив "видит" перед собой одну и ту же картинку: сходящиеся в бесконечности рельсы. Всякое нарушение этого однообразия требует если не экстренного торможения, то хотя бы снижения скорости.

Если на пути возникает преграда, то картинка напоминает букву А. При этом задача облегчается тем, что картинка строго привязана в пространстве, буква А отцентрирована и отмасштабирована, т.е. фокусировка уже произведена.

Представим себе некоторый экран (рис. 16.9), образованный рецепторами нейронной сети, подобно рассмотренной выше задаче распознавания текста.

Система экстренного торможения

Рис. 16.9. Система экстренного торможения

Рецепторы, возбуждение которых необходимо выделить, связаны с нейроном выходного слоя. Передаточная функция основана на простом голосовании: величины возбуждения складываются, и если образующаяся сумма превышает порог, формируется сигнал тревоги, по которому включается тормозная система.

Принцип крайне прост, однако упирается в хорошее "зрение". Требуется обеспечение высокой контрастности изображения как рельсов, так и препятствия. Что, если препятствие настолько светлое, что значение возбуждения выходного нейрона, наоборот, снижается? Следует поставить "ловушки" как для превышения суммарного сигнала, так и для низкого значения этого сигнала, т.е. ввести два порога. Тогда передаточная функция имеет вид

V:= \sum_i V_i; \quad V_{тревоги}=V, \mbox{если }(h_{1} > V)\vee (V > h_{2}).

Исследуемая картинка предполагает увеличение, приближение вида вдаль – для упреждения реакции. При этом детализация удаленных объектов должна быть выше объектов близких. Это означает, что рецепторы на экране, закрепленные за удаленным изображением (верхняя часть экрана), должны располагаться гуще.

Для большей определенности, по-видимому, следует анализировать как позитивное, так и негативное изображение, формируя результирующий сигнал.

Видимая картинка разбивается на области "захвата", в которых предполагается нахождение интересующего объекта. Тогда та же картинка может использоваться для анализа сигналов семафора, для детального распознавания типа препятствия, для обслуживания поворота и т.д. Области захвата должны быть достаточно "тесными", в идеале включающими, например, только рельсы с незначительным отклонением.

Если путь совершает поворот, то в действие может быть введен другой эталон.

В целом необходимо отметить большой объем экспериментальных исследований для практического применения рассмотренной идеи.

Эльвира Герейханова
Эльвира Герейханова

Раньше это можно было зделать просто нажав на тест и посмотреть результаты а сейчас никак

Елена Лобынцева
Елена Лобынцева
Помогите разобраться как можно подобрать НС для распознавания внутренней области выпуклого многоугольника?
Дмитрий Степанов
Дмитрий Степанов
Россия, Москва, МГТУ им. Баумана, 2006
Дмитрий Степаненко
Дмитрий Степаненко
Россия