Опубликован: 25.12.2006 | Уровень: специалист | Доступ: платный
Лекция 7:

Предобработка данных

Формирование оптимального пространства признаков

В типичной ситуации набор выходных, прогнозируемых, переменных фиксирован, и требуется подобрать наилучшую комбинацию ограниченного числа входных величин. Оценка значимости входов позволяет построить процедуру систематического предварительного подбора входных переменных - до этапа обучения нейросети. Для иллюстрации опишем две возможные стратегии автоматического формирования признакового пространства.

Последовательное добавление наиболее значимых входов

Один из наиболее очевидных способов формирования пространства признаков с учетом реальной значимости входов - постепенный подбор наиболее значимых входов в качестве очередных признаков. В качестве первого признака выбирается вход с наибольшей индивидуальной значимостью:

k_1=\arg max_k\{I(Y,X_k)\}.

Вторым признаком становится вход, обеспечивающий наибольшую предсказуемость в паре с уже выбранным:

k_2=\arg max_k\{I(Y,X_{k_1}X_k)\}.
и так далее. На каждом следующем этапе добавляется вход, наиболее значимый в компании с выбранными ранее входами:
k_n=\arg max_k\{R_k^{(n)}=I(Y,x_{k_1}\ldots x_{k_{n-1}}X_k)\}.

Такая процедура не гарантирует нахождения наилучшей комбинации входов, т.е. дает субоптимальный набор признаков, т.к. реально рассматривается лишь очень малая доля от полного числа комбинаций входов, и значимость каждого нового признака зависит от сделанного прежде выбора. Полный перебор, однако, практически неосуществим: выбор оптимальной комбинации входов при полном их числе d_X требует перебора \left(\frac{d_x}{n}\right)\~\frac{(d_x)^n}{n!} комбинаций.

Другим недостатком описанного выше подхода является необходимость подсчета кросс-энтропии в пространстве все более высокой размерности по мере увеличения числа отобранных признаков. Ниже описана процедура, свободная от этого недостатка, основанная на применении методики box-counting лишь в низкоразмерных пространствах (а именно - с размерностью d_Y+1 ).

Формирование признаков пространства методом ортогонализации

Следующая систематическая процедура способна итеративно выделять наиболее значимые признаки, являющиеся линейными комбинациями входных переменных: \mbox{\~{X}}=W\cdot X (подмножество входов является частным случаем линейной комбинации, т.е. формально можно найти лучшее решение, чем то, что доступно путем отбора наиболее значимых комбинаций входов).

Выбор наиболее значимых линейных комбинаций входных переменных

Рис. 7.15. Выбор наиболее значимых линейных комбинаций входных переменных

Для определения значимости каждой входной компоненты будем использовать каждый раз индивидуальную значимость этого входа: I(Y,X_k).

Подсчитав индивидуальную значимость входов, находим направление в исходном входном пространстве, отвечающее наибольшей (нелинейной) чувствительности выходов к изменению входов. Это градиентное направление определит первый вектор весов, дающий первую компоненту пространства признаков:

w_{1,k}=I(Y,X_k).

Следующую компоненту будем искать аналогично первой, но уже в пространстве перпендикулярном выбранному направлению, для чего спроектируем все входные вектора в это пространство:

X^{(1)}=X-(w_1X)w_1.

В этом пространстве можно опять подсчитать "градиент" предсказуемости, определив индивидуальную значимость спроектированных входов, и так далее. На каждом следующем этапе подсчитывается индивидуальная значимость I(Y,X_k^{(n)}) для проекции входов X^{(n)}=X-(w_1X)w_1-\ldots -(w_nX)w_n, что не требует повышения размерности box-counting анализа. Таким образом, описанная выше процедура позволяет формировать пространство признаков произвольной размерности - без потери точности.

Заключение

Конечно, описанными выше методиками не исчерпывается все разнообразие подходов к ключевой для нейро-анализа проблеме формирования пространства признаков. Мы не упомянули, в частности, генетические алгоритмы, которые в совокупностью с методикой box-counting являются весьма перспективным инструментом. Ничего не было сказано также о методике разделения независимых компонент (blind signal separation), расширяющей анализ главных компонент. Необъятного не объять. Главное, чтобы за деталями не затерялся основополагающий принцип предобработки данных: снижение существующей избыточности всеми возможными способами. Это повышает информативность примеров и, тем самым, качество нейропредсказаний.

Дмитрий Степаненко
Дмитрий Степаненко
Россия
Ярославй Грива
Ярославй Грива
Россия, г. Санкт-Петербург