Московский государственный университет имени М.В.Ломоносова
Опубликован: 30.04.2008 | Доступ: свободный | Студентов: 1616 / 252 | Оценка: 4.24 / 3.92 | Длительность: 14:56:00
Специальности: Математик
Лекция 10:

Селекция признаков

< Лекция 9 || Лекция 10: 1234 || Лекция 11 >

10.3. Селекция на основе проверки статистических гипотез

Этот метод относится к скалярной селекции признаков.

Рассмотрим значение признаков как реализацию случайных величин. Методами математической статистики можно выяснить их распределение. Если распределение совпадает для разных классов, то признак не различает эти классы; если распределения различны, то признак их различает. Такова суть метода селекции на основе проверки статистических гипотез.

Таким образом, задача скалярной селекции на основе проверки статистических гипотез решается путем оценивания дискриминантной способности каждого отдельного признака.

10.3.1. Постановка задачи. Пусть x признак. Пусть также известны его значения для разных классов \Omega_1 и \Omega_2. Тогда задача состоит в оценке, существенно ли различаются распределения признака для разных классов.

Примем следующие соглашения. Обозначим через H_0 и H_1 две гипотезы:

  • H_0 – значения признаков отличаются существенно – нуль-гипотеза.
  • H_1 - значения признаков отличаются несущественно – альтернативная гипотеза.

10.3.2. Общая теория проверки гипотез.

Пусть

  • \xi – случайная величина с известной плотностью и неизвестным параметром \theta,
  • \xi_1,\ldots,\xi_N – экспериментальные значения \xi,
  • q=f(\xi_1,\ldots,\xi_N) – статистика, где плотность есть P_q(q,\theta).

Тогда гипотезы примут вид: H_0:\theta\neq\theta_0 и H_0:\theta\=\theta_0. Задача состоит в построении интервала D такого, что в D высокая вероятность выполнения гипотезы H_0.

Пусть \overline{D}=R\backslash Dдополнение к D. Тогда, если q попадает в D, то принимается H_0, иначе отвергается.

Назовем вероятностью ошибки решения следующую величину:

P(q\in\overline{D}|H_0)=\rho,
причем \rho выбирается заранее и называется уровнем значимости:
\rho=\int\limits_{\overline{D}}P_q(q|H_0)dq.

Случай известной дисперсии.

Пусть

  • E\xi=\mu – неизвестное среднее,
  • E((\xi-\mu)^2)=\delta^2 – известная дисперсия.

У нормализованных признаков дисперсия равна единице, следовательно, дисперсия известна.

Оценка \mu задается следующим образом:

\overline{\xi}=\frac{1}{N}\sum_{i=1}^N\xi_i,
причем E\overline{\xi}=\mu,\;\mu=\theta,\;\widetilde{\mu}=\theta_0. Тогда гипотезы примут вид: H_0:\mu=\widetilde{\mu} и \mu\neq\widetilde{\mu}.

В данном случае статистика имеет вид:

q=\frac{\overline{\xi}-\widetilde{\mu}}{\left(\frac{\delta}{\sqrt{N}}\right)},
где \frac{\delta}{\sqrt{N}}среднеквадратичное отклонение для \overline{\xi}.

По центральной предельной теореме имеем:

P_{\overline{\xi}}(x)=\frac{\sqrt{N}}{\sqrt{2\pi}\delta}\exp\left(-\frac{N(x-\widetilde{\mu})^2}{\delta^2}\right).

Далее, q\sim N(0,1). Следовательно, находим доверительный интервал D по \rho: т.к. \Phi(x_{\rho})=\rho, то D=\left\lfloor-x_{\rho};x_{\rho}\rfloor\right. Для уровня значимости \rho интервал принятия гипотезы D=\left\lfloor-x_{\rho};x_{\rho}\rfloor\right выбирается как интервал, в котором q лежит с вероятностью 1-\rho.

Случай неизвестной дисперсии. Если дисперсия неизвестна, то оценка

\widetilde{\delta}^2=\frac{1}{N-1}\sum_{i=1}^N(\xi_i-\overline{\xi})^2
есть несмещенная оценка дисперсии и
q=\frac{\overline{\xi}-\widetilde{\mu}}{\frac{\widetilde{\delta}}{\sqrt{N}}}
есть статистика (не гауссова величина).

Если \overline{\xi} гауссова величина, то q имеет t -распределение Стьюдента с N-1 степенями свободы. Тогда доверительный интервал D=\left\lfloor-x_{\rho};x_{\rho}\rfloor\right вычисляется по таблицам.

10.3.3. Приложение к селекции признаков

Наша основная забота теперь – проверить отличие \mu_1 и \mu_2 между средними значениями признака в двух классах.

Пусть

x_1,\ldots,x_Nзначение признака в первом классе со средним \mu_1. Соответственно,

y_1,\ldots,y_N - значение признака во втором классе со средним \mu_2.

Предположим, что дисперсии одинаковы в обоих классах. Пусть \mu_1 и \mu_2 – средние для значений признаков в первом и втором классе соответственно. Тогда соответствующие гипотезы имеют вид:


H_0: \Delta \mu=\mu_1 - \mu_2=0, \\
H_1: \Delta \mu \neq 0.

Для решения о близости двух классов мы проверим эти гипотезы.

Пусть \xi_i=x_i-y_i.

Гипотеза о равенстве параметров распределения говорит о попадании в этот интервал величины \xi=x-y, где x и y – случайные величины, причем


E(\xi)=\mu_1 - \mu_2 \\
\delta_{\xi}^2=2 \delta^2

Для случая неизвестной дисперсии статистика имеет вид:

q=\frac{(\overline{x}-\overline{y})-(\mu_1-\mu_2)}{s_{\xi}\sqrt{\frac{2}{N}}}
и несмещенная оценка дисперсии записывается следующим образом:
s_{\xi}^2=\frac{1}{2N-2}
\left(
\sum_{i=1}^N(x_i-\overline{x})^2+\sum_{i=1}^N(y_i-\overline{y})^2
\right)
s_{\xi}^2 имеет \chi^2 распределение с 2N-2 степенями свободы.

Если x, y – нормально распределенные с одинаковыми дисперсиями, тогда случайная величина q имеет t -распределение Стьюдента с 2N-2 степенями свободы.

Если числа прецедентов в обоих классах не совпадают, то формулы модифицируются.

10.3.4. Мера различия плотностей признаков.

Если средние значения различаются, и дисперсии очень большие, то признак может не обладать хорошими разделительными свойствами. Средние значения могут не совпадать и хорошо разделяться, но при больших дисперсиях признак становиться неудовлетворительным. Поэтому нужна информация о перекрытиях между классами. Рассмотрим способ анализа информации о перекрытии плотностей распределения признаков.

Принимать решение, к какому классу отнести объект будем по значению t. Пусть \alpha(t) и \beta(t) – ошибки при пороге классификации t.

Идеальным случаем является случай, когда P_1(x)=P_2(x), т.е. у признака нет селективных способностей: \alpha+\beta=1. Рассмотрим параметрическую кривую: (\alpha(t),1-\beta(t)). Тогда в качестве меры различия распределений можно использовать площадь разности между кривой реального случая и идеального случая, которая выражается следующим интегралом

\int_0^1|(1-\beta)-\alpha|d\alpha.



< Лекция 9 || Лекция 10: 1234 || Лекция 11 >