Опубликован: 30.11.2010 | Уровень: специалист | Доступ: платный | ВУЗ: Мордовский государственный университет имени Н.П. Огарева
Лекция 8:

Введение в дисперсионный анализ

< Лекция 7 || Лекция 8: 12345 || Лекция 9 >
Аннотация: Цель работы: практически освоить применение метода дисперсионного анализа на примерах однофакторного и двухфакторного экспериментов. Среда программирования — MATLAB.

Теоретическая часть

Объектом исследования дисперсионного анализа являются стохастические связи между откликом (реакцией) и факторами, когда последние носят не количественный, а качественный характер [13].

Дисперсионный анализ применяют, чтобы установить, оказывает ли существенное влияние некоторый качественный фактор Х, который имеет р уровней Х_{1},\mbox{  }Х_{2}, …,\mbox{  }Х_{р} на изучаемую величину Y.

Основная идея дисперсионного анализа состоит в сравнении "факторной дисперсии", порождаемой воздействием конкретного фактора, и "остаточной дисперсии", обусловленной случайными причинами [6]. Если различие между этими дисперсиями значимо, то фактор оказывает существенное влияние на Х ; в этом случае средние величины наблюдаемых значений на каждом уровне (групповые средние) различаются также значимо. Если уже установлено, что фактор существенно влияет на Х, а требуется выяснить, какой из уровней оказывает наибольшее воздействие, то сравнение средних дополнительно производят попарно.

В зависимости от числа анализируемых факторов различают однофакторный, двухфакторный и т. д. дисперсионные анализы [13]. В работе будут рассмотрены однофакторный и двухфакторный дисперсионные анализы.

1. Однофакторный дисперсионный анализ

Однофакторный дисперсионный анализ может быть использован для выявления наиболее существенных связей между переменными при качественном исследовании объектов различной природы.

При однофакторном анализе проверяется действие одного фактора х на выходную переменную у по результатам N экспериментов с m дублирующими опытами. Общее количество экспериментов равно N\times m. Результаты эксперимента N\times m наблюдений могут быть сведены в таблицу (табл. 8.1), где \bar y означает среднее значение выходной переменной в одной серии дублирующих опытов [3]. Количество N экспериментов соответствует возможным уровням фактора х. Под уровнем фактора понимаются возможные его качественные значения. Поэтому если производится N экспериментов, то это означает, что рассматриваются N возможных уровней фактора, которые оказывают влияние на значение выходной переменной у системы или объекта исследования.

Таблица 8.1.
Результаты наблюдений однофакторного эксперимента
Номер уровня фактора Дублирующие опыты Среднее дублирующего опыта
1 2 ... \ell ... m
1 y_{11} y_{12} ... y_{1\ell} ... y_{1m} \bar y_1
2 y_{21} y_{22} ... y_{2\ell} ... y_{2m} \bar y_2
... ... ... ... ... ... ... ...
g y_{g1} y_{g2} ... y_{g\ell} ... y_{gm} \bar y_g
N y_{N1} y_{N2} ... y_{N\ell} ... y_{Nm} \bar y_N
... ... ... ... ... ... ... ...

Среднее серий из повторных (дублирующих) опытов для каждого уровня фактора определяется по формуле

\bar y_g=\frac{1}{m}\sum\limits_{\ell=1}^{m} y_{g\ell},\mbox{   } g=\overline{1,N}. ( 8.1)

Общее среднее всех N\times m наблюдений по всем N уровням фактора определяется по формуле

\bar{\bar y}=\frac{1}{N}\sum\limits_{g=1}^{N}\bar y_g. ( 8.2)

Общая сумма S_{общ} квадратов отклонений отдельных наблюдений y_{g\ell} от общего среднего \bar{\bar y} вычисляется по формуле

S_{общ}=\sum\limits_{g=1}^{N}\sum\limits_{\ell=1}^{m}(y_{g\ell}-\bar{\bar y})^2. ( 8.3)

Формулу (8.3) можно преобразовать к виду

S_{общ}=\sum\limits_{g=1}^{N}\sum\limits_{\ell=1}^{m}(y_{g\ell}-\bar{\bar y})^2=
\sum\limits_{g=1}^{N}\sum\limits_{\ell=1}^{m}(y_{g\ell}-\bar y_{g\ell})^2+
m\sum\limits_{g=1}^{N}(\bar y_{g}-\bar{\bar y})^2=S_0+S_{\chi} ( 8.4)

где:

S_{0} — сумма квадратов отклонений внутри серий, т. е. сумма квадратов разностей между отдельными наблюдениями y_{g\ell0}(\ell=\overline{1,m}) и средним \bar y_g соответствующей серии (g=\overline{1,N});

S_{\chi} — сумма квадратов отклонений между сериями или рассеивание по уровням, т. е. взвешенная с учетом числа наблюдений в каждой серии (g=\overline{1,N}) сумма квадратов между средними \bar y_g отдельных серий и общим средним \bar{\bar y} по всей совокупности наблюдений.

S_{общ} характеризует влияние фактора и случайных причин. S_{0} отражает влияние случайных причин. S_{\chi} характеризует воздействие фактора.

Если в результате анализа оказалось, что влияние качественного фактора на выходную переменную отсутствует, тогда средние \bar y_g(g=\overline{1,N}) серий имеют одинаковую оценку математического ожидания и дисперсию D и все N\times m наблюдений можно рассматривать как выборку из одной и той же совокупности, распределенной по нормальному закону.

Несмещенная общая оценка дисперсии s^2 по всем N\times m наблюдениям определяется по формуле

s^2=\frac{S}{Nm-1}\approx D ( 8.5)

с числом степеней свободы

f=N\times m-1. ( 8.6)

Выборочная дисперсия s_0^2 внутри серий ( \ell=\overline{1,m} ) дублирующих опытов определяется по формуле

s^2_0=\frac{S_0}{N(m-1)}\approx D ( 8.7)

с числом степеней свободы

k1=N\times m-1. ( 8.8)

Выборочная дисперсия S^2_{\chi} внутри серий ( g=\overline{1,N} ) по уровням определяется по формуле

s^2_{\chi}=\frac{S_{\chi}}{N-1}\approx D ( 8.9)

с числом степеней свободы

k2 = N - 1. ( 8.10)

Проверка значимости влияния фактора производится с помощью критерия Фишера при заданном уровне значимости \alpha (% или относительная величина) по формуле

F_{расч}=\frac{S_{\chi}^2}{S_0^2}. ( 8.11)

Если вычисленное значение по результатам наблюдений F_{расч} окажется больше значения теоретической величины критерия Фишера F_{крит} при заданном уровне значимости и соответствующих степенях свободы (8.8), (8.10), то влияние фактора признается значимым.

Критическое значение критерия Фишера можно определить по таблицам, которые составлены для различных уровней значимости и приводятся во многих учебниках по теории вероятности и математической статистике. Например, если s_{0}^2 >s_{\chi}^2, то k1 — число степеней свободы дисперсии s_0^2 — берется из верхней строки таблицы, а k2 — число степеней свободы меньшей дисперсии s_{\chi}^2 — из левого столбца таблицы. Критическое значение критерия Фишера можно определить также с помощью встроенных функций пакета Statistics Toolbox системы MATLAB.

2. Однофакторный дисперсионный анализ с неодинаковым числом испытаний на различных уровнях

Выше рассматривался однофакторный дисперсионный анализ с одинаковым числом испытаний на различных уровнях данного одного фактора. Рассмотрим случай однофакторного дисперсионного анализа, когда число испытаний на различных уровнях различно [6]. Пусть произведено q_{1} испытаний на первом уровне ( Х_{1} ), q_{2} испытаний — на втором уровне (Х_{2}),..., q_{p} испытаний – на уровне Х_{p}. В этом случае общую сумму квадратов отклонений находят по формуле

S_{общ}=[P_1+P_2+...+P_p]-\frac{(R_1+R_2+...+R_p)^2}{n}, ( 8.12)

где:

P_1=\sum\limits_{i=1}^{q_1}y_{i1}^2 — сумма квадратов наблюдавшихся значений отклика на уровне Х_{1} ;

P_2=\sum\limits_{i=1}^{q_2}y_{i2}^2 — сумма квадратов наблюдавшихся значений отклика на уровне Х_{2} ;

…………………………………………………………………

P_p=\sum\limits_{i=1}^{q_p}y_{ip}^2 — сумма квадратов наблюдавшихся значений отклика на уровне Х_{1p} ;

R_1=\sum\limits_{i=1}^{q_1}y_{i1}^2,\mbox{   }R_2=\sum\limits_{i=1}^{q_2}y_{i2}^2\mbox{, ... ,}R_p=\sum\limits_{i=1}^{q_p}y_{ip}^2 — суммы наблюдавшихся значений отклика на уровнях Х_{1},\mbox{  }Х_{2}, ... ,\mbox{  }Х_{p} ;

n = q_{1} + q_{2} + ... + q_{p} — общее число испытаний (общий объем выборки).

Факторную сумму квадратов отклонений находят по формуле

S_{факт}=\left[\left(\frac{R_1^2}{q_1}\right)+\left(\frac{R_2^2}{q_2}\right)+...+\left(\frac{R_p^2}{q_p}\right)\right]-\left[\frac{(R_1+R_2+R_p)^2}{n}\right]. ( 8.13)

Здесь по-прежнему выполняется соотношение S_{общ}=S_{факт}+S_{ост}.

Поэтому остаточную сумму квадратов можно определить в виде

S_{ост}=S_{общ}-S_{факт}. ( 8.14)

Факторная s_{факт}^2 и остаточная s_{ост}^2 дисперсии вычисляются по формулам

s_{факт}^2=\frac{S_{факт}}{(p-1)},\qquad s_{ост}^2=\frac{S_{ост}}{(n-p)} ( 8.15)

Где: (p-1) — число степеней свободы факторной дисперсии; (8.16)

(n-p) — число степеней свободы остаточной дисперсии; (8.17)

p — число факторов.

Проверка значимости влияния фактора производится с помощью критерия Фишера при заданном уровне значимости \alpha (процент или относительная величина) по формуле

F_{расч}=\frac{S^2_{факт}}{S^2_{ост}} ( 8.18)

Если вычисленное значение по результатам наблюдений F_{расч} окажется больше значения F_{крит} теоретической величины критерия Фишера при заданном уровне значимости и соответствующих степенях свободы (8.16), (8.17), то влияние фактора признается значимым. Соответственно, нулевая гипотеза о равенстве групповых средних отвергается.

< Лекция 7 || Лекция 8: 12345 || Лекция 9 >
Мария Ястребинская
Мария Ястребинская

Добрый день. Я приступила сегодня к самостоятельному изучению курса "Моделирование систем". Хочу понять - необходимо ли отсылать мои решения практических заданий на сайт, (и если да - то где найти волшебную кнопку "Загрузить...") или практические задания остаются полностью на моей совести? (никто не проверяет, и отчётности по ним я предоставлять не обязана?)

P.S.: тьютора я не брала

алена зянтерекова
алена зянтерекова
Дмитрий Степаненко
Дмитрий Степаненко
Россия
Маржан Мукынова
Маржан Мукынова
Россия, Новосибирск