Опубликован: 24.04.2015 | Уровень: для всех | Доступ: платный
Лекция 5:

Инструменты Gnumeric для статистиков

5.12 Две дисперсии: F-тест.

Этот инструмент позволяет проверить гипотезу о равенстве (или неравенстве) двух дисперсий. В качестве исходных данных будем использовать те же модельные выборки, что и в случае проверки гипотезы о равенстве двух средних.

В качестве первого примера рассмотрим 25 нормально распределенных случайных значений со средним значением 5 и стандартным отклонением 1 (Выборка1) и 25 нормально распределенных случайных значений со средним значением 7 и стандартным отклонением 1 (Выборка2). В этом случае дисперсии однозначно равны.

Результат проведения теста показан на рис. 5.45.

F-тест. Неравные дисперсии

Рис. 5.46. F-тест. Неравные дисперсии

Теперь рассмотрим вариант, при котором дисперсии отличаются в два раза (Выборка3 и Выборка4). Результат теста показан на рис. 5.46.

Вывод получается следующий: чем сильнее отличаются дисперсии выборок, тем меньше значение F.

5.13 Оценка выживаемости (оценка Каплана-Майера)

Общие сведения о задаче анализа выживаемости можно получить в статье А.Б. Меркова "Об анализе выживаемости" или в руководствах по коммерческим статистическим пакетам (см. список литературы). Суть задачи заключается в том, чтобы по набору признаков (характеристик) определить время сохранения объектом этих характеристик ("время жизни") или распределение вероятностей сохранения характеристик в заданных пределах. Соответственно, можно строить прогнозы (предсказывать) среднее "время жизни" (время сохранения характеристик) таких объектов. Объектами могут быть вещества, устройства (приборы), сооружения и конструкции, а также живые существа. Чаще всего оценка выживаемости упоминается в связи с медицинской практикой.

В тех случаях, когда время наблюдения (продолжительность испытаний) меньше, чем "время жизни" конкретного объекта, получается, что "время жизни" точно не меньше времени наблюдения, а вот какое оно конкретно – узнать уже нельзя. Такие данные называются "цензурированными" (censored). Для группы объектов, участвующих в испытаниях возможны одновременно цензурированные и нецензурированные данные для различных экземпляров (например, при исследованиях срока службы энергосберегающих ламп в течение 10000 часов часть ламп вышла из строя в течение испытаний, а часть – так и не испортилась).

Пример исходных данных для анализа выживаемости

Рис. 5.47. Пример исходных данных для анализа выживаемости

Пример использования Gnumeric для оценки выживаемости по Каплану-Майеру взят из справки по Gnumeric (Gnumeric 1.10.x).

Заготовим исходные данные в соответствии с рис. 5.47.

Первый столбец ("Длительность") означает время испытаний (наблюдений) для каждого исследуемого экземпляра. В столбце "Группа" задаётся принадлежность объекта к группе объектов (группы могут отличаться местоположением, периодом времени наблюдений и другими признаками и обстоятельствами). В данном примере имеется только две группы. Наконец, в третьем столбце указывается признак "цензурированности" данных (если в ячейке 1 – данные цензурированы).

Все данные носят дискретный характер ("время жизни" изменяется дискретно).

Настройка исходных данных для анализа

Рис. 5.48. Настройка исходных данных для анализа

Диалог настройки анализа вызывается через вложенное меню "Статистика/Зависимые наблюдения". Сначала определяется набор исходных данных и их цензурированность (вкладка "Ввод" диалога, рис. 5.48). Использование цензурированных данных разрешается включением соответствующего режима (Permit censorship).

На вкладке "Группы" задаётся количество групп и номера, которые их определяют. Теоретически можно объединять несколько групп в одну, указав диапазон номеров "от" и "до" (рис. 5.49). Для установки номера группы используются поля со счётчиками (для редактирования поля нужно дважды щёлкнуть в нём левой кнопкой мыши).

В этом примере (и по умолчанию) используется две группы, но с помощью кнопок "Добавить" и "Удалить" количество групп можно изменять так, как требуется.

На вкладке "Параметры" (рис. 5.50) определяется объём итоговой информации. Различные виды результатов можно включать и выключать. Пусть в рассматриваемом примере будет выводиться максимально полный набор результатов.

Наконец, на вкладке "Вывод" (рис. 5.51) имеет смысл выбрать вариант создания нового листа, поскольку количество выводимых результатов достаточно велико.

В результате получается график, на котором отмечены точки с цензурированными данными для обеих групп (рис. 5.52), а также выдаются численные результаты. На рис. 5.52 результаты для первой группы показаны сплошной линией, цензурированные точки – треугольниками, а результаты для второй группы – "точечной" линией, цензурированные точки – ромбы.

Настройка групп исследуемых объектов

Рис. 5.49. Настройка групп исследуемых объектов
Настройка результатов анализа

Рис. 5.50. Настройка результатов анализа
Определение расположения результатов анализа

Рис. 5.51. Определение расположения результатов анализа

Численные результаты для первой группы показаны на рис. 5.53. Наличие деления на 0 при времени в 19 единиц, видимо, связано с тем, что для первой группы ("Группа0") нет нецензурированных данных для такого "времени жизни".

В следующих столбцах располагаются результаты для второй группы ("Группа1"). Для получения иллюстрации столбцы таблицы от B до F были скрыты (рис. 5.54).

Наконец, общее сравнение среднего времени выживаемости в группах обеспечивается тестом Log-Rank (рис. 5.55).

Значение p позволяет оценить различие среднего времени жизни по группам. На основании полученной в рассматриваемом примере величины p делается вывод, что эти значения статистически неразличимы.

Результаты анализа (функция выживания)

Рис. 5.52. Результаты анализа (функция выживания)
Численные результаты для первой группы

Рис. 5.53. Численные результаты для первой группы
Численные результаты для второй группы

Рис. 5.54. Численные результаты для второй группы
Общая статистика по группам

Рис. 5.55. Общая статистика по группам
Berkut Molodoy
Berkut Molodoy
Россия
Сергей Гутько
Сергей Гутько
Россия, ВИУ, 2003