Статистическая обработка данных
11.5. Пакет STATISTICA
Пакет STATISTICA – универсальный статистический пакет компании StatSoft Inc1. Первая версия пакета (STATISTICA for DOS) была выпущена в 1991 г. На сегодняшний день разработана 9-я версия пакета (STATISTICA 9). Русифицирована только 6-я версия (STATISTICA 6).
Стандартную комплектацию пакета STATISTICA составляют три модуля, которые могут приобретаться как единым пакетом, так и отдельно.
- Базовый пакет STATISTICA Base предоставляет обширные возможности выбора основных типов статистического анализа. Для эффективной работы базового пакета требуется как минимум 256 MB оперативной памяти. Минимальные требования к скорости процессора – 500 MHz.
- Модуль Линейные и Нелинейные Модели (Advanced Linear/NonLinearModels) содержит большой набор инструментов для моделирования и прогнозирования, включая возможности автоматического выбора модели и расширенные интерактивные средства визуализации.
- Модуль Многомерные разведочные технологии анализа (Multivariate Exploratory Techniques) служит для применения разведочного анализа различных типов данных в сочетании с интерактивными средствами визуализации.
Помимо общих статистических и графических средств в системе имеются специализированные модули, например, для проведения социологических или биомедицинских исследований, решения технических и промышленных задач, – карты контроля качества, модули анализа процессов и планирования эксперимента.
Разработчики STATISTICA утверждают, что пакет может применяться для решения задач в таких областях, как:
- НИОКР, контроль качества, процесс мониторинга в химической, фармацевтической промышленности и в производстве потребительских товаров;
- гарантийный анализ и приложения для удаленного мониторинга в обрабатывающей промышленности;
- анализ рисков, сегментация потребителей и оценка кредитоспособности заемщиков в банковской сфере, в сфере предоставления финансовых услуг и в страховой деятельности.
Возможны различные варианты установки пакета в зависимости от целей и задач пользователя:
- однопользовательская версия (Single-User);
- сетевая версия (Concurrent Network) для работы в локальных вычислительных сетях;
- Enterprise – версия для применения в вычислительных системах и крупных организациях
- Web-Based – версия для использования в крупных сетях через веббраузер.
Пакет предоставляет пользователям следующие возможности статистического анализа данных:
- исследование корреляций между переменными;
- диаграмма рассеяния, матричная диаграмма рассеяния;
- быстрые основные статистики и блоковые статистики (интерактивные средства, позволяющие одним щелчком мыши вычислять основные статистики и строить графики в любой момент в течение сеанса работы);
- интерактивный калькулятор вероятностных распределений (позволяет интерактивно исследовать структуру распределений, например, зависимость вероятности от параметров);
- анализ многомерных откликов, многомерное шкалирование;
- анализ при помощи временных рядов и прогнозирование временных зависимостей, в том числе анализ сезонных колебаний.
Достоинства STATISTICA:
- реализован обмен данными между STATISTICAи Windows-приложениями;
- результаты анализа в виде графиков, таблиц и текста могут быть сохранены в файле с форматом RTF, который открывается и редактируется в MS Word;
- возможность расширения системы при помощи создания программ на встроенном в STATISTICA языке программирования;
- исходные данные из MS Excel можно легко импортировать в STATISTICA;
- возможность записи макросов для автоматизации выполнения однотипных задач;
- программа способна обрабатывать большие массивы данных – базы данных с числом переменных до 32 000 и практически неограниченным числом наблюдений.
В пакете представлены несколько сотен типов графиков 2D, 3D и 4D, матрицы и пиктограммы; предоставляется возможность разработки собственного дизайна графика. Средства управления графиками позволяют работать одновременно с несколькими графиками, изменять размеры сложных объектов, добавлять художественную перспективу и ряд специальных эффектов, разбивку страниц и быструю перерисовку. Например, 3D-графики можно вращать, накладывать друг на друга, сжимать или увеличивать9Дюк В., Самойленко А. Data Mining: учебный курс (+CD). – СПб: Изд. Питер, 2001..
STATISTICA обладает огромными возможностями для построения графиков непосредственно из таблиц исходных данных и таблиц результатов. Построение графических объектов и анализ данных в пакете тесно интегрированы. После получения результатов статистического анализа их можно с легкостью представить графически посредством команды Быстрые статистические графики. В разных модулях системы имеются свои специальные графики, учитывающие особенности получаемых в них результатов10Борисова С.Ф. Компьютер и Интернет для социолога [электронный ресурс] : учеб. пособие-справочник / С.Ф. Борисова. – Н. Новгород, 2002. – URL: http://www.unn.ru/rus/f14/k2/courses/borisova.htm (29.07.10)..
Начинающие пользователи могут начать работу со специальной версии, разработанной для обучения основам статистических методов – Studеnt Еditiоn оf STATISTICA. Эта версия представляет собой урезанный вариант пакета и позволяет анализировать файлы данных, включающих не более 400 наблюдений.
Внешний вид диалогового окна STATISTICA представлен на рис.11.5.
11.6. Пакет STATGRAPHICS
Пакет STATGRAPHICS (STATistical GRAPHICs System)11Официальный сайт пакета STATGRAPHICS: http://www.statgraphics.com – универсальный статистический пакет компании Manugistics Inc12Официальный сайт компании Manugistics Inc.: www.manugistics.com. Первая версия пакета была выпущена в середине 80-х годов. На сегодняшний день разработана 5-я версия пакета Statgraphics Plus 5.1.
Достоинства STATGRAPHICS:
- сочетание научных методов обработки разнотипных данных с возможностью создания современной высококачественной интерактивной графики;
- широкие возможности взаимодействия с другими программными продуктами (электронными таблицами, базами данных);
- высококачественная двумерная и трехмерная графика,
- интегрированная графика, предполагающая, что все элементы графических представлений результатов анализа могут быть преобразованы. После завершения процедуры статистического анализа данных можно выбрать графические отображения результатов, релевантные используемой процедуре анализа.
В STATGRAPHICS графика из средства презентации результатов анализа превращается в аналитический инструмент: можно идентифицировать точку на графическом отображении и выяснить ее местонахождение в файле данных или вращать и рассматривать с разных сторон трехмерные изображения, осуществлять разгонку точек на диаграммах рассеяния и т. п.13Обработка данных на ПК в примерах / В. Дюк . – СПб. : Питер, 1997 . – 240 с.1
В STATGRAPHICS существует возможность сохранения результатов работы и создания собственных статистических проектов. После завершения анализа пользователь может сохранить последовательность выбранных методов, параметры статистических процедур, виды графических отображений результатов анализа, табличные формы, комментарии и пр. в отдельном файле. Сохраненную схему анализа можно будет автоматически применять к другому множеству данных.
Внешний вид диалогового окна STATGRAPHICS представлен на рис.11.6