Опубликован: 19.11.2012 | Уровень: для всех | Доступ: свободно | ВУЗ: Национальный исследовательский университет "Высшая Школа Экономики"
Лекция 11:

Статистическая обработка данных

< Лекция 10 || Лекция 11: 1234 || Лекция 12 >
Аннотация: В современном мире принятие управленческих, производственных, финансовых, кадровых и других решений все чаще основывается на всестороннем анализе данных, что позволяет делать более обоснованные выводы и прогнозы, давать оценки вероятности их выполнения и зачастую предотвращать принятие необоснованных и непродуманных решений.

11.1. Группы статистических пакетов

Потребность в средствах статистического анализа данных в различных областях деятельности, особенно в науке, очень велика, что и послужило причиной развития рынка компьютерных программ для статистической обработки данных. За последние 20 лет активное развитие получили компьютерные программы, позволяющие проводить статистический анализ больших объемов данных с целью выявления закономерностей, сравнения вероятных альтернатив выбора, построения прогнозов развития событий, обнаружения связей между явлениями и процессами и пр. Существующие программы постоянно совершенствуются в части ускорения работы с данными, улучшения представления результатов анализа данных, повышения удобства интерфейса, совершенствования справочной системы, увеличения числа встроенных в программу статистических процедур, средств обработки данных и пр.

Отрасль развивается стремительными темпами. На сегодняшний день на рынке представлено около тысячи компьютерных программ для статистической обработки данных (далее – статистические пакеты). Разнообразие статистических пакетов обусловлено многоплановостью задач обработки данных с применением различных типов статистических процедур анализа для поиска ответов на вопросы из различных областей человеческой деятельности.

Рынок компьютерных программ для статистического анализа данных характеризуется высокой конкуренцией, нередки случаи консолидации и поглощений компаний-разработчиков. Например, один из самых активных игроков на рынке компания SPSS Inc. в 1994 г. поглотила компанию SYSTAT Software Inc., а в 1996 г. – BMDP Statistical Software Inc. Эти приобретения позволили компании усовершенствовать собственные программные продукты. В частности, поглощение BMDP Software позволило усилить графические инструменты представления данных в SPSS, а поглощение SYSTAT – технологии обработки и анализа данных, полученных при биологических и медицинских исследованиях1Рафаэль Шамиев. SPSS: У нас все точно! PC Week/RE. (037)13`1996 http://www.pcweek.ru/themes/detail.php?ID=37568. В 2009 году компания IBM Inc. поглотила компанию SPSS Inc.

Перед пользователями различных категорий встает вопрос выбора оптимального статистического пакета для поиска верных ответов на существующие вопросы. Очевидно, что оптимальным является вариант, сочетающий в себе необходимые функциональные возможности, высокое качество работы и умеренную цену. При выборе пакета учитываются следующие параметры:

  • соответствие характеру решаемых задач;
  • объем обрабатываемых данных;
  • требования, предъявляемые к квалификации пользователя (уровень знаний в области статистики);
  • имеющееся в наличии компьютерное оборудование.

Статистические пакеты по признаку функциональности могут быть разделены на 3 основные группы.

  1. Универсальные пакеты, или пакеты общего назначения (например, SPSS, STATA, STATISTICA, S-PLUS, Stadia, STATGRAPHICS, SYSTAT, Minitab).

    Эти пакеты не ориентированы на специфическую предметную область и могут применяться для анализа данных из различных областей деятельности. Как правило, они предлагают широкий диапазон статистических методов и имеют относительно простой интерфейс. С такими пакетами рекомендуется работать начинающим пользователям, владеющим лишь базовыми знаниями в области статистики, а также опытным пользователям на начальных этапах работы с данными, когда еще четко не определены статистические методы, которые будут применяться для решения того или иного вопроса. Многопрофильность универсального пакета позволяет провести пробный анализ различных типов данных с использованием широкого диапазона статистических методов. Большинство существующих универсальных пакетов имеют много пересечений по составу встроенных статистических процедур.

    Для того чтобы статистический пакет считался универсальным, он должен удовлетворять ряду требований:

    • содержать достаточно широкий набор стандартных статистических методов;
    • быть достаточно простым для быстрого освоения и использования непрофессиональным пользователем;
    • работать с достаточно большими базами данных и отвечать высоким требованиям к вводу, преобразованию и организации хранения данных;
    • осуществлять обмен данными с широко распространенными пакетами и базами данных;
    • иметь обширный набор средств графического представления данных и результатов их анализа;
    • иметь подробное документационное сопровождение и справочную систему, позволяющую начинающему пользователю с легкостью находить ответы на вопросы, связанные с работой программы и возможностями применения средств анализа данных.
  2. Профессиональные пакеты (например, SAS, BMDP).

    Профессиональные пакеты отличаются от универсальных тем, что позволяют работать со сверхбольшими объемами данных, применять узкоспециализированные методы анализа, создавать собственную систему обработки данных. Как правило, подобные пакеты сложны в освоении для непрофессионалов. В то же время подготовленным пользователям работа с профессиональным пакетом предоставит больше возможностей для глубокого и детального анализа данных, построения сложных моделей и адаптации системы к собственным потребностям. Профессиональные пакеты более дорогостоящи, чем универсальные. Например, стоимость покупки SAS Analytics Pro на один год для индивидуального пользования составляет 5 360 EUR2Цена по состоянию на август 2010 года.. Эти факторы делают современные профессиональные статистические пакеты слишком тяжеловесными для массового применения в различных областях деятельности.

  3. Специализированные пакеты (например, BioStat, MESOSAUR, DATASCOPE).

В некоторых областях деятельности анализируемые данные настолько специфичны, что к ним следует применять особые методы статистического анализа, как правило, не представленные в универсальных пакетах.

Специализированные пакеты позволяют проводить анализ с использованием ограниченного числа специализированных статистических методов или применимы к использованию для решения вопросов, относящихся к отдельно взятой предметной области. Как правило, с подобными статистическими пакетами работают специалисты, хорошо знакомые с методами анализа данных в той области, на которую ориентирован пакет. Так, статистический пакет BioStat создан для анализа данных в области биологии и медицины и будет подробнее рассмотрен ниже. Российский статистический пакет MESOSAUR специализируется на анализе одномерных и многомерных временных рядов и построении регрессионных моделей. Еще один российский статистический пакет DATASCOPE специализируется на проведении анализа многомерных данных.

Целесообразно пользоваться соответствующими специализированными пакетами, когда требуется систематически решать задачи из конкретной области или применять ограниченный круг сложных статистических процедур для анализа данных из нескольких областей человеческой деятельности.

Большинство представленных на рынке статистических пакетов обладают гибкой модульной структурой, которая может пополняться и расширяться за счет пользовательских модулей, дополнительно закупаемых или находящихся в свободном доступе в Интернете. Подобная гибкость позволяет адаптировать большинство пакетов к потребностям конкретного пользователя.

По мнению профессионалов, статистический пакет должен удовлетворять следующему минимальному набору требований3Айвазян С.А., Степанов В.С. Инструменты статистического анализа данных. М., 2000.:

  • модульность;
  • ассистирование при выборе способа обработки данных;
  • использование простого проблемно-ориентированного языка для формулировки задания пользователя;
  • автоматическая организация процесса обработки данных;
  • ведение банка данных пользователя и составление отчета о результатах проделанного анализа;
  • диалоговый режим работы пользователя с пакетом;
  • совместимость с другим программным обеспечением.

Как правило, представленные на рынке статистические пакеты регулярно обновляются. При этом в новой версии сохраняются или совершенствуются возможности предыдущей, а также добавляются новые возможности работы с данными. В большинстве случаев обновленные версии пакета сохраняют исходное название, изменяется лишь порядковый номер, присваиваемый конкретной версии. Самые распространенные пакеты имеют русскоязычную версию.

Разработчики большинства статистических пакетов часто утверждают, что разработанная ими программа является наилучшей для обработки данных. Учитывая многообразие предложения, подчас бывает сложно сделать правильный выбор. По мнению М. Митчелла, имеющего 20-летний опыт работы со статистическими пакетами и 11-летний опыт работы в качестве консультанта по статистике в Калифорнийском университете в Лос-Анджелесе, статистический пакет – всего лишь инструмент в руках мастера. Если специалист не обладает достаточными знаниями и компетенциями, то даже самый совершенный программный продукт не позволит провести качественный анализ данных. В то же время неправильно подобранный пакет, не обладающий необходимыми для анализа техническими характеристиками, способен замедлить работу даже выдающегося ученого, затруднив выявление необходимых закономерностей и получение верных результатов анализа данных4Mitchell, M. M. (2007). Strategically using General Purpose Statistics Packages: A Look at Stata, SAS and SPSS. UCLA ATS Statistical Consulting Group, Technical Report Series, Report #1. (http://www.ats.ucla.edu/stat/technicalreports/number1_editedFeb_2_2007/ ucla_ATSstat_tr1_1.1_0207.pdf).

В этой главе представлен обзор наиболее известных программных продуктов, разработанных для статистической обработки данных на компьютере и относящихся к упомянутым ранее трем основным группам программ (см. таблицу 11.1), перечислены их основные характеристики и возможности статистического анализа данных.

Таблица 11.1.
Универсальные пакеты или пакеты общего назначения Профессиональные пакеты Специализированные пакеты
SPSS, STATA, STATISTICA, Stadia, STATGRAPHICS, Minitab SAS BioStat

При рассмотрении каждого пакета отдельно будут отмечены возможности статистического анализа, которые он предоставляет пользователям. Необходимо отметить, что существует минимальный набор статистических методов анализа, который включен во все рассмотренные пакеты:

  • описательная статистика (базовые статистические методы, проверка нормальности распределения данных);
  • дисперсионный анализ;
  • непараметрическая статистика (анализ таблиц сопряженности, непараметрические сравнения, дисперсионный анализ);
  • контроль качества;
  • анализ выживаемости;
  • кластерный анализ;
  • факторный анализ;
  • дискриминантный анализ;
  • регрессионный анализ;
  • обработка данных (сортировка, отбор, трансформация данных).

11.2. Пакет SPSS

Пакет SРSS (Statistical Package for the Social Sciences) – универсальный статистический пакет компании SРSS Inc5Официальный сайт компании SPSS Inc.: http://www.spss.com. Первая версия пакета была выпущена в 1968 г. В 2009 г. компания IBM поглотила SPSS Inc., поэтому новая версия пакета включает в свое название аббревиатуру IBM (IBM SPSS Statistics 19).

По мнению разработчиков пакета, SPSS является одним из лидирующих программных продуктов в области статистического анализа данных для решения вопросов в правительственной, академической и бизнессфере.

SРSS является модульной программой. Ее основу составляет базовый модуль (SPSS Base), позволяющий осуществлять управление данными и содержащий наиболее распространенные методы статистического анализа данных: проведение описательной статистики; построение линейных и нелинейных моделей; осуществление преобразования данных; проведение факторного, кластерного, дисперсионного анализов; вычисление корреляций; построение графиков; подготовка отчетов и пр.

Для проведения расширенного и углубленного анализа данных могут быть установлены дополнительные модули пакета. Для пакета IBM SPSS Statistics 19 разработаны 16 различных модулей. Например, модуль IBM SPSS Advanced Statistics предназначен для проведения анализа сложных взаимосвязей при помощи процедур, учитывающих свойства исследуемых данных, что позволяет продвинуться за рамки базового анализа данных. В модуль встроены мощные инструменты построения моделей. Модуль IBM SPSS Bootstrapping ("Самогенерация") позволяет аналитикам проверять устойчивость построенных моделей, а модуль IBM SPSS Direct Marketing ("Прямой маркетинг") предоставляет возможность маркетологам самостоятельно выполнять основные виды анализа. Модуль IBM SPSS Data Entry автоматизирует процесс разработки анкеты и ввода результатов опросов.

Достоинства SPSS:

  • развитый аппарат статистического анализа;
  • универсальность (может быть использован для решения широкого круга вопросов из различных предметных областей, требующих проведения статистического анализа данных);
  • широкий набор статистических и графических процедур (более 50 типов диаграмм) анализа данных, а также процедур создания отчетов;
  • высокая скорость вычислений, простой и удобный интерфейс;
  • детальная контекстно-ориентированная справочная система, позволяющая неопытному пользователю с большей легкостью ориентироваться в программе;
  • возможность свободного скачивания демонстрационной версии продукта на официальном сайте компании, наличие версий продукта на различных языках;
  • совместимость с операционными системами Windows, Mac, Linux;
  • наличие значительного количества литературы по работе с пакетом.

Недостатки SPSS:

  • высокие требования к системе компьютера (требуется 1GB оперативной памяти, 800MB памяти на жестком диске и процессор с частотой 1GHz и выше);
  • высокая цена по сравнению со статистическими пакетами аналогичного уровня (стоимость покупки для индивидуального пользования сроком на год составляет около 1000 долл.6Цена по состоянию на август 2010 года.).

Последняя версия SPSS включает в себя следующие новые возможности:

  • импорт данных из Excel и SAS;
  • экспорт результатов в MS Office, PDF; сохранение результатов в формате HTML;
  • одновременная работа с несколькими наборами данных;
  • построение диаграммы для переменных с множественными ответами;
  • построение диаграммы с двумя осями Y;
  • улучшенный редактор синтаксиса с поддержкой автозавершения и цветового кодирования команд;
  • быстрая подготовка данных к анализу посредством Автоматизированной подготовки данных (IBM SPSS Data Preparation), позволяющей облегчить процесс интеллектуального анализа данных, выявляя и исправляя ошибки в данных и объясняя пропущенные значения. Также посредством этой функции можно подготовить отчет с рекомендациями о возможности использования данных для анализа.

На рис.11.1 представлено окно редактора данных SPSS. В левом нижнем углу окна расположены две вкладки: Данные (Data View) и Переменные (Variable View), позволяющие переключаться с режима просмотра значений переменных в режим просмотра их характеристик.

Окно редактора данных SPSS

Рис. 11.1. Окно редактора данных SPSS

Результаты статистического анализа приводятся в диалоговом окне под названием Вывод (Output) (рис.11.2).

Окно вывода SPSS

Рис. 11.2. Окно вывода SPSS
< Лекция 10 || Лекция 11: 1234 || Лекция 12 >
Аннна Миллер
Аннна Миллер
Екатерина Дмитриева
Екатерина Дмитриева