Опубликован: 09.11.2009 | Доступ: свободный | Студентов: 3657 / 731 | Оценка: 4.66 / 4.45 | Длительность: 54:13:00
Специальности: Экономист
Лекция 1:

Различные виды статистических данных

Лекция 1: 123456789 || Лекция 2 >
Аннотация: Лекция знакомит с количественными и качественными типами статистических данных, подробно описаны шкалы измерения. Много внимания уделяется различным объектам нечисловой природы, в том числе нечетким множествам. Рассматривается пример описания неопределенности с помощью нечеткого множества - исследование представления различных слоев населения о понятии "богатый человек". Описываются данные и расстояния в пространствах произвольной природы, в том числе аксиоматическое введение расстояний.
Ключевые слова: информация, ПО, значение, таблица, объект, вектор, выборка, функция, временной ряд, множества, статистика, вектор функций, коэффициенты, кластерный анализ, НИОКР, ранг, операции, поиск, шкала измерений, вес, шкала, группа, единица, метод экспертных оценок, прямой, шкала отношений, длина, свободными членами, математика, тождественное преобразование, определение, опыт, список, вывод, Профессия, неравенство, алгоритм, отношение, подмножество, отношение эквивалентности, разбиение, класс эквивалентности, регрессионными зависимостями, строгие порядки, класс, ранжирование, математическая модель, контроль, анализ, дискретизация, деление, статистический анализ, статистические методы, координаты, выражение, оценка максимального правдоподобия, расстояние, метрика, работ, нормальное распределение, математическим ожиданием, дискретное распределение, выход, случайная величина, контролируемые параметры, процесс обработки данных, полином, адекватность модели, параметр, произвольное, частичный порядок, мощность, оценивание, разность множеств, предел, факторный анализ, компонент, представление, лингвистическая переменная, нечеткое множество, функция принадлежности, нечеткая математика, принятия решений, Построение математической модели, fuzzy set, теоретико-множественные операции, Законы де Моргана, доказательство, операция отрицания, ясность, равенство, тождество, опрос, выборочной средней, медиана, интервал, эмпирическая функция, MIN, MAX, матрица, аппроксимация, графика, инструментарий, дискретная случайная величина, непрерывная модель, автор, статистическая гипотеза, ядро, числовой функцией, синоним, плоскость, евклидово расстояние, пространство, метрическое пространство, аксиома треугольника, мера, дисперсия, отношение сходства, Неориентированный граф, евклидово пространство, объединение, пересечение, разность, алгебра, аксиома, обобщение, Пустое множество, слово, индикатор, конечная последовательность, симметричная функция, интегрирование, множитель, эквивалентность, место, фигурные скобки

1.1. Количественные и категоризованные данные

Методы прикладной статистики - это методы анализа данных, причем обычно достаточно большого их количества. Статистические данные могут иметь различную природу. Исторически самыми ранними были два вида данных - сведения о числе объектов, удовлетворяющих тем или иным условиям, и числовые результаты измерений.

Первый из этих видов до сих пор главенствует в сборниках государственных статистических органов. Такого рода данные часто называют категоризованными, поскольку о каждом из рассматриваемых объектов известно, в какую из нескольких заранее заданных категорий он попадает. Примером является информация Росстата о населении страны, с разделением по возрастным категориям и полу. Часто при составлении таблиц жертвуют информацией, заменяя точное значение измеряемой величины на указание интервала группировки, в которую это значение попадает. Например, вместо точного возраста человека используют лишь один из указанных в таблице возрастных интервалов.

Второй наиболее распространенный вид - количественные данные, рассматриваемые как действительные числа. Таковы результаты измерений, наблюдений, испытаний, опытов, анализов. Количественные данные обычно описываются набором чисел (выборкой), а не таблицей.

Нельзя утверждать, что категоризованные данные соответствуют первому этапу исследования, а числовые - следующему, на котором используются более совершенные методы измерения. Дело в том, что человеку свойственно давать качественные ответы на возникающие в его практической деятельности вопросы. Примером является используемая А.А. Пивнем таблица сильных и слабых сторон внутренней среды конкретной компании (табл.1.1).

Ясно, что вполне можно превратить в числа значения признаков, названия которых приведены в столбце "Показатели компании", однако этот переход будет зависеть от исследователя, носить неизбежный налет субъективизма.

Иногда не удается однозначно отнести данные к категоризованным или количественным. Например, в Ветхом Завете, в Четвертой книге Моисея "Числа" указывается количество воинов в различных коленах. С одной стороны, это типичные категоризованные данные, градациями служат названия колен. С другой стороны, эти данные можно рассматривать как количественные, как выборку, их вполне естественно складывать, вычислять среднее арифметическое и т.п.

Описанная ситуация типична. Существует весьма много различных видов статистических данных. Это связано, в частности, со способами их получения. Например, если испытания некоторых технических устройств продолжаются до определенного момента, то получаем так называемые цензурированные данные, состоящие из набора чисел - продолжительности работы ряда устройств до отказа, и информации о том, что остальные устройства продолжали работать в момент окончания испытания. Такого рода данные часто используются при оценке и контроле надежности технических устройств.

Описание вида данных и, при необходимости, механизма их порождения - начало любого статистического исследования.

В простейшем случае статистические данные - это значения некоторого признака, свойственного изучаемым объектам. Значения могут быть количественными или представлять собой указание на категорию, к которой можно отнести объект. Во втором случае говорят о качественном признаке. Используют и более сложные признаки, перечень которых будет расширяться по мере развертывания изложения в учебнике.

При измерении по нескольким количественным или качественным признакам в качестве статистических данных об объекте получаем вектор. Его можно рассматривать как новый вид данных. В таком случае выборка состоит из набора векторов. Если часть координат - числа, а часть - качественные (категоризованные) данные, то говорим о векторе разнотипных данных.

Одним элементом выборки, т.е. одним измерением, может быть и функция в целом. Например, электрокардиограмма больного или амплитуда биений вала двигателя, или временной ряд, описывающий динамику показателей определенной фирмы. Тогда выборка состоит из набора функций.

Элементами выборки могут быть и бинарные отношения. Например, при опросах экспертов часто используют упорядочения (ранжировки) объектов экспертизы - образцов продукции, инвестиционных проектов, вариантов управленческих решений. В зависимости от регламента экспертного исследования элементами выборки могут быть различные виды бинарных отношений (упорядочения, разбиения, толерантности), множества, нечеткие множества и т.д.

Итак, математическая природа элементов выборки в различных задачах прикладной статистики может быть самой разной. Однако можно выделить два класса статистических данных - числовые и нечисловые. Соответственно прикладная статистика разбивается на две части - числовую и нечисловую.

Числовые статистические данные - это числа, векторы, функции. Их можно складывать, умножать на коэффициенты. Поэтому в числовой статистике большое значение имеют разнообразные суммы. Математический аппарат анализа сумм случайных элементов выборки – это (классические) законы больших чисел и центральные предельные теоремы (см. "Теоретическая база прикладной статистики" ).

Нечисловые статистические данные - это категоризованные данные, векторы разнотипных признаков, бинарные отношения, множества, нечеткие множества и др. Их нельзя складывать и умножать на коэффициенты. Поэтому не имеет смысла говорить о суммах нечисловых статистических данных. Они являются элементами нечисловых математических пространств (множеств). Математический аппарат анализа нечисловых статистических данных основан на использовании расстояний между элементами (а также мер близости, показателей различия) в таких пространствах. С помощью расстояний определяются эмпирические и теоретические средние, доказываются законы больших чисел, строятся непараметрические оценки плотности распределения вероятностей, решаются задачи диагностики и кластерного анализа, и т.д. (см. "Статистика нечисловых данных" ).

Сведем информацию об основных областях прикладной статистики в табл.1.2. Отметим, что модели порождения цензурированных данных входят в состав каждой из рассматриваемых областей.

Таблица 1.1. Оценка сильных и слабых сторон внутренней среды компании
Показатели компании Оценка показателя (по отношению к предприятиям отрасли) Важность (вес)
Очень высокая Высокая Средняя Низкая Очень низкая Высокая Средняя Низкая
1 2 3 4 5 6 7 8 9
Финансы
1. Оценка структуры активов Х Х
2. Инвестиционная привлекательность Х Х
3. Доход на активы Х Х
4. Норма прибыли Х Х
5. Доход на вложенный капитал Х Х
Производство
1. Использование оборудования Х Х
2. Производственные мощности Х Х
3. Численность персонала Х Х
4. Система контроля качества Х Х
5. Возможность расширения производства Х Х
6. Износ оборудования Х Х
Организация и управление
1. Численность ИТР и управленческого персонала Х Х
2. Скорость реакции управления на изменения во внешней среде Х Х
3. Четкость разделения полномочий и функций Х Х
4. Качество используемой в управлении информации Х Х
5. Гибкость оргструктуры управления Х Х
Маркетинг
1. Доля рынка Х Х
2. Репутация компании Х Х
3. Престиж торговой марки Х Х
4. Стимулирование сбыта Х Х
5. Численность сбытового персонала Х Х
6. Уровень цен Х Х
7. Уровень сервиса Х Х
8. Число клиентов Х Х
9. Качество поступающей информации Х Х
Кадровый состав
1. Уровень квалификации производственного персонала Х Х
2. Расходы по подготовке и переподготовке персонала Х Х
3. Уровень подготовке сбытового персонала в технической области Х Х
Технология
1. Применяемые стандарты Х Х
2. Новые продукты Х Х
3. Расходы на НИОКР Х Х
Таблица 1.2. Области прикладной статистики
№ п/п Вид статистических данных Область прикладной статистики
1 Числа Статистика (случайных) величин
2 Конечномерные векторы Многомерный статистический анализ
3 Функции Статистика случайных процессов и временных рядов
4 Объекты нечисловой природы Статистика нечисловых данных (статистика объектов нечисловой природы)
Лекция 1: 123456789 || Лекция 2 >
Михаил Яковлев
Михаил Яковлев
Россия, Санкт-Петербург
Dmitry Kalinnikov
Dmitry Kalinnikov
Россия, Москва