| Почему сейчас я не зачислена на курс? |
Описание данных
5.2. Таблицы и выборочные характеристики
Исходные статистические данные могут быть достаточно обширными. В качестве примера приведем результаты экспертного опроса, проведенного Институтом высоких статистических технологий и эконометрики в 1994 г. (табл.5.1). В первом столбце приведены номера экспертов, в остальных четырех - четыре прогнозных значения, полученных от каждого эксперта. Отметим, что эксперт № 28 не ответил на вопрос об инфляции. В таблицах реальных данных приходится сталкиваться с пропусками.
Описание данных - это первичное сжатие информации с целью сделать ее более обозримой, легкой для восприятия. Самый древний способ - это составление различных таблиц, вторичных по отношению к таблицам исходных данных.
| № п/п | Курс доллара США, руб. | Инфляция (%) за период прогноза | Цена батона белого хлеба, руб. | Цена 1 л молока, руб. |
|---|---|---|---|---|
| 1 | 4185 | 4,0 | 800 | 1305 |
| 2 | 4270 | 2,8 | 1028 | 1322 |
| 3 | 3200 | 17,0 | 760 | 755 |
| 4 | 4000 | 16,0 | 950 | 1000 |
| 5 | 3500 | 16,0 | 820 | 800 |
| 6 | 3800 | 5,0 | 1000 | 1000 |
| 7 | 3500 | 3,5 | 500 | 1500 |
| 8 | 3300 | 62,0 | 800 | 780 |
| 9 | 4100 | 54,0 | 900 | 899 |
| 10 | 3560 | 10,0 | 870 | 1050 |
| 11 | 4000 | 54,0 | 1000 | 1000 |
| 12 | 5200 | 54,0 | 1500 | 1500 |
| 13 | 4000 | 9,0 | 830 | 1300 |
| 14 | 6000 | 54,0 | 2000 | 2000 |
| 15 | 4000 | 40,0 | 950 | 1200 |
| 16 | 3400 | 13,0 | 750 | 900 |
| 17 | 3500 | 15,0 | 1000 | 1250 |
| 18 | 4200 | 2,5 | 1000 | 1500 |
| 19 | 3560 | 200,0 | 940 | 1200 |
| 20 | 4300 | 6,0 | 950 | 1570 |
| 21 | 4000 | 3,0 | 1000 | 1100 |
| 22 | 4500 | 12,0 | 950 | 1100 |
| 23 | 4200 | 11,0 | 890 | 1100 |
| 24 | 3900 | 54,0 | 1000 | 1000 |
| 25 | 5500 | 62,0 | 1000 | 1400 |
| 26 | 5000 | 73,0 | 1000 | 1200 |
| 27 | 5600 | 54,0 | 1200 | 2000 |
| 28 | 3900 | - | 1500 | 1400 |
| 29 | 4200 | 38,0 | 950 | 1100 |
| 30 | 3680 | 38,0 | 850 | 1100 |
| 31 | 4000 | 2,0 | 840 | 1100 |
| 32 | 4600 | 46,0 | 1000 | 1100 |
| 33 | 4560 | 92,0 | 1300 | 1400 |
Например, рассмотрим последний столбец табл.5.1. Для лучшего восприятия прогнозов экспертов о цене 1 л молока сгруппируем данные по интервалам, как это сделано в табл.5.2.
| № п/п | Интервал, руб. | Число ответов |
|---|---|---|
| 1 | 700-799 | 2 |
| 2 | 800-899 | 2 |
| 3 | 900-999 | 1 |
| 4 | 1000-1099 | 5 |
| 5 | 1100-1199 | 7 |
| 6 | 1200-1299 | 4 |
| 7 | 1300-1399 | 3 |
| 8 | 1400-1499 | 3 |
| 9 | 1500-1599 | 4 |
| 10 | 2000 | 2 |
| Всего | 33 |
Группировка данных в табл.5.2 по 10 интервалам может показаться слишком дробной. Нетрудно объединить градации и получить следующее (см. табл.5.3).
| № п/п | Интервал, руб. | Число ответов |
|---|---|---|
| 1 | 700-999 | 5 |
| 2 | 1000-1299 | 16 |
| 3 | 1300-1599 | 10 |
| 4 | 2000 | 2 |
| 5 | Всего | 33 |
Сколько использовать градаций (т.е. строк в таблице)? Общих рекомендаций дать нельзя. Ответ зависит от цели статистического исследования, от структуры конкретных данных.
Табличный материал может быть выражен в виде различных диаграмм, в том числе круговых и столбчатых. Несколько десятков лет назад были популярны гистограммы - столбчатые диаграммы, для которых интервалы группирования имеют одинаковую длину.
В настоящее время гистограммы рассматривают как устаревшие инструменты статистического анализа. Для описания массива данных рекомендуется использовать вариационные ряды, эмпирические функции распределения (см. "Основы вероятностно-статистических методов описания неопределенностей" ) и - особенно настоятельно - непараметрические оценки плотности (см. п.5.6). Кроме того, целесообразно рассчитывать и приводить в документации в разделе "Описание данных" выборочные характеристики:
- выборочное среднее арифметическое;
- выборочную дисперсию;
- выборочное среднее квадратическое отклонение;
- коэффициент вариации;
- медиану;
- минимум (первый член вариационного ряда);
- максимум (последний член вариационного ряда);
- размах;
- моду и амплитуду моды;
- верхний квартиль;
- нижний квартиль;
- межквартильное расстояние.
Определения всех этих выборочных характеристик даны выше в "Основы вероятностно-статистических методов описания неопределенностей" . В настоящем подразделе сведены вместе наиболее распространенные приемы описания числовых данных.