Опубликован: 13.05.2017 | Доступ: свободный | Студентов: 1691 / 783 | Длительность: 13:46:00
Специальности: Менеджер, Экономист
Лекция 3:

Сводка и группировка статистических данных

< Лекция 2 || Лекция 3: 123 || Лекция 4 >

3.3. Ряды распределения: виды, правила построения, графическое изображение

Результаты группировки собранных статистических данных, как правило, представляются в виде рядов распределения. Ряд распределения - это упорядоченное распределение единиц совокупности на группы по изучаемому признаку.

Ряды распределения делятся на атрибутивные и вариационные, в зависимости от признака, положенного в основу группировки. Если признак качественный, то ряд распределения называется атрибутивным. Примером атрибутивного ряда является распределение предприятий и организаций по формам собственности (см. табл. 3.1).

Если признак, по которому строится ряд распределения, количественный, то ряд называется вариационным.

Вариационный ряд распределения всегда состоит из двух частей: вариант и соответствующих им частот (или частостей). Вариантой называется значение, которое может принимать признак у единиц совокупности, частотой - количество единиц наблюдения, обладающих данным значением признака. Сумма частот всегда равна объему совокупности. Иногда вместо частот рассчитывают частости - это частоты, выраженные либо в долях единицы (тогда сумма всех частостей равна 1), либо в процентах к объему совокупности (сумма частостей будет равна 100%).

Вариационные ряды бывают дискретными и интервальными. У дискретных рядов (табл. 3.7) варианты выражены конкретными числами, чаще всего целыми.

Таблица 3.8. Распределение работников по времени работы в страховой компании
Время работы в компании, полных лет (варианты) Число работающих
Человек (частоты) в % к итогу (частости)
до года 15 11,6
1 17 13,2
2 19 14,7
3 26 20,2
4 10 7,8
5 18 13,9
6 24 18,6
Итого 129 100,0

В интервальных рядах (см. табл. 3.2) значения показателя задаются в виде интервалов. Интервалы имеют две границы: нижнюю и верхнюю. Интервалы могут быть открытыми и закрытыми. У открытых нет одной из границ, так, в табл. 3.2 у первого интервала нет нижней границы, а у последнего - верхней. При построении интервального ряда в зависимости от характера разброса значений признака используют как равные интервальные промежутки, так и неравные (в табл. 3.2 представлен вариационный ряд с равными интервалами).

Если признак принимает ограниченное число значений, обычно не больше 10, строят дискретные ряды распределения. Если вариант больше, то дискретный ряд теряет свою наглядность; в этом случае целесообразно использовать интервальную форму вариационного ряда. При непрерывной вариации признака, когда его значения в определенных пределах отличаются друг от друга на сколь угодно малую величину, также строят интервальный ряд распределения.

3.3.1. Построение дискретных вариационных рядов

Рассмотрим методику построения дискретных вариационных рядов на примере.

Пример 3.2. Имеются следующие данные о количественном составе 60 семей:

Таблица 3.9.
2 3 3 1 4 2 3 3 1 5 2 4 3 2 2 1 2 3 4 5
2 2 1 3 4 3 3 3 6 6 3 3 6 1 3 4 3 4 4 5
3 3 2 2 1 3 2 5 5 2 4 3 6 1 2 2 3 1 3 4

Для того чтобы получить представление о распределении семей по числу их членов, следует построить вариационный ряд. Поскольку признак принимает ограниченное число целых значений строим дискретный вариационный ряд. Для этого сначала рекомендуется выписать все значения признака (число членов в семье) в порядке возрастания (т.е. провести ранжирование статистических данных):

Таблица 3.10.
1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2
2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
3 3 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 6 6 6

Затем необходимо подсчитать число семей, имеющих одинаковый состав. Число членов семей (значение варьирующего признака) - это варианты (будем их обозначать через х), число семей, имеющих одинаковый состав, - это частоты (будем их обозначать через f ). Результаты группировки представим в виде следующего дискретного вариационного ряда распределения:

Таблица 3.11.
Число членов семьи (х) Число семей (y)
1 8
2 14
3 20
4 9
5 5
6 4
Итого 60

3.3.2. Построение интервальных вариационных рядов

Покажем методику построения интервальных вариационных рядов распределения на следующем примере.

Пример 3.3. В результате статистического наблюдения получены следующие данные о средней величине процентной ставки 50 коммерческих банков (%):

Таблица 3.12.
14,7 19,0 24,5 20,8 12,3 24,6 17,0 14,2 19,7 18,8
18,1 20,5 21,0 20,7 20,4 14,7 25,1 22,7 19,0 19,6
19,0 18,9 17,4 20,0 13,8 25,6 13,0 19,0 18,7 21,1
13,3 20,7 15,2 19,9 21,9 16,0 16,9 15,3 21,4 20,4
12,8 20,8 14,3 18,0 15,1 23,8 18,5 14,4 14,4 21,0

Как видим, просматривать такой массив данных крайне неудобно, кроме того, не видно закономерностей изменения показателя. Построим интервальный ряд распределения.

  1. Определим число интервалов.

    Число интервалов на практике часто задается самим исследователем исходя из задач каждого конкретного наблюдения. Вместе с тем его можно вычислить и математически по формуле Стерджесса

    n = 1 + 3,322lgN,

    где n - число интервалов;

    N - объем совокупности (число единиц наблюдения).

    Для нашего примера получим: n = 1 + 3,322lgN = 1 + 3,322lg50 = 6,6 " 7.

  2. Определим величину интервалов (i) по формуле

    где хmax - максимальное значение признака;

    хmin - минимальное значение признака.

    Для нашего примера

    Интервалы вариационного ряда наглядны, если их границы имеют "круглые" значения, поэтому округлим величину интервала 1,9 до 2, а минимальное значение признака 12,3 до 12,0.

  3. Определим границы интервалов.

    Интервалы, как правило, записывают таким образом, чтобы верхняя граница одного интервала являлась одновременно нижней границей следующего интервала. Так, для нашего примера получим: 12,0-14,0; 14,0-16,0; 16,0-18,0; 18,0-20,0; 20,0-22,0; 22,0-24,0; 24,0-26,0.

    Подобная запись означает, что признак непрерывный. Если же варианты признака принимают строго определенные значения, например, только целые, но их количество слишком велико для построения дискретного ряда, то можно создать интервальный ряд, где нижняя граница интервала не будет совпадать с верхней границей следующего интервала (это будет означать, что признак дискретный). Например, в распределении работников предприятия по возрасту можно создать следующие интервальные группы лет: 18-25, 26-33, 34-41, 42-49, 50-57, 58-65, 66 и более.

    Кроме того, в нашем примере мы могли бы сделать первый и последний интервалы открытыми, т.д. записать: до 14,0; 24,0 и выше.

  4. По исходным данным построим ранжированный ряд. Для этого запишем в порядке возрастания значения, которые принимает признак. Результаты представим в таблице:
    Таблица 3.13. Ранжированный ряд величин процентной ставки коммерческих банков
    Ставка банка % (варианты)
    12,3 17,0 19,9 23,8
    12,8 17,4 20,0 24,5
    13,0 18,0 20,0 24,6
    13,3 18,1 20,4 25,1
    13,8 18,5 20,4 25,6
    14,2 18,7 20,5
    14,3 18,8 20,7
    14,4 18,9 20,7
    14,7 19,0 20,8
    14,7 19,0 21,0
    15,1 19,0 21,0
    15,2 19,0 21,1
    15,3 19,0 21,4
    16,0 19,6 21,9
    16,9 19,7 22,7
  5. Подсчитаем частоты.

    При подсчете частот может возникнуть ситуация, когда значение признака попадет на границу какого-либо интервала. В таком случае можно руководствоваться правилом: данная единица приписывается к тому интервалу, для которого ее значение является верхней границей. Так, значение 16,0 в нашем примере будет относиться ко второму интервалу.

Результаты группировки, полученные в нашем примере, оформим в таблице.

Таблица 3.14. Распределение коммерческих банков по величине кредитной ставки
Краткая ставка, % Количество банков, ед. (частоты) Накопленные частоты
12,0-14,0 5 5
14,0-16,0 9 14
16,0-18,0 4 18
18,0-20,0 15 33
20,0-22,0 11 44
22,0-24,0 2 46
24,0-26,0 4 50
Итого 50 -

В последней графе таблицы представлены накопленные частоты, которые получают путем последовательного суммирования частот, начиная с первой (например, для первого интервала - 5, для второго интервала 5 + 9 = 14, для третьего интервала 5 + 9 + 4 = 18 и т.д. ). Накопленная частота, например, 33, показывает, что у 33 банков кредитная ставка не превышает 20% (верхняя граница соответствующего интервала).

В процессе группировки данных при построении вариационных рядов иногда используются неравные интервалы. Это относится к тем случаям, когда значения признака подчиняются правилу арифметической или геометрической прогрессии или когда применение формулы Стерджесса приводит к появлению "пустых" интервальных групп, не содержащих ни одной единицы наблюдения. Тогда границы интервалов задаются произвольно самим исследователем исходя из здравого смысла и целей обследования либо по формулам. Так, для данных, изменяющихся в арифметической прогрессии, величина интервалов вычисляется следующим образом:

ik = ik - 1 + c,

где ik - величина вычисляемого интервала;

ik - 1 - величина предыдущего интервала;

с - константа, на которую происходит увеличение длин интервалов.

Порядок расчетов границ неравных интервалов для данных, изменяющихся приблизительно в арифметической прогрессии, показан в табл. 3.15.

Таблица 3.15. Схема интервального вариационного ряда с неравными интервалами для данных, подчиняющихся правилу арифметической прогрессии
Номер интервала Границы интервала Расчет величины интервала
1 0-100 100 (величина первого интервала задается исследователем
2 100-350 100 + 150 = 250 (с = 150 - задается исследователем)
3 350-750 250 + 150 =400
4 750-1300 400 + 150 = 550
5 1 300-2 000 550 + 150 = 700
6 2 000-2 850 700 + 150 =850

Для показателей, приблизительно изменяющихся в геометрической прогрессии, величину интервалов можно вычислить по формуле

ik = ik - 1 &#183; c

где ik - величина вычисляемого интервала;

ik - 1 - величина предыдущего интервала;

с - константа-множитель геометрической прогрессии.

Для графического изображения дискретного вариационного ряда используется полигон распределения: на оси абсцисс откладывают значения вариант, а на оси ординат - соответствующие им частоты или частости, полученные точки соединяют отрезками (образуется ломаная линия). По данным табл. 3.7 построим полигон распределения (рис. 3.1).

Полигон распределения

Рис. 3.1. Полигон распределения

Для графического изображения интервального ряда используют гистограмму, имеющую вид многоступенчатой фигуры, состоящей из прямоугольников. По оси абсцисс откладывают значения границ интервалов. Сами интервалы будут являться основаниями прямоугольников. Высота прямоугольников соответствует частоте или частости интервалов, которые откладываются по оси ординат.

По данным таблицы, приведенной в примере 3.3, построим гистограмму (рис. 3.2).

При неравных интервалах у гистограммы распределения высотами прямоугольников будут являться показатели плотности распределения, рассчитываемые как частное от деления частоты интервала на его величину.

Зависимость между значениями признака и накопленными частотами показывают особые графики, называемые кумулятой и огивой распределения.

Если ряд дискретный, то по оси абсцисс откладывают значения вариант ряда, а по оси ординат - рассчитанные накопленные частоты, получаемые для каждой конкретной варианты как сумма всех предыдущих частот. Полученные точки соединяют ломаной линией. Вместо значений накопленных частот можно взять значения накопленных частостей, тогда верхняя точка на кумулятивной кривой по оси ординат будет соответствовать значению 100%.

Гистограмма распределения

Рис. 3.2. Гистограмма распределения

В случае интервального ряда при построении кумуляты по оси абсцисс отмечают границы интервальных групп, накопленные частоты по оси ординат относят к верхним границам интервалов.

По данным таблицы, приведенной в примере 3.3, построим кумуляту распределения для интервального ряда (рис. 3.2).

Кумулята распределения

Рис. 3.3. Кумулята распределения

Если у кумулятивной кривой поменять местами ось абсцисс с осью ординат, получим график, называемый огивой распределения (рис. 3.4).

Огива распределения

Рис. 3.4. Огива распределения
< Лекция 2 || Лекция 3: 123 || Лекция 4 >
Юрий Насакин
Юрий Насакин

Мне нужно изучить математическую статистику с нуля для обработки данных на компьютере. Читаю уже вторую лекцию, но пока ничего даже отдалённо близкого к моей цели не нахожу. Есть ли математическая статистика в дальнейших лекциях? Или я зря теряю время на изучение этого курса? У меня крайне ограниченный временной срок - я не могу терять время на самостоятельную проверку моего вопроса посредством изучения данного курса.

Альмира Мукашева
Альмира Мукашева

Какие документы еще необходимы что бы получить удостоверение?