Мне нужно изучить математическую статистику с нуля для обработки данных на компьютере. Читаю уже вторую лекцию, но пока ничего даже отдалённо близкого к моей цели не нахожу. Есть ли математическая статистика в дальнейших лекциях? Или я зря теряю время на изучение этого курса? У меня крайне ограниченный временной срок - я не могу терять время на самостоятельную проверку моего вопроса посредством изучения данного курса. |
Выборочное наблюдение в статистике
11.1. Основные положения теории выборочного метода наблюдения
Суть выборочного метода заключается в отборе отдельных единиц обследуемой совокупности по специальным правилам, гарантирующим реализацию принципа случайности отбора, с целью получения обобщающих статистических характеристик изучаемой совокупности.
Выборочный метод позволяет получать достоверные результаты лишь тогда, когда соблюдается принцип равновозможности каждой единицы быть отобранной. При этом только случай, а не какой-либо иной фактор, влияет на решение включить рассматриваемую единицу в выборочную совокупность или нет. Из всех методов несплошного наблюдения выборочный считается наиболее теоретически разработанным. Положенный в его основу принцип случайности позволяет математически обосновать дальнейшее распространение выборочных характеристик на всю совокупность.
Выборочная совокупность репрезентативна (представительна) в том случае, если она верно отражает закономерности, структуру генеральной совокупности.
Широкое применение выборочного метода в статистической практике объясняется рядом его преимуществ по сравнению со сплошным наблюдением. Основными являются:
- быстрота получения результатов обследования. Существенное уменьшение объема наблюдения за счет отбора лишь части единиц совокупности позволяет быстрее собрать информацию и оперативнее получить сводные результаты обследования;
- значительное снижение затрат, непосредственно связанных с проведением наблюдения. При использовании выборки затраты уменьшаются за счет сокращения количества обследуемых единиц наблюдения;
- возможность расширения программы наблюдения. Уменьшение количества наблюдаемых единиц позволяет изучить их детальнее, используя более широкий перечень вопросов;
- возможность использования в тех случаях, когда проведение сплошного наблюдения методологически невозможно. Например, при статистических исследованиях качества продукции либо когда генеральная совокупность объектов бесконечно велика и нет возможности обследовать каждую единицу (при маркетинговых обследованиях покупателей, изучении пассажиропотоков и т.д.).
Вместе с тем выборочный метод имеет ряд недостатков. Важнейший из них связан с наличием ошибок репрезентативности, которые обусловлены тем, что наблюдаются не все единицы изучаемой совокупности. Кроме того, его проведение требует привлечения высококвалифицированного персонала, что в свою очередь ведет к увеличению стоимости обследования.
11.1.1. Основные определения и обозначения
В теории выборочного наблюдения используются специфические понятия, определения и обозначения.
Под термином генеральная совокупность понимается изучаемая статистическая совокупность, из которой проводится отбор единиц для непосредственного наблюдения (количество единиц генеральной совокупности обозначается через N).
Отобранная по определенным правилам часть единиц генеральной совокупности образует выборочную совокупность (n - количество единиц выборочной совокупности).
Доля выборочной совокупности в общем объеме генеральной совокупности, выраженная в процентах, называется долей отбора (процентом выборки, процентом отбора):
Например, при объеме генеральной совокупности в 200 единиц и выборочной - в 50 единиц говорят о 25%-ной выборке (доля отбора - 25%).
Если исследуется количественный признак, то непосредственная задача выборочного наблюдения - это оценка среднего и суммарного значения признака. Среднее значение признака в генеральной совокупности принято обозначать через x. По данным генеральной совокупности оно может быть определено как
Среднее значение признака в выборочной совокупности обозначается через x. Оно исчисляется как
Дисперсия единиц количественного признака определяется следующим образом:
- генеральная дисперсия
Так как генеральная дисперсия по большей части в ходе исследования остается неизвестной, то условно принимают ее равной дисперсии, рассчитываемой по выборочным данным;
- выборочная дисперсия
Наряду с нахождением характеристик количественных признаков могут оцениваться характеристики альтернативных показателей.
Обозначая численность единиц, обладающих изучаемым признаком, в генеральной совокупности через М, а в выборочной - через m, получим долю единиц, обладающих исследуемым признаком в генеральной совокупности: p = M/N и в выборочной: w = m/n.
Дисперсия альтернативного признака рассчитывается следующим образом:
- генеральная дисперсия доли где q - доля единиц, не обладающих исследуемым признаком (q = 1 - p);
- выборочная дисперсия доли
Основной целью статистического наблюдения является получение достоверной статистической информации. Но при любом способе наблюдения могут возникнуть погрешности, которые приведут к снижению качества получаемой информации. Эти погрешности называются ошибками наблюдения. При сплошном наблюдении возможны только ошибки регистрации (случайные и систематические). При выборочном наблюдении возможны как ошибки регистрации, так и ошибки репрезентативности. Те и другие могут носить как случайный, так и систематический характер.
Задача выборочного наблюдения состоит в измерении случайной ошибки репрезентативности, которая возникает вследствие несплошного характера наблюдения при любом способе отбора.
11.1.2. Основные этапы работ при организации выборочного наблюдения
К основным этапам работ при организации выборочного наблюдения относятся:
- постановка цели и определение задач выборочного наблюдения в соответствии с экономической задачей исследования;
- разработка программы наблюдения;
- проектирование бланков анкет, создание инструкции по проведению наблюдения и заполнению статистических формуляров;
- решение организационных вопросов наблюдения, в том числе подготовка квалифицированного персонала;
- определение состава единиц генеральной совокупности;
- выбор способа формирования выборочной совокупности, решение вопросов, связанных с определением доли отбора, объема выборки и размера допустимой ошибки наблюдения;
- сбор данных (регистрация исследуемых признаков у отобранных единиц наблюдения);
- получение характеристик выборочной совокупности;
- определение ошибок выборки;
- распространение результатов выборки на изучаемую cовокупность;
- выводы и рекомендации на основе полученных результатов выборочного наблюдения.
11.1.3. Роль закона больших чисел при определении ошибок выборочного наблюдения
Центральное место в теории выборочного наблюдения занимает задача оценки репрезентативности выборочной совокупности. Ошибки репрезентативности представляют собой отклонения характеристик выборочной совокупности от характеристик генеральной.
Теория оценивания ошибок выборки базируется на ряде предельных теорем под общим названием "закон больших чисел". В них доказывается, что ошибки могут быть сведены к минимальным значениям. При этом возможно установить их значения с требуемой точностью.
Так, в приложении к выборочному методу из теоремы Чебышева следует, что с вероятностью, сколь угодно близкой к единице, можно утверждать, что при достаточно большом объеме выборки, полученной с соблюдением всех правил ее формирования, разность между генеральной и выборочной средними будет сколь угодно мала. Теорема Ляпунова позволяет оценить предельную ошибку выборки для среднего значения признака. Теорема Бернулли является частным случаем теоремы Чебышева применительно к исследованию доли альтернативного признака.
11.1.4. Способы отбора единиц в выборочную совокупность. Классификация видов выборочного наблюдения
Различают индивидуальный, групповой и комбинированный отбор.
При индивидуальном отборе в выборочную совокупность отбираются отдельные единицы генеральной совокупности, например при обследованиях промышленности - предприятия, при обследованиях населения - конкретные люди и т.д. Индивидуальный отбор применяется при организации собственно случайной, механической, типической выборок.
При групповом отборе единицы отбираются группами; ими могут быть, например, бригады, микрорайоны (этот вид отбора свойственен для серийной выборки).
Комбинированный отбор предполагает сочетание индивидуального и группового отбора, например, сначала отбираются группы единиц (групповой отбор), а затем из них случайным образом - конкретные единицы (индивидуальный отбор). В этом случае выборка также называется комбинированной.
Кроме того, каждый из перечисленных способов отбора может быть бесповторным или повторным.
Бесповторным является такой отбор, в результате которого однажды отобранная в выборку единица наблюдения не может быть отобранной из генеральной совокупности во второй раз. При повторном отборе попавшая в выборку единица наблюдения вновь возвращается в совокупность, и ее можно отобрать во второй, третий раз и т.д.
В статистике встречаются разнообразные виды выборок: собственно-случайная выборка, механическая, типическая, серийная, комбинированная. Свои особенности имеет малая выборка.
Вид выборки определяется задачами исследования, полнотой и особенностями информации, которой мы располагаем об объекте наблюдения.
Собственно-случайная выборка. Отбор единиц при использовании собственно случайной выборки производится путем жеребьевки или с использованием таблицы случайных чисел. При этом все единицы совокупности должны иметь равные шансы попасть в выборочную совокупность.
Для отбора единиц наблюдения путем жеребьевки подготавливаются определенные жребии: шары или карточки (могут применяться и другие виды жребиев), содержащие ссылки на конкретную единицу генеральной совокупности - ее номер, если совокупность пронумерована, адрес и т.д. Жребии перемешивают и в случайном порядке отбирают n штук, ровно столько, сколько единиц должно быть отобрано в выборочную совокупность. Этот способ хорош, если количество объектов генеральной совокупности невелико и имеется возможность на каждый из них завести жребий. Но на практике чаще всего работают с большими совокупностями - порядка десятков или сотен тысяч единиц. Тогда прибегают к помощи таблиц случайных чисел.
Таблица случайных чисел представляет собой набор колонок случайных цифр. Случайность сочетания определяется отсутствием закона их расположения и приблизительно равной частотой встречаемости каждой из десяти цифр при образовании случайного числа.
Существует множество методов составления таблиц случайных чисел. В наше время они генерируются с помощью датчика случайных чисел. Его содержат все современные статистические пакеты прикладных программ, а также Excel, входящий в набор стандартных программ для Windows.
Пример 11.1. Предположим нужно отобрать 15 студентов из 200, обучающихся на первом курсе, методом случайной бесповторной выборки.
Ряд | 01 | 02 | 03 | 04 | 05 | 06 | |
---|---|---|---|---|---|---|---|
Колонка | 1 | 66194 | 78240 | 00833 | 12111 | 47189 | 76396 |
2 | 28926 | 43195 | 88000 | 86683 | 99951 | 72486 | |
Ряд | 07 | 08 | 09 | 10 | 11 | 12 | |
Колонка | 1 | 46409 | 74626 | 34450 | 36327 | 74185 | 12296 |
2 | 17469 | 22111 | 81974 | 72135 | 77536 | 41623 | |
Ряд | 13 | 14 | 15 | 16 | 17 | 18 | |
Колонка | 1 | 60822 | 72121 | 95268 | 92603 | 18813 | 38840 |
2 | 60280 | 79152 | 41377 | 09091 | 90291 | 26903 | |
Ряд | 19 | 20 | 21 | 22 | 23 | 24 | |
Колонка | 1 | 05959 | 85141 | 75047 | 30752 | 22986 | 99439 |
2 | 33836 | 21155 | 59643 | 95260 | 82575 | 86692 | |
Ряд | 25 | 26 | 27 | 28 | 29 | 30 | |
Колонка | 1 | 20389 | 39249 | 96777 | 04860 | 41613 | 17930 |
2 | 93029 | 05173 | 33605 | 32918 | 42375 | 00794 | |
Ряд | 31 | 32 | 33 | ||||
Колонка | 1 | 24649 | 79899 | 76801 | |||
2 | 31845 | 34061 | 49594 |
Проведем отбор с помощью таблицы случайных чисел следующим образом:
- пронумеруем единицы изучаемой совокупности, т.д. присвоим каждому студенту индивидуальный номер, начиная с 001, 002, и т.д. до 200.
- из таблицы случайных чисел выберем любой ее фрагмент, например первые два столбца;
- поскольку объем выборки составляет 15 студентов, нам нужно отобрать в случайном порядке 15 трехзначных чисел из приведенного фрагмента. Так как индивидуальные номера, присвоенные студентам, являются трехзначными, а в рассматриваемой таблице содержатся пятизначные комбинации цифр, мы будет рассматривать только три, например, последние цифры в каждой комбинации, начиная с первой из выбранного фрагмента. При этом трехзначное число не должно превышать 200 (т.е. индивидуального номера последнего студента в списке). Следуя этим правилам, мы должны выписать число 194, пропускаем числа 240 и 833, поскольку они больше 200, затем выпишем 111, 189 и т.д. до 173 (т.е. 15 чисел) (в табл. эти числа выделены).
Среди выписанных чисел число 111 встречается дважды, а по условию отбор должен быть случайным бесповторным. Поэтому одно из этих чисел пропустим и запишем следующее после 173 подходящее по условию число - это число 061.
В итоге получим следующие числа:
194, 111, 189, 185, 121, 141, 047,
195, 135, 152, 091, 155, 029, 173, 061.
В выборочную совокупность должны быть включены студенты, индивидуальные номера которых в исходном списке соответствуют отобранным числам. Таким образом, в выборку попали студенты, имеющие следующие номера в списке:
029, 047, 061, 091, 111, 121, 135,
141, 152, 155, 173, 185, 189, 194, 195.
Механическая выборка. Наряду со случайным отбором в практике выборочного наблюдения применяется механический отбор. При этом все единицы генеральной совокупности нумеруются числами от 1 до N, после чего отбирается каждая (N/n)-я единица для обследования. Величина N/n называется шагом, или интервалом, отбора.
Если список единиц в генеральной совокупности составлен в порядке возрастания изучаемого признака, указанный подход может привести к систематической ошибке: начиная отбор с первой единицы из этого интервала получим заниженную оценку генеральной средней, если начать с последней - завышенную. Поэтому целесообразно выбрать начальную точку отсчета (отбора) случайным образом, а затем производить отбор в соответствии с рассчитанным шагом отбора.
Допустим, надо отобрать 50 студентов из 200, обучающихся на первом курсе, методом механической выборки. Для этого необходимо сделать следующее:
- Определим шаг отбора: N/n = 200/50 = 4 (следовательно, необходимо отбирать одного студента из каждых четырех). Порядковый номер, с которого должен начаться отбор, может быть таким: или 1-й, или 2-й, или 3-й или 4-й студент.
- Определим точку начала отбора по выбранному фрагменту из таблицы случайных чисел. Для этого выберем любой столбец цифр, соответствующий разряду шага отбора (в нашем случае - первому разряду), например последнюю колонку во втором столбце: 6, 5, 0, 3, 1, 6… Следовательно, порядковый номер, с которого должен начаться отбор, равен 3 (это первое число из выписанных, которое нам подходит).
- Теперь будем отбирать студентов по списку, начиная с 3-го, с шагом, равным 4: 3-го, 7-го, 11-го, 15-го студента и т.д.
Типическая выборка. В случае использования типической выборки cовокупность предварительно разбивается на однородные типы или группы, а затем производится случайный (или механический) отбор единиц наблюдения внутри полученных групп. Извлеченная подобным образом выборка будет типической (в литературе она также называется расслоенной, стратифицированной, районированной).
Типическая выборка в статистической практике применяется гораздо чаще, чем остальные виды выборочного наблюдения. Так, при обследованиях населения в зависимости от целей исследования генеральную совокупность расслаивают по возрастному или социальному признаку, типу проживания (городское, сельское населения и т.д.); при обследованиях малых предприятий типизация осуществляется по четырем признакам: территориальному, отраслевому, виду собственности и размеру выручки. Этим достигается однородность единиц внутри групп. Типическая выборка дает более точные результаты.
Серийная (гнездовая) выборка. Если генеральную совокупность можно разделить на одинаковые по объему и однородные группы, то целесообразно осуществлять отбор не единиц, а их серий. После такого отбора внутри серий проводится сплошное обследование.
Например, при оценке качества продукции можно отбирать партии товара, а затем обследовать все входящие в них изделия; при некоторых обследованиях населения отбираются в порядке серий жилые дома, в которых опрашиваются жильцы всех квартир; обследования школьников проводятся путем отбора однотипных школ или конкретных классов, ученики которых подвергаются сплошному опросу, и т.д.
Комбинированные выборки. Комбинированный отбор широко применяется на практике и представляет собой сочетание разных методов отбора (их комбинацию), например типического с механическим. В этом случае генеральная совокупность разбивается на типические группы на основе ранее выбранного группировочного признака, внутри этих групп единицы наблюдения упорядочиваются, устанавливается шаг отбора, соответствующий необходимой численности выборки, после чего происходит извлечение единиц наблюдения из типических групп на основе механического отбора. Подобная комбинация методов обеспечивает представительство в выборке всех типов единиц наблюдения (за счет применения типического отбора) и сохраняет структуру типических групп по группировочным признакам, обеспечиваемую механическим отбором.
Малая выборка. Выборка считается малой, если количество объектов, отобранных для выборочного наблюдения, не превышает 20 единиц.
Малые выборки используются в тех ситуациях, когда распределение признака в генеральной совокупности является нормальным или приближается к нему. Только в этих случаях построенные доверительные интервалы или рассчитанные доверительные вероятности будут иметь реальное практическое значение.