Управление статистическим процессом
Статистический реестр предприятий
- Статистические реестры предприятий (СРП) преобразуют административные единицы в статистические единицы
- По отношению к целевой генеральной совокупности СРП являются несовершенными
- Статистики, проводящие обследования, должны, насколько это возможно, компенсировать несовершенство
- СРП должны содержать статистические и административные признаки, необходимые для осуществления обследования
Статистический реестр предприятий (СРП) – основной источник для формирования выборки, является системой, в которой статистические единицы создаются из административных единиц. Встречаются дефекты, связанные с требованиями к целевой генеральной совокупности. Для разработчика обследования важно знать об этих дефектах и, по возможности, принимать компенсирующие меры. Идеальная ситуация – существование совершенного инструментария выборочного обследования, являющегося актуальным сочетанием всех элементов целевой генеральной совокупности. Однако, формирование и обновление инструментария выборочного обследования – трудный и сложный процесс. Действительно, характеристики, а также состав генеральной совокупности постоянно меняются с течением времени, в то время как источники информации для таких изменений, как правило, несовершенны. Во-первых, для большинства обследований будет актуальна только часть всех элементов, зафиксированных в СРП. Во-вторых, нужно учитывать, что СРП неизбежно содержит ряд ошибок, пропусков и задержек. Учитывая, что статистика предприятий должна наблюдать и описывать общую производственную деятельность в стране, выходные данные идеального СРП могут быть определены как актуализированная картотека всех статистических единиц, действующих на территории страны и создающих добавленную стоимость, а также соответствующих им статистических и административных признаков. Другие характеристики охватывают события экономического и демографического характера, такие как рождение, смерть, слияние, разделение, удаление и т.п. Кроме того, принято фиксировать иерархические связи между единицами, такие как родительские, сестринские и дочерние отношения, а также горизонтальные связи между ними. Последние позволяют отслеживать единицы с течением времени, а также когда они меняют свою структуру. Поскольку обновления СРП часто отстают от реальных событий, полезно удвоить фиксацию временных отметок посредством записи и даты регистрации, и даты события. Наконец, для рассылки необходима информация о фамилиях, адресах и номерах телефонов.
Формирование выборки
- Существует множество различных методов формирования выборки
- Размер выборки зависит от данных, которые должны быть опубликованы
- Публикуемые таблицы содержат оценки
- Лежащие в основе неизвестные величины называются параметрами
- Выборка должна быть разработана для получения оценок, находящихся как можно ближе к значениям параметров
- Выбор наиболее подходящей структуры для конкретного обследования зависит от вспомогательной информации, представленной в инструментарии выборочного обследования
- Чем больше информации доступно при формировании выборки, тем лучше структура выборки может быть приспособлена к целям обследования
После определения целевой генеральной совокупности и выборочной совокупности, следующим шагом является выбор структуры выборки и процедуры оценки. Теория формирования выборок предлагает разнообразные методы, согласно которым могут быть произведены выборки и получены оценки. Первый вопрос состоит в том, производить ли выборочное или сплошное обследование. Если выборка считается достаточной, то необходимо принять решение о размере выборки. Перед формированием выборки важно сосредоточить внимание на данных, которые будут опубликованы. Таблицы в окончательной публикации содержат оценки параметров целевой генеральной совокупности. Примерами параметров являются общая численность генеральной совокупности, средние значения совокупности, пропорции, соотношение и разность двух совокупных значений. В большинстве обследований оценки производятся не только для всей генеральной совокупности, но и для ряда подмножеств, на которые делится генеральная совокупность. На этапе разработки обследования должны выбираться методы для получения оценок, находящихся как можно ближе к значениям параметров. В обследованиях предприятий часто случается, что крупные предприятия имеют относительно высокие значения параметров, представляющих интерес. Если при разработке обследования не предусмотрены действия в таких случаях, не исключено, что результаты обследования будут неточными. Схема формирования выборки описывает механический отбор выборки в соответствии с разработанной структурой. Если выборочная совокупность не охватывает всю генеральную совокупность, другими словами, если существуют указанные выше структурные недостатки, схема формирования выборки работает на основе выборочной совокупности, которая подразумевает, что следует проявлять осторожность в отношении определения оцениваемых параметров генеральной совокупности. Какая структура наиболее подходит для конкретного обследования, зависит от вспомогательной информации, представленной в инструментарии выборочного обследования. Чем больше информации доступно перед формированием выборки, тем лучше структура выборки может быть приспособлена к целям обследования.
Стратегия формирования выборки
- Структура выборки представляет собой набор спецификаций, которые определяют генеральную совокупность, единицы выборки, а также вероятности, характерные для возможных выборок
- Функция оценивания – это математическая функция, посредством которой вычисляется оценка определенного параметра
- Комбинация структуры и функции оценивания называется стратегией
- Смещение имеют место для всех оценок тех или иных параметров, к которым приводит выборочное обследование
- Существуют различные причины смещения, в том числе отсутствие ответа респондентов
Разработка обследования в первую очередь учитывает простые эффекты получения выборки, игнорируя любые недостатки инструментария выборочного обследования или другие возможные ошибки, такие как ошибки в следствие отсутствии ответа от респондента. Структура выборки представляет собой набор спецификаций, которые определяют целевую генеральную совокупность, единицы выборки, а также вероятности, характерные для возможных выборок. Когда размер предприятия фиксируется в реестре предприятий, эта информация может быть использована для измерения переменных, связанных с размером. Такими переменными являются затраты труда и оборот. Информация о размере может быть использована для выбора вероятностей, пропорциональных размеру; высокая вероятность быть выбранными характерна для крупных фирм. Функция оценивания – это математическая функция, с помощью которой вычисляется оценка определенного параметра. Комбинация структуры и функции оценивания называется стратегией формирования выборки. Понятие смещения требует осмысления с точки зрения всех возможных результатов выборочного обследования. Смещение не связано с одной конкретной оценкой, а относится ко всем оценкам определенного параметра, которые могут быть получены в результате выборочного обследования. Идея смещения построена вокруг представления об ожидаемом значении. Ожидание оценки можно рассматривать как среднее значение всех оценок, полученных "в долгосрочной перспективе" путем осуществления повторных выборок и наблюдения характеристик, представляющих интерес. Когда структура обследования плохо сочетается с функцией оценивания, совмещение структуры выборки и функции оценивания может приводить к неточным оценкам, далеким от значений рассматриваемых параметров. Смещение есть разница между ожиданием и полученным значением параметра выборки. Например, смещение может наблюдаться, когда исследуемая выборка и выборочная совокупность не полностью сответствуют друг другу. Другой причиной смещения может быть неудачно выбранная комбинация структуры выборки и функции оценивания. Отсутствие ответа также может приводить к смещению.
Размер выборки
- Играют роль два аспекта: стоимость и точность
- Часто объем выборки определяется размером бюджета
- В обследованиях предприятий широко используется метод стратифицированной выборки
- Класс размера обычно хорошо служит в качестве переменной для стратификации
- Определение оптимального распределения часто представляет собой повторяющийся процесс
После принятия решения о комбинации структуры выборки и функции оценивания может быть определен объем выборки. Имеют значение два аспекта: стоимость и точность. Обычно при увеличении объема выборки увеличивается точность. Однако, чем больше выборка, тем более дорогим и трудоемким становится опрос. Часто объем выборки определяется общим бюджетом. В обследованиях предприятий широко используется метод стратифицированной выборки. Перед проведением выборочного обследования выборка делится на непересекающиеся подвыборки, называемые слоями. Слои можно рассматривать как отдельные выборки, для которых могут быть выбраны подходящие стратегии. Выборки в каждом из слоев формируются независимо. Для повышения точности оценки общего оборота фирмы можно стратифицировать выборку на классы размера, что часто производится на основе числа работников на предприятии: например, 9 или менее работников, от 10 до 99 и от 100 и более. Выборка делается из этих слоев, и для каждого слоя структура выборки определяется до проведения обследования. Первым этапом получения стратифицированной выборки является выбор характеристик, по которым должны быть сформированы слои. Этот выбор зависит от целей, для которых применяется метод стратифицированной выборки. Если основанием для стратификации является увеличение точности, следует формировать слои из более или менее однородных в отношении целевых переменных групп. В обследованиях предприятий класс размера, как правило, выбирается в качестве переменной стратификации, так как размер часто тесно связан с большинством переменных, представляющих интерес. Другая проблема заключается в том, как общий объем выборки распределен по каждому слою. В обследованиях предприятий такое распределение обычно выбирается непропорционально классов размера. Однако, оптимальное распределение для одной целевой переменной, скорее всего, будет неоптимальным для другой. Определение оптимального распределения часто представляет собой повторяющийся процесс.
Ошибка выборки и общая ошибка
- Важным мероприятием после проведения обследования является определение ошибок
- Ошибка выборки является результатом формирования выборки вместо использования информации о всей генеральной совокупности
- Ошибка, не связанная с выборкой, вызывается недостатками инструментария выборочного обследования, неточной постановкой целей, плохой структурой анкеты и отказом от ответов
- Дисперсия отражает достоверность – как близко оценки находятся к ожидаемому значению
- Среднеквадратичная ошибка показывает точность – близость оценок к значению параметра
При использовании основательных методов можно сократить количество источников ошибок обследования. Это касается как ошибки выборки, возникающей в результате формирования выборки вместо использования информации всей генеральной совокупности, так и не связанных с выборкой ошибок, являющихся, например, следствием недостатков инструментария выборочного обследования, неточной постановки целей, плохой структуры анкеты и отказа от ответов. Величины, описывающие разброс значений – дисперсия и среднеквадратичная ошибка оцененного значения. Дисперсию можно рассматривать как среднее в "долгосрочной перспективе" всех квадратов разностей между оценками и ожиданием значения функции оценивания. Таким же образом, среднеквадратичная ошибка в среднем равна квадрату разности между оценками и параметром. Дисперсия показывает, насколько близки оценки к своему математическому ожиданию, тогда как среднеквадратичная ошибка измеряет близость к параметру. Понятие достоверности обычно относится к дисперсии, а точности – к среднеквадратичной ошибке. Оценка называется достоверной, если дисперсия невелика, и точной, если среднеквадратичная ошибка мала. Во многих обследованиях невозможно извлечь все возможные выборки для расчета дисперсии, но в большинстве случаев значение может быть оценено на основе одной выборки. Для несмещенной (или почти несмещенной) оценки достоверность часто выражается через коэффициент вариации, который определяется как квадратный корень из дисперсии оценки, разделенный на оценку параметра.
Методы сбора данных для выборочного обследования
- Принятие решений о наилучших методах сбора данных для обследования является важным мероприятием в процессе планирования обследования
- Для обследования предприятий саморегистрация на основе бумажных анкет или через веб-формы является единственным реалистичным вариантом
- Обследования предприятий часто повторяются
- Методами организации повторяющихся обследований предприятий являются повторяющиеся перекрестные обследования, панельные обследования и компромиссы между этими двумя крайними вариантами
- Выбор наиболее подходящего типа обследования зависит от его цели
Принятие решений о наилучших методах сбора данных для обследования является одним из важных мероприятий в процессе планирования обследования. Существует ряд методов сбора данных. Распространенные методы сбора данных можно разделить на три основных типа: личный опрос, саморегистрация и телефонный опрос. Эти три типа получения данных "вручную" имеют соответствующие электронные методы: автоматизированный личный опрос, автоматизированная саморегистрация, включая веб-формы и электронные почтовые формы, автоматизированные телефонные опросы. Другие методы сбора данных заключаются в использовании существующих источников, таких как административные файлы. Успех обследования в большой степени зависит от пригодности выбранного метода сбора данных. Однако для обследований предприятий единственным реалистичным вариантом является саморегистация, построенная на основе бумажной анкеты, или, в возрастающей степени в настоящее время, в форме автоматизированной саморегистрации. Другим аспектом является то, что обследования предприятий часто повторяются. Возможны несколько способов организации повторных обследований предприятий и домашних хозяйств. Один из них – повторяющиеся перекрестные обследования с новой выборкой для каждого случая. Другой способ – панельное обследование с одинаковой выборкой во всех случаях. Существуют компромиссы между этими двумя способами, например, повторяющиеся панельные обследования – серии панельных исследований, пересекающиеся или непересекающиеся, или ротация панельных обследований – повторяющиеся панельные данные с перекрестным охватом. Выбор наиболее подходящего типа обследования зависит от его цели.