Социально-экономическая статистика
Основные принципы выборочного наблюдения
Под выборочным наблюдением понимается такое несплошное наблюдение, при котором статистическому обследованию (наблюдению) подвергается часть изучаемой совокупности. Выборочное наблюдение ставит перед собой задачу: по обследуемой части дать характеристику всей совокупности единиц при условии соблюдения всех правил и принципов проведения статистического наблюдения и научно организованной работы по отбору единиц. Использование выборочного обследования позволяет значительно сэкономить силы и средства.
Наряду с экономией ресурсов одной из причин превращения выборочного наблюдения в важнейший источник статистической информации является возможность сократить время наблюдения. Фактор времени важен для статистического исследования, особенно в условиях быстро меняющейся социально-экономической ситуации.
Выборочное исследование позволяет также расширить программу наблюдения. Поскольку исследованию подвергается сравнительно небольшая часть всей совокупности, можно увеличить число изучаемых признаков.
На практике приходится сталкиваться со специфическими задачами изучения массовых процессов, которые решаются лишь с помощью методологии выборки. К таким задачам относится исследование качества продукции, если она при этом уничтожается. На основе выборочного наблюдения изучается, например, качество электроламп, спичек, многих сплавов. Кроме того, в современных условиях развития внешнеэкономических связей России при наличии, в частности, большого числа импортируемых продуктов и непродовольственных товаров контроль их качества обеспечивается также путем выборочного исследования. При проведении выборочного обследования совокупность отобранных для обследования единиц в статистике принято называть выборочной, а совокупность единиц, из которых производится отбор, — генеральной.
В статистической практике общепринятыми являются следующие обозначения характеристик генеральной и выборочной совокупностей (таблица 12.1).
Таблица 12.1 Характеристики генеральной и выборочной совокупностей
|
Ошибка выборочного наблюдения — это разность между величиной параметра в генеральной совокупности и его величиной, рассчитанной по результатам выборочного наблюдения. Для средней величины ошибка будет определяться так:
- I* ЛГ=—— |
Л гг = Ьг-Ї
где =^— — генеральная средняя;
v = — — выборочная средняя.
П
Величина Дj называется предельной ошибкой выборки. Это величина случайная. Исследованию закономерностей случайных
ошибок выборки посвящены предельные теоремы закона больших чисел. Наиболее полно эти закономерности раскрыты в теоремах П. Л. Чебышева и А. М. Ляпунова. Теорему П. Л. Чебышева применительно к рассматриваемому методу можно сформулировать следующим образом: при достаточно большом числе независимых наблюдений можно с вероятностью, близкой к единице (т. е. почти с достоверностью), утверждать, что отклонение выборочной средней от генеральной будет сколь угодно малым. В теореме доказано, что величина ошибки не должна превышать /р. В свою очередь, величина (і, выражающая среднее квадратическое отклонение выборочной средней от генеральной средней, зависит от дисперсии признака в генеральной совокупности а и числа отобранных единиц в выборке. Эта зависимость выражается формулой
с |
где (і — средняя ошибка выборки; с — среднее квадратическое отклонение; п — объем выборочной совокупности.
Рассмотрим, как влияет на величину средней ошибки число отбираемых единиц п. Логически нетрудно убедиться, что при отборе большого числа единиц расхождения между средними будут меньше, т. е. существует обратная связь между средней ошибкой выборки и числом отобранных единиц. При этом образуется не только обратная математическая зависимость, а такая зависимость, которая показывает, что квадрат расхождения между средними обратно пропорционален числу отобранных единиц.
Далее посмотрим, как влияет колеблемость признака в генеральной совокупности на величину ошибки. Нетрудно доказать, что увеличение колеблемости признака влечет за собой увеличение среднего квадратического отклонения, а следовательно, и ошибки. Если предположить, что все единицы будут иметь одинаковую величину признака, то среднее квадратическое отклонение станет равно нулю и ошибка выборки также исчезнет. Тогда нет необходимости применять выборку. Однако следует иметь в виду, что величина колеблемости признака в генеральной совокупности бывает неизвестна, поскольку неизвестны размеры единиц в ней. Мы можем рассчитать лишь колеблемости признака в выборочной совокупности.
Соотношение между дисперсиями генеральной и выборочной совокупностей выражается формулой
2 2 11 ^х = &х Г •
и -1
Поскольку величина при достаточно больших п близка к
единице, можно приближенно считать, что выборочная диспер - сия равна генеральной дисперсии, т. е. оген2 = оВЬ|б2.
Следовательно, средняя ошибка выборки показывает, какие возможны отклонения характеристик выборочной совокупности от соответствующих характеристик генеральной совокупности. Однако о величине этой ошибки можно судить с определенной вероятностью. На величину вероятности указывает множитель /. Поэтому мы можем записать:
где АдТ — предельная ошибка выборки, которая дает возможность выяснить, в каких пределах находится величина генеральной средней.
Значения этого интеграта для различных значений коэффициента доверия t вычислены и приводятся в специальных математических таблицах. В частности, при
t = 1 F(t) = 0,683; t = 1,5 F{t) = 0,866;
t = 2 F (t) = 0,954; / = 2,5 F (t) = 0.988;
t=3 F (t) = 0,997; t = 3,5 F (/) = 0,999.
Поскольку t указывает на вероятность расхождения | ? - J |, т. е. на вероятность того, на какую величину генеральная средняя будет отличаться от выборочной средней, то это может быть прочитано так: с вероятностью 0,683 можно утверждать, что разность между выборочной и генеральной средними не превышает одной величины средней ошибки выборки. Другими словами, в 68,3% случаев ошибка репрезентативности не выйдет за пределы ±ц. С вероятностью 0,954 можно утверждать, что ошибка репрезентативности не превышает ±2д, (т. е. в 95% случаев). С вероятностью 0,997, т. е. довольно близкой к единице, можно ожидать, что разность между выборочной и генеральной средней не превзойдет трехкратной средней ошибки выборки и т. д. Логически связь здесь выглядит довольно ясно: чем больше пределы, в которых допускается возможная ошибка, тем с большей вероятностью судят о ее величине.
Для различных способов отбора предельная ошибка рассчитывается при проведении выборки по-разному. Зная выборочную среднюю величину признака (х) и предельную ошибку выборки (Ду), можно определить границы (пределы), в которых заключена генеральная средняя:
А'-Ду <Х<Х + Ду.
Теорема Бернулли. Теорема Бернулли была доказана раньше теоремы Чебышева — Ляпунова, но является лишь частным случаем последней. Она рассматривает ошибку выборки для альтернативного признака, т. е. признака, у которого возможны только два исхода: наличие признака (1) и отсутствие его (0).
Теорема Бернулли утверждает, что при достаточно большом объеме выборки вероятность расхождения между долей признака в выборочной совокупности (w) и долей признака в генеральной совокупности (р) будет стремиться к нулю.
В математических символах выражение теоремы Бернулли будет иметь вид:
Р[ w-р<1 Ц ]-»!,
т. е. с вероятностью, сколь угодно близкой к единице, можно утверждать, что при достаточно большом объеме выборки частость признака (выборочная доля) сколь угодно мало будет отличаться от доли признака (в генеральной совокупности). Ввиду того, что вероятность расхождения между частостью и долей следует закону нормального распределения, эту вероятность можно найти по функции F (t) в зависимости от задаваемой величины г.
Из теоремы Бернулли следует, что величина расхождения между долей признака в выборочной совокупности (частостью) и долей этого признака в генеральной совокупности зависит, так же как и в расхождениях средних, от средней ошибки выборки.
Поскольку (і = а: 4п, а среднее квадратическое отклонение в генеральной совокупности для альтернативного признака равно
fpq > гДе Q ~ * — Р: т0 средняя ошибка выборки для альтернативного признака будет найдена по формуле
Однако доля признака в выборочной совокупности нам не известна, и мы вынуждены заменить ее через долю того же признака в генеральной совокупности, т. е. принять w = р, а дисперсию альтернативного признака принять за w(l~w). Тогда средняя ошибка выборки выразится формулой
Предельная величина разности между частостью и долей называется предельной ошибкой выборки. О ее величине можно судить с некоторой вероятностью, которая зависит от множителя ґ, поскольку Дн> = ЦУ.
Зная выборочную долю признака (vv) и предельную ошибку выборки (Aw), можно определить границы, в которых заключена генеральная доля (р):
w—A w<p< w+A и’ .
Уточнение формулы средней ошибки выборки. Если отбор единиц из генеральной совокупности произведен бесповторным способом, то в формулы средней ошибки выборки вносится поправка:
где п — объем выборочной совокупности;
N — объем генеральной совокупности.
Выборочное наблюдение может быть осуществлено разными способами в зависимости от вида и метода отбора единиц совокупности. По виду различают индивидуальный, групповой и комбинированный отборы. При индивидуальном отборе в выборочную совокупность отбираются отдельные единицы генеральной совокупности, при групповом отборе — группы единиц, а комбинированный отбор предполагает сочетание группового и индивидуального отборов.
Метод отбора определяет возможность продолжения участия отобранной единицы в процедуре отбора.
Бесповторным называется такой отбор, при котором попавшая в выборку единица не возвращается в совокупность, из которой осуществляется дальнейший отбор, а после регистрации наблюдаемых признаков возвращается в исходную (генеральную) совокупность для участия в дальнейшей процедуре отбора. При этом методе отбора объем генеральной совокупности на всем протяжении процедуры выборки остается неизменным, что обусловливает постоянную вероятность попадания в выборку всех единиц совокупности.
Повторный метод отбора применяется в случаях, когда характер исследуемого явления предполагает возможность повторной регистрации единиц. Такая возможность может иметь место в выборочных обследованиях населения в качестве покупателей, пациентов, избирателей, абитуриентов и т. д. К повторному также приравнивается отбор из совокупности, границы которой не определены, например вследствие непрерывного производственного процесса. В подобных случаях значения отобранных единиц рассматривают как гипотетические величины, не исключающие возможности многократного повторения.
Способ отбора определяет конкретный механизм или процедуру выборки единиц из генеральной совокупности. В практике выборочных обследований наибольшее распространение получили следующие виды выборки:
• собственно-случайная;
• механическая;
• типическая;
• серийная;
• комбинированная.
Собственно-случайная выборка заключается в отборе единиц генеральной совокупности наугад или наудачу без каких-либо элементов системности. Однако прежде чем производить собственнослучайный отбор, следует установить четкие границы генеральной совокупности, чтобы включение или невключение в нее отдельных единиц не вызывало сомнений. Так, при обследовании торговых предприятий важно определить, включает ли генеральная совокупность торговые павильоны, коммерческие палатки и прочие подобные объекты. Технически собственно-случайный отбор проводится методом жеребьевки или по таблице случайных чисел.
Собственно-случайный отбор может быть как повторным, так и бесповторным. Для проведения бесповторного отбора в процессе жеребьевки отобранные единицы обратно в исходную совокупность не возвращаются и в дальнейшем отборе не участвуют.
После проведения отбора для определения возможных границ генеральных характеристик рассчитываются средняя и предель-
Средняя ошибка повторной собственно-случайной выборки определяется по формуле |
где с2 — выборочная дисперсия; и — число единиц выборочной совокупности.
При расчете средней ошибки собственно-случайной беспов - торной выборки необходимо учитывать поправку на бесповтор - ность отбора:
Механическая выборка применяется в случаях, когда генеральная совокупность каким-либо образом упорядочена, т. е. имеется определенная последовательность в расположении единиц (табельные номера работников, списки избирателей, телефонные номера респондентов, номера домов и квартир и т. п.).
Для проведения механической выборки устанавливается пропорция отбора, которая определяется соотнесением объемов выборочной и генеральной совокупностей. Так, если из совокупности в 100 ООО единиц предполагается получить 5%-ную выборку, т. е. отобрать 5000 единиц, то отбор единиц осуществляется в соответствии с установленной пропорцией через равные интервалы. В нашем случае при пропорции 1 к 20 (5%-ная выборка) — каждая 20-я единица.
Генеральную совокупность при механическом отборе можно ранжировать или упорядочить по величине изучаемого или коррелирующего с ним признака, что позволит повысить репрезентативность выборки. Однако в этом случае возрастает опасность систематической ошибки, связанной с занижением значений изучаемого признака (когда из каждого интервала регистрируется первое значение) или его завышением (если из каждого интервала регистрируется последнее значение). Поэтому отбор целесообразно начинать с середины первого интервала, например при 5%-ной выборке отобрать 10, 30, 50, 70-ю и с таким же интервалом последующие единицы.
Для определения средней ошибки механической выборки используется формула средней ошибки при собственно-случайном бесповторном отборе.
Типический отбор используется в случаях, когда все единицы генеральной совокупности можно разбить на несколько типических групп. При обследованиях населения такими группами могут быть, например, районы, социальные, возрастные или образовательные группы; при обследовании предприятий — отрасль и подотрасль, форма собственности и т. п. Типический отбор предполагает выборку единиц из каждой типической группы собственно-случайным или механическим способом. Поскольку в выборочную совокупность в той или иной пропорции обязательно попадают представители всех групп, типизация генеральной совокупности позволяет исключить влияние межгрупповой дисперсии на среднюю ошибку выборки, которая в этом случае определяется только внутригрупповой вариацией.
Отбор единиц в типическую выборку может быть организован либо пропорционально объему типических групп, либо пропорционально внутригрупповой дифференциации признака.
При выборке, пропорциональной объему типических групп, число единиц, подлежащих отбору из каждой группы, определяется Следующим образом:
где п — общий объем выборки генеральной совокупности; N/ — объем данной группы в генеральной совокупности. Средняя ошибка такой выборки рассчитывается по формулам |
Iі - 1 — (бесповторный отбор), 1 ) где 82 — средняя из внутригрупповых дисперсий. |
При выборке, пропорциональной дифференциации признака, число наблюдений по каждой группе рассчитывается по формуле
где с, — среднее квадратическое отклонение признака в /-й группе.
Средняя ошибка такого отбора определяется следующим образом:
— (бесповторный набор). |
Отбор, пропорциональный дифференциации признака, дает лучшие результаты, однако на практике его применение затруднено вследствие трудности получения сведений о вариации до проведения выборочного наблюдения.
Серийный отбор удобен в тех случаях, когда единицы совокупности объединены в небольшие группы или серии. В качестве таких серий могут рассматриваться упаковки с определенным количеством готовой продукции, партии товара, студенческие группы, бригады и другие объединения. Сущность серийной выборки заключается в собственно-случайном либо механическом отборе серий, внутри которых проводится сплошное обследование единиц.
Поскольку внутри групп (серий) обследуются все без исключения единицы, средняя ошибка серийной выборки (при отборе равновеликих серий) зависит от величины только межгрупповой (меж- серийной) дисперсии и определяется по следующим формулам:
где г — число отобранных серий; R — общее число серий. 82 — межсерийная дисперсия. |
г |
где Xj — средняя /-Й серии; х — общая средняя по всей выборочной совокупности. |
Межгрупповую (межсерийную) дисперсию вычисляют следующим образом:
Комбинированный отбор. В практике статистических обследований помимо рассмотренных выше способов отбора применяется и их комбинация. Так, можно комбинировать типическую и серийную выборки, когда серии отбираются в установленном порядке из нескольких типических групп. Возможна также комбинация серийного и собственно-случайного отборов, при которой отдельные единицы отбираются внутри серии в собственно-слу - чайном порядке. Ошибка такой выборки определяется ступенчатостью отбора.
Многоступенчатым называется отбор, при котором из генеральной совокупности сначала извлекаются укрупненные группы, а потом — более мелкие, и так до тех пор, пока не будут отобраны те единицы, которые должны быть обследованы.
В отличие от многоступенчатой многофазная выборка предполагает сохранение одной и той же единицы отбора на всех этапах его проведения. При этом отобранные на каждой стадии единицы подвергаются обследованию (на каждой последующей стадии отбора программа обследования расширяется),
Исходя из вышеизложенного приведем формулы предельной ошибки выборки для наиболее часто используемых на практике способов формирования выборочной совокупности (табл. 12.2).
При осуществлении выборочного наблюдения возникает вопрос о необходимой численности выборки. Она может быть определена на базе допустимой ошибки при выборочном наблюдении исходя из вероятности, на основе которой можно гарантировать величину устанавливаемой ошибки, и, наконец, на базе способа отбора.
Для определения необходимой численности выборки исследователь должен задать уровень точности выборочной совокупности с определенной вероятностью. В частности, необходимая численность случайной повторной выборки определяется по формуле
Эта формула показывает, что с увеличением предполагаемой ошибки выборки значительно уменьшается необходимый объем |
которая вытекает из формулы предельной ошибки
выборки. Так, увеличение допустимой ошибки выборки в два раза уменьшает необходимый ее объем в четыре раза. Формула необходимой численности выборки для разных способов отбора выводится из формулы предельной ошибки выборки.
Таблица 12.2
Предельная ошибка выборки дли некоторых способов формирования выборочной совокупности
На практике определение необходимого объема выборки часто составляет серьезную проблему. Она связана, в частности, с недостаточной разработанностью таких вопросов, как оценка вариации изучаемых признаков, обоснование численности выборки при изучении нескольких признаков, зависимость объема выборочной совокупности от программы разработки материалов наблюдения и т. п. При определении объема выборки необходимо учитывать организационные факторы (объем финансирования, кадры, материальные ресурсы, сроки обследования и т. д.).
Во многих случаях для более точного представления об изучаемой совокупности, в том числе о вариации интересующих исследователя признаков, может дать пробное обследование. По его данным рассчитать среднее квадратическое отклонение и дисперсию для последующего обоснования необходимого объема выборки. Если мера колеблемости признака неизвестна, то ее можно найти приближенно по величине предполагаемого размаха или среднего линейного отклонения по следующим формулам:
R
а = — или о = 1,25 ■ /
6
где а — среднее квадратическое отклонение;
R — размах вариации;
/ — среднее линейное отклонение.
Важным условием практического использования этих формул является близость фактического распределения к нормальному. Исчисление среднего квадратического отклонения для явно несимметричных распределений не имеет смысла.
Если расчет проводится по качественному альтернативному признаку и неизвестна его доля в генеральной совокупности (хотя бы приблизительно), то рекомендуется принять ее равной 0,5, так как дисперсия доли достигает максимума: cw2 = 0,25 при w = 0,5.
Преимущество такого приема заключается в том, что он позволяет определить численность выборочной совокупности, не располагая данными предыдущих обследований, и не проводить пробных обследований. Возможность экономии времени и ресурсов часто оказывается решающим фактором при обращении к данному методу.
В ряде случаев приближенная оценка колеблемости может быть осуществлена с помощью превращения изучаемого признака в альтернативный. Например, все категории работников предприятия можно условно разделить в зависимости от принадлежности работающих на рабочих и служащих. Однако при этом следует учитывать, что такое деление неизбежно приведет к потере некоторой части информации. Ведь существуют отдельные категории работников (МОП, охрана и др.), которые выделяются в самостоятельные группы. Поэтому применять описанный выше прием можно лишь при условии, что существует уверенность в незначительной доле неучтенных единиц во всей совокупности.
Приведем формулы необходимого объема выборки для наиболее часто используемых на практике способов формирования выборочной совокупности.
Виды выборочного наблюдения |
Повторный отбор |
Бесповторный отбор |
Собственно-случайная выборка а) при определении среднего размера признака |
,2-о П~ 2 4 |
Д-N + t2-a2~ |
б) при определении доли признака |
t2-w(-w) |
t2 ■ w(l-w)-N |
П -> Д2„ |
Д^, • N +11 ■ Ці - w) |
|
Механическая выборка |
то же |
то же |
Типическая выборка а) при определении среднего размера признака |
2 “2 Г Ох п~ 1 4 |
t2 - a; - N Д - 'N + t2-al |
б) при определении доли признака |
t2 ■ w(l-w)-N |
|
П ■ 7 |
■ N +12 ■ w(l - w) |
|
Серийная выборка а) при определении среднего размера признака |
'2-6| "= 2 4 |
t2f%-R " 4-*+'2-s§ |
б) при определении доли признака |
12-wr (l-wr) |
;l,2 •wr(l-wr)-N |
n 1 4 |
■ N +12 ■ wr(l - wr) |
Заключительным этаном выборочного наблюдения является распространение его результатов на генеральную совокупность. Однако часто при статистическом изучении социально-экономических явлений этому процессу предшествует оценка результатов наблюдения с точки зрения самой возможности распространения.
Вывод о возможности распространения в значительной степени зависит от качества основы выборки, прежде всего — от ее полноты. Под полнотой подразумевается наличие или представление всех типов или групп данной генеральной совокупности в основе выборки. Неполнота основы может привести к нарушению представительности выборки и, как следствие, к неправильным выводам при анализе данных наблюдения.
Однако не следует обосновывать возможность распространения выборочных данных только анализом качества исходной информации для отбора. Более точной основой суждения о возможности распространения представляется расчет относительной ошибки:
zVi
ДЛЯ средней: Ах = - г--100%; ;
Дч'
для доли: Д%=-^100%,
Р
где Д% относительная предельная ошибка выборки;
Ах и Aw предельная ошибка для среднего значения или доли признака соответственно;
х ир — генеральная средняя и доля соответственно.
Суждение о возможности распространения выборочных данных можно составить, если в формулах заменить х и р соответствующими выборочными характеристиками. Необходимым условием при этом является соответствие плановой и фактігческой численности и структуры выборочной совокупности. При больших расхождениях использование этого приема может привести к ошибочным суждениям.
Если величина относительной ошибки не превышает заранее установленного для обследования предельного значения, то данные выборочного наблюдения являются представительными и могут быть распространены на генеральную совокупность. В противном случае следует восстановить исходные пропорции выборочной совокупности. Процесс восстановления пропорций выборки на основе исходной информации о таких пропорциях в генеральной совокупности принято называть корректировкой выборки.
Собранные в результате выборочного наблюдения и при необходимости откорректированные данные распространяются на генеральную совокупность. Существуют два основных метода распространения: прямой пересчет и способ коэффициентов. Сущность способа прямого пересчета заключается в умножении среднего значения признака, найденного в результате выборочного наблюдения, на объем генеральной совокупности. Способ коэффициентов целесообразно использовать в случаях, когда выборочное наблюдение проводится с целью проверки и уточнения данных сплошного наблюдения, в частности численности учтенных единиц совокупности. При этом следует использовать следующую формулу:
Xi = X0-^
Уо
где Х{ — численность совокупности с поправкой на недоучет (расчетная);
Х0 — численность совокупности без этой поправки (проверяемая);
у0 — численность совокупности в контрольных точках по первоначальным данным;
у, — численность совокупности в тех же точках по данным контрольных мероприятий.
Отметим, что цели исследования многих явлений могут быть достигнуты только путем сплошного наблюдения. Поэтому способ проверки результатов сплошного наблюдения на основе коэффициентов успешно применяется в социальной и экономической статистике. До сих пор возможности выборки при уточнении данных сплошного наблюдения используются недостаточно. Однако применение выборочного обследования необходимо лишь в том случае, если данные сплошного обследования вызывают сомнение. Кроме того, необходимо иметь соответствующие денежные, материальные и трудовые ресурсы для его осуществления.