Социально-экономическая статистика
Показатели вариации
Средние величины не дают исчерпывающей характеристики статистической совокупности. Разные совокупности могут иметь одинаковые средние. Поэтому необходимо дополнительно измерить степень колеблемости признака. Колеблемость, многообразие, изменяемость величины признака у единиц совокупности называются вариацией.
Измерение вариации в статистике имеет важное значение, поскольку дает возможность оценить степень воздействия на данный признак других варьирующих признаков, установить, например, какие факторы и в какой степени влияют на доходы населения, урожайность пшеницы и т. п. Определение вариации необходимо при организации выборочного наблюдения, построении статистических моделей, разработке материалов опросов и во многих других случаях.
Вариация существует в пространстве и во времени. Под вариацией в пространстве понимается колеблемость значений признака по отдельным территориям. Например, плотность населения по регионам России в 1998 г. колебалась от 0,02 чел. на Таймыре до 326 чел. в Московской области.
Объективно существует также вариация во времени. Под ней подразумевают изменение значений признака в различные периоды (или моменты) времени. Так, со временем изменяются урожайность сельскохозяйственных культур, поголовье скота и т. д.
По степени вариации можно судить о многих сторонах процесса развития изучаемых явлений, в частности об однородности совокупности, устойчивости индивидуальных значений признака, типично средней, о взаимосвязи между признаками одного и того же явления или между признаками разных явлений. Статистические показатели, характеризующие вариацию, широко применяются в практике, например для контроля за ходом производственных процессов, устойчивости урожайности сельскохозяйственных культур тех или иных сортов или одного и того же сорта в определенных почвенно
климатических условиях. На основе показателей вариации в статистике разрабатываются другие показатели — тесноты связи между явлениями и их признаками, оценки точности выборочного наблюдения.
Показатели вариации делятся на абсолютные и относительные. К абсолютным относятся размах вариации, среднее линейное отклонение, дисперсия и среднее квадратическое отклонение. Относительные показатели вычисляются как отношение абсолютных показателей вариаций к средней арифметической (или медиане). Относительными показателями являются коэффициенты осцилляции, вариации, относительное линейное отклонение.
Размах вариации (R) показывает, насколько велико различие между единицами совокупности, имеющими минимальное и максимальное значения признака. Его рассчитывают как разность между наибольшим (Агтах) и наименьшим (у*Гтт) значениями варьирующего признака, т. е. R = Хтлх - Xmin
Однако данный показатель имеет существенный недостаток. Его величина всецело зависит от крайних значений признака, он не учитывает всех изменений варьирующего признака в пределах совокупности. Поэтому в изучении вариации нельзя ограничиться определением одного лишь ее размаха.
Недостатком размаха вариации является и то, что он зависит от аномальных явлений. Поэтому следует очистить совокупность от аномальных наблюдений, прежде чем определить величину размаха вариации.
Другим показателем вариации служит среднее линейное отклонение (}). Оно вычисляется как средняя арифметическая из абсолютных значений отклонений jc( от х (взвешенная или простая в зависимости от исходных условий) по следующим формулам:
У, |.yf - —х
1Х =—------ (простое среднее линейное отклонение),
п
1. x =—yv (взвешенное среднее линейное отклонение).
/ J І
Поскольку сумма отклонений значений признака от средней величины равна нулю, необходимо все отклонения брать по модулю, на что указывают вертикальные линии в числителе формул.
Среднее линейное отклонение дает обобщенную характеристику степени колеблемости признаков совокупности. Однако чаще всего в статистической практике используют дисперсию (а2) и среднее квадратическое отклонение (о).
Данные показатели нашли также свое широкое применение в международной практике учета и статистического анализа, в частности в системе национального счетоводства.
Дисперсия представляет собой средний квадрат отклонений индивидуальных значений признака от их средней величины и вычисляется по формулам простой и взвешенной дисперсий (в зависимости от исходных данных):
У(х-хУ a2 —L. (простая дисперсия),
П
У(х --*)•/ о2= - - Л--—- (взвешенная дисперсия).
/ Ji
Дисперсия есть средняя величина квадратов отклонений. Если извлечь из дисперсии корень второй степени, то получится среднее квадратическое отклонение (а):
oJZh-y
а= izfc-*)•//
1 I/, '
Среднее квадратическое отклонение — это обобщающая характеристика размеров вариации признака в совокупности. Оно выражается в тех же единицах измерения, что и признак (в метрах, тоннах, рублях, процентах и т. д.).
Расчет дисперсии и среднего квадратического отклонения может быть упрощен следующим образом:
п п п п п
=72-х2.
Это означает, что дисперсия признака равна разности между средней из квадратов признака и квадратом его средней величины.
Между средним линейным и средним квадратическим отклонениями существует следующее примерное соотношение:} = 0,8 • ст, если фактическое распределение близко к нормальному.
Среднеквадратическое отклонение (а) всегда больше среднего линейного отклонения (£).
Среднеквадратическое отклонение играет важную роль в анализе рядов распределения. В условиях нормального распределения существует следующая зависимость между величиной среднего квадратического отклонения и количеством наблюдений:
• в пределах х± 1а располагается 0,683, или 68,3% количества наблюдений;
• в пределах х ± 2о — 0,954, или 95,4% количества наблюдений;
• в пределах х ± За — 0,997, или 99,7% количества наблюдений.
В действительности на практике почти не встречаются отклонения,
которые превышают ± Зс. Отклонение За может считаться максимально возможным. Это положение называют правилом трех сигм.
При расчете относительных показателей вариации базой для сравнения служит средняя арифметическая. Эти показатели вычисляются как отношение размаха среднелинейного отклонения или среднеквадратического отклонения к средней арифметической. Чаще всего они выражаются в процентах или относительных величинах и определяют не только сравнительную оценку вариации, но и дают характеристику однородности совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 0,3, или 30% (для распределений, близких к нормальному). Различают следующие относительные показатели вариации (V):
коэффициент осцилляции (VR)
Коси =4-100%;
.Г
линейный коэффициент вариации (Vd):
х
коэффициент вариации Квар: квар=|іоо%.
Например, имеются следующие данные об урожайности и посевных площадях зерновых культур.
Урожайность, и/га |
Посевные площади, га |
XJ |
Xtf |
Xtf |
—jd |
xj—J •// |
10—12 |
1 |
11 |
77 |
847 |
6,12 |
42,84 |
12—14 |
26 |
13 |
338 |
4394 |
4,12 |
107,12 |
14—16 |
34 |
15 |
510 |
7650 |
2,12 |
72,08 |
16—18 |
72 |
17 |
1224 |
29 808 |
0,12 |
8,64 |
18—20 |
22 |
19 |
418 |
7942 |
1,88 |
41,36 |
20—22 |
20 |
21 |
420 |
8820 |
3,88 |
77,60 |
22—24 |
19 |
23 |
437 |
10 051 |
5,88 |
111,72 |
Итого |
200 |
3424 |
60 512 |
461,36 |
Рассчитаем относительные и абсолютные показатели вариации:
1) х= ^ J ~J = 3424:200 = 17,12 ;
и
2) Л =*,-*. =24- 10= 14; К = 14 ; 17,12 = 0,8177;
7 jc шах nun ’ осц * ’ ’
3) 'і.-1 =461,36:200 = 2,3068; Клинвар = 2,3068:17,12= 0,1347;
/ . //
4) о,2 = Ї2 - (х)2 = 60512 :200 -17,122 = 302,56 - 293,09 = 9,45 ;
5) ах = V<М5 = 3,082; Кмр = 3,082:17,12 = 0,18 .
Это означает, что данная совокупность является однородной. Следует подчеркнуть, что коэффициент осцилляции по своей величине может быть больше единицы. Что касается линейного коэффициента вариации и коэффициента вариации, то они всегда меньше единицы.
Помимо количественных признаков могут быть альтернативные (признаки, которыми обладают одни единицы совокупности и не обладают другие). Примером таких признаков являются наличие бракованной продукции, ученая степень у преподавателя вуза, пол и национальность населения. Вариация альтернативного признака количественно проявляется в значении «ноль» у единиц, которые этим признаком не обладают, или 1 у тех, которые данный признак имеют.
Пусть р — доля единиц в совокупности, обладающих данным признаком; q — доля единиц, не обладающих данным признаком, причем р + q= 1. Альтернативный признак принимает всего два значения — 0 и 1 с весами соответственно q и р. Исчислим среднее значение альтернативного признака по формуле средней арифметической;
_ p+Qq х - -=р.
Р + Я
Дисперсия альтернативного признака определяется по формуле
2 (l-pf Р + (0-pfq д2р + р2д
Р ”, ~ Рч*
Р + Я Р + Я
Таким образом, дисперсия альтернативного признака равна произведению доли на дополняющее эту долю до единицы число. Корень квадратный из этого показателя, т. е. Jpq, соответствует среднеквадратическому отклонению альтернативного признака. Предельное значение дисперсии альтернативного признака равно 0,25 при puq, равных 0,5.
Показатели вариации альтернативных признаков широко используются в статистике, в частности при проектировании выборочного наблюдения, обработке данных социологических обследований, статистическом контроле качества продукции.
Например, из 80 сельхозпредприятий 24 имеют собственные молокоперерабатывающие заводы. В этом случае дисперсия и среднеквадратическое отклонение рассчитываются следующим образом:
р = 24: 80 = 0,3; q— (80 - 24): 80 = 0,7;
а2 = м = о, з • 0,7 = 0,21; о* = Д2І = 0,452.
Если изучаемая совокупность состоит из нескольких групп, образованных на основе какого-либо признака, то помимо показателей общей вариации (общая дисперсия) определяют также вариацию признака под влиянием группировочного фактора (межгрупповая дисперсия о2) и вариацию признака под влиянием всех остальных факторов (внутригрупповые дисперсии а2).
Общая дисперсия ах2 измеряет вариацию признака во всей совокупности под влиянием всех факторов, обусловивших эту вариацию:
о? =
Межгрупповая дисперсия (62х) характеризует различие в величине изучаемого признака, возникающие под влиянием признака-фактора, положенного в основание группировки. Она рассчитывается по формуле:
где xt и и, соответственно групповые средние и частоты по отдельным группам;
б2х— межгрупповая дисперсия (дельта квадрат).
Внутригрупповая дисперсия (5,2) отражает случайную вариацию, происходящую под влиянием остальных факторов и независящую от признака-фактора, положенного в основание группировки. Она исчисляется следующим образом:
5? |
X/* '
где ft — внутригрупповые частоты.
Существует закон, связывающий три вида дисперсии. Общая дисперсия равна сумме средней из внутригрупповых и межгруппо - вой дисперсий:
Средняя из внутригрупповых дисперсий ( о? ) определяется по формуле
Закон сложения дисперсий широко применяется при исчислении показателей тесноты связи, в дисперсионном анализе, при оценке точности типической выборки и в ряде других случаев.
Доля межгрупповой дисперсии в общей дисперсии носит название эмпирического коэффициента детерминации (л2 — эта квадрат):
Этот коэффициент показывает долю, обусловленную вариацией группировочного признака, в общей вариации изучаемого призна
ка. Корень квадратный из эмпирического коэффициента детерминации носит название эмпирического корреляционного отношения (ті):
Оно характеризует влияние признака, положенного в основание группировки, на вариацию результативного признака. Эмпирическое корреляционное отношение изменяется в пределах 0— 1. Если її = 0, то результативный признак изменяется только в зависимости от признака, положенного в основание группировки, а влияние прочих факторных признаков равно нулю. Промежуточные значения оцениваются в зависимости от их близости к предельным значениям.