Социально-экономическая статистика
Метод группировки и его место в системе статистических методов
Отдельные единицы статистической совокупности объединяются в группы. Группировки являются важнейшим статистическим методом обобщения данных, основой для правильного исчисления аналитических показателей.
С помощью метода группировок решаются следующие задачи:
• характеристика социально-экономических типов явлений;
« изучение структуры явления и структурных сдвигов, происходящих в нем;
• определение связи и зависимости между явлениями.
В соответствии с этим статистические группировки делятся на типологические, структурные и аналитические.
Типологическая группировка — это разделение исследуемой совокупности на классы, социально-экономические типы, однородные группы единиц в соответствии с изучаемыми признаками. Примером типологической группировки является группировка сельскохозяйственных предприятий по формам собственности. Такие группировки широко применяются в исследовании социально-экономических явлений и процессов. Они позволяют проследить зарождение, развитие и отмирание различных типов явлений. При проведении типологической группировки основное внимание должно быть уделено идентификации типов социально-экономических явлений. Она проводится на базе глубокого теоретического анализа исследуемого явления.
Структурной называется группировка, в которой происходит разделение однородной совокупности на группы, характеризующие ее структуру по какому-либо варьирующему признаку.
Явления общественной жизни и отражающие их признаки тесно взаимосвязаны. Группировка, выявляющая взаимосвязи между изучаемыми явлениями и их признаками, называется аналитической группировкой.
Всю совокупность признаков можно разделить на две группы: факторные и результативные. Результативным является признак, который испытывает влияние факторных признаков. Факторными называются признаки, под воздействием которых изменяются результативные признаки. Такая взаимосвязь проявляется в том, что с изменением факторного признака систематически возрастает или убывает среднее значение результативного признака. Например, производительность труда зависит от технического уровня предприятия: чем он выше, тем при прочих равных условиях выше производительность труда занятых на предприятии. Поэтому, группируя промышленные предприятия, производящие одну и ту же продукцию, по техническому уровню производства (по уровню фондовооруженности труда) и исчисляя для каждой группы среднюю выработку товарной продукции на одного работающего, можно статистически отразить эту зависимость между факторами.
Особенности аналитической группировки состоят в следующем: во-первых, в основу группировки кладется факторный признак; во - вторых, каждая выделенная группа характеризуется средними значениями результативного признака.
Аналитические группировки позволяют изучить многообразие связей и зависимости между варьирующими признаками. Преимущество метода аналитических группировок перед другими методами анализа связи (например, корреляционно-регрессионным) состоит в том, что он не требует соблюдения каких-либо условий для его применения, кроме одного — качественной однородности исследуемой совокупности.
Группировка, в которой группы образованы по одному признаку, называется простой. Для характеристики явления бывает недостаточно разбить совокупность на группы по какому-либо одному признаку. В этом случае строят сложные группировки.
Сложной называется группировка, в которой разделение совокупности на группы проводится по двум и более признакам, взятым в сочетании (комбинации). Сначала группы формируются по одному признаку, затем они делятся на подгруппы по другому признаку, которые в свою очередь подразделяются по третьему признаку, и т. д. Таким образом, сложные группировки дают возможность изу-
чать распределение единиц совокупности одновременно по нескольким признакам. Примером такой группировки может служить группировка сельскохозяйственных предприятий по числу работников и стоимости основных фондов.
При построении сложной группировки возникает вопрос о последовательности разбиения единиц объекта по признакам. Как правило, рекомендуется сначала проводить группировку по атрибутивным признакам, значения которых имеют ярко выраженные качественные различия.
Группировочным признаком называется признак, по которому проводится разбивка единиц совокупности на отдельные группы (его часто называют основанием группировки). В качестве основания группировки следует использовать существенные признаки — как количественные, так и качественные. Первые имеют числовое выражение (урожайность, основные фонды, денежный доход семьи и т. д.), а вторые отражают состояние совокупности (отраслевая принадлежность предприятия, его форма собственности и организационно-правовая форма, виды сельскохозяйственных угодий и др.).
После определения основания группировки следует решить вопрос о количестве групп, на которые надо разбить исследуемую совокупность. Число групп зависит от задач исследования и вида признака, положенного в основание группировки, численности совокупности, степени вариации признака.
Единицы анализируемого объекта могут быть разбиты по одному и тому же признаку на разное число групп. Например, при группировке населения по возрасту с целью определения трудовых ресурсов страны все население в практической статистике делится на три группы: население моложе трудоспособного возраста, население в трудоспособном возрасте и население старше трудоспособного возраста. Если анализируется продолжительность жизни, то строится более детальная группировка и выделяются пятигодичные и годич - , ные группы.
При построении группировки по качественному признаку групп, как правило, будет столько, сколько имеется градаций, видов, состояний у этого признака. Например, в случае проведения группировки населения по полу можно образовать только две группы: мужчины и женщины. Если проводится группировка сельскохозяйственного производства по экономическим районам, то вся исследуемая совокупность делится на 12 групп (именно на столько экономических районов поделена территория России).
От группировок следует отличать классификацию.
Классификацией называется систематизированное распределение явлений и объектов на определенные группы, классы, разряды на основании какого-либо признака.
Отличительной чертой классификации является, во-первых, то, что в основе ее лежит качественный признак. Во-вторых, классификации стандартны. Они устанавливаются органами государственной и международной статистики. Если в каждом конкретном исследовании строится своя группировка, то классификация едина для любого исследования независимо от того, проводят ли его органы государственной статистики или другие учреждения и ведомства (министерства, налоговые органы и т. п.); в-третьих, классификации устойчивы. Они остаются неизменными в течение длительного периода. Однако если появляются новые группы единиц, их классы, разряды, то в классификации вносятся соответствующие изменения и дополнения.
Классификация, предопределяя важнейшие признаки группировки единиц совокупности, является основой группировок. В ней точно определены всевозможные группы и имеются подробные указания, помогающие отнести любую единицу объекта в ту или иную группу в каждом конкретном случае.
Если группировка проводится по количественному признаку, то необходимо обратить особое внимание на число единиц исследуемого объекта и степень колеблемости группировочного признака. Группировка по количественному признаку имеет задачу отразить распределение единиц совокупности по этому признаку. Количество групп зависит, в первую очередь, от степени колеблемости группировочного признака: чем больше его колеблемость, тем больше следует создать групп. Чем больше групп, тем точнее будет воспроизведен характер исследуемого объекта. Однако слишком большое число групп затрудняет выявление закономерностей при исследовании социально-экономических явлений и процессов. Поэтому в каждом конкретном случае при определении числа групп следует исходить не только из степени колеблемости признака, но еще учитывать особенности объекта и цель исследования.
При использовании электронно-вычислительных машин и персональных компьютеров для обработки статистических данных группировка единиц объекта проводится с помощью стандартных процедур. Одна из таких процедур основана на использовании формулы Стерджесса для определения оптимального числа групп:
п = 1 + 3,322 • lgTV,
где п — число групп;
N — число единиц совокупности.
Согласно формуле выбор числа групп зависит от объема совокупности. Применение формулы дает хорошие результаты, если совокупность состоит из большого числа единиц, распределение которых по признаку, положенному в основание группировки, близко к нормальному.
После определения числа групп следует определить интервалы группировки.
Интервал — это значения варьирующего признака, лежащие в определенных границах. Каждый интервал имеет свою величину, верхнюю и нижнюю границы или хотя бы одну из них. Нижней границей интервала называется наименьшее значение признака в интервале, а верхней границей — наибольшее значение признака в нем.
Величина интервала представляет собой разность между верхней и нижней границами интервала.
Интервалы группировки в зависимости от их величины бывают равные и неравные. Последние делятся на прогрессивно возрастающие, прогрессивно убывающие, произвольные и специализированные.
Если вариация признака проявляется в сравнительно узких границах и распределение носит более или менее равномерный характер, то строят группировку с равными интервалами. Величина равного интервала определяется по формуле
_ -*max ~ -^inin
где X/ — величина равного интервала;
Хішх и -'чпш — максимальные и минимальные значения группировоч - ного признака;
й — предполагаемое число групп.
Полученную таким образом величину округляют, она является шагом интервала.
Первые и последние интервалы количественной группировки могут быть открытыми и закрытыми. Открытые — это интервалы, у которых указана только одна граница: верхняя — у первого, нижняя — у последнего. Например, открытыми будут первый и последний интервалы в группировке населения по размеру среднедушевого дохода. Закрытыми называются интервалы, у которых обозначены обе границы.
Величина открытого интервала принимается равной величине смежного с ним интервала (т. е. первый интервал приравнивается ко второму, а последний — к предпоследнему).
При группировке по количественному признаку границы интервалов могут быть обозначены по-разному. Если основанием группировки служит непрерывный признак, то одно и то же его значение выступает и верхней, и нижней границами у двух смежных интервалов. Таким образом, верхняя граница /-го интервала равна нижней границе / + 1-го интервала.
При таком обозначении границ может возникнуть вопрос, в какую группу включать единицы объекта, значения признака у которого совпадают с границами интервалов. Для того чтобы правильно отнести к той или иной группе единицу объекта, у которой значение признака совпадает с границами интервалов, можно использовать открытые интервалы. Если в основании группировки лежит дискретный признак, то нижняя граница последующего интервала равна верхней границе предыдущего интервала, увеличенной на единицу.
Неравные интервалы применяются в статистике, когда значения признака варьируют неравномерно и в значительных размерах, что характерно для большинства социально-экономических явлений, особенно при анализе макроэкономических показателей. Неравные интервалы могут быть прогрессивно возрастающими или убывающими в арифметической или геометрической прогрессии. Величина интервалов, изменяющихся в арифметической прогрессии, определяется следующим образом:
А, +, = hi + a,
где а — постоянное число, которое будет положительным при прогрессивно возрастающих интервалах и отрицательным—при прогрессивно убывающих интервалах.
В геометрической прогрессии величина интервалов исчисляется по формуле
где q — постоянное положительное число, которое при прогрессивно возрастающих интервалах будет больше 1, а при прогрессивно убывающих — меньше 1.
При определении границ интервалов статистических группировок исходят из того, что изменение количественного признака приводит к появлению нового качества. В этом случае граница интервала устанавливается там, где происходит переход от одного качества к другому. Рамки границ зависят от условий места и времени. Поэтому следует дифференцированно устанавливать границы интервалов для разных отраслей экономики и разных типов хозяйств. Это достигается путем использования группировок со специализированными интервалами.
Специализированными называются интервалы, применяющиеся для выделения из совокупности одних и тех же типов по одному и тому же признаку для явлений, находящихся в различных условиях.
При изучении социально-экономических явлений на макроуровне часто применяют группировки, интервалы которых являются произвольными. Особенность данной группировки в том, что выбор числа групп и границ интервалов зависит от исследователя.
Одним из видов группировок являются ряды распределения.
Статистический ряд распределения — это упорядоченное распределение единиц совокупности на группы по определенному варьирующему признаку. Ряды распределения принято оформлять в виде статистической таблицы. В зависимости от признака, положенного в основу образования ряда распределения, различают атрибутивные и вариационные ряды распределения.
Атрибутивными называют ряды распределения, построенные по качественным признакам. Элементами этого ряда распределения являются значения атрибутивного признака и число случаев, относящихся к каждому значению. Атрибутивные ряды характеризуют состав совокупности по тем или иным существенным признакам. Взятые за несколько периодов, эти данные позволяют исследовать изменение структуры явления.
Вариационными называют ряды распределения, построенные по количественному признаку. Любой вариационный ряд состоит из двух элементов: вариантов и частот.
Вариантами считаются отдельные значения признака, которые он принимает в вариационном ряду, т. е. конкретные значения варьирующего признака.
Частоты — это численности отдельных вариантов или каждой группы вариационного ряда, т. е. это числа, показывающие, как часто встречаются те или иные варианты в ряду распределения. Сумма всех частот определяет численность всей совокупности, ее объем.
Частостями называются частоты, выраженные в долях единицы или в процентах к итогу. Соответственно сумма частостей равна 1 или 100%.
В зависимости от характера вариации признака различают дискретные и интервальные вариационные ряды. Как известно, вариация количественных признаков может быть дискретной (прерывной) или непрерывной. В случае дискретной вариации величина количественного признака принимает только целые значения. Следовательно, дискретный вариационный ряд характеризует распределение единиц совокупности по дискретному признаку.
В случае непрерывной вариации величина признака у единиц совокупности может принимать в определенных пределах любые значения, отличающиеся друг от друга на сколь угодно малую величину. Построение интервальных вариационных рядов целесообразно, прежде всего, при непрерывной вариации признака, а также если дискретная вариация проявляется в широких пределах, т. е. число вариантов дискретного признака достаточно велико.
Наглядно ряды распределения можно представить при помощи их графического изображения, позволяющего судить о форме распределения. Наиболее часто для этой цели используют полигон и гистограмму.
Полигон используется при изображении дискретных вариационных рядов. Для его построения в прямоугольной системе координат по оси абсцисс в одинаковом масштабе откладываются ранжированные значения варьирующего признака, а по оси ординат наносится шкала для выражения величины частот. Полученные на пересечении абсцисс и ординат точки соединяются прямыми линиями, в результате чего получают ломаную линию, называемую полигоном частот. Иногда для замыкания полигона предлагается крайние точки (слева и справа на ломаной линии) соединить с точками на оси абсцисс. В этом случае получается многоугольник.
Гистограмма применяется для изображения интервального вариационного ряда. При ее построении на оси абсцисс откладываются величины интервалов, а частоты изображаются прямоугольниками, построенными на соответствующих интервалах. Высота столбиков в случае равных интервалов должна быть пропорциональна частотам. В результате мы получим гистограмму — график, на котором ряд распределения изображен в виде смежных друг с другом столбиков. Гистограмма может быть преобразована в полигон распределения, если найти середины сторон прямоугольников и затем эти точки соединить прямыми линиями.
При построении гистограммы распределения вариационного ряда с неравными интервалами по оси ординат наносят не частоты, а плотность распределения признака в соответствующих интервалах. Это необходимо сделать для устранения влияния величины интервала на распределение и получения возможности сравнивать частоты.
Плотность распределения — это частота, рассчитанная на единицу ширины интервала. Она показывает, сколько единиц в каждой группе приходится на единицу величины интервала.
Для графического изображения вариационных рядов может также использоваться кумулятивная кривая. При помощи кумуляты (кривой сумм) изображается ряд накопленных частот. Последние определяются путем последовательного суммирования частот по группам и показывают, сколько единиц совокупности имеют значения не больше чем рассматриваемое значение.
При построении кумуляты интервального вариационного ряда по оси абсцисс откладываются варианты ряда, а по оси ординат — накопленные частоты, которые наносят на поле графика в виде перпендикуляров к оси абсцисс в верхних границах интервалов. Затем перпендикуляры соединяют и получают ломаную линию, т. е. куму - ляту.
Изображение вариационного ряда в виде кумуляты особенно эффективно для вариационных рядов, частоты которых выражены в долях или процентах к сумме частот ряда, принятой соответственно за единицу или за 100%, т. е. частостями. Если при графическом изображении вариационного ряда в виде кумуляты оси поменять местами, то получим огиву.
С помощью кумулятивных кривых графически изображают процесс концентрации.
Построим полигон, гистограмму, кумуляту и огиву (рис. 4.1) на основании следующих данных о распределении сельского населения в России на 1 января 1998 г. по возрастным группам (млн человек).
Возраст (лет) |
Численность сельского населения |
Накопленная численность населения |
0—10 |
5,2 |
5,2 |
10—20 |
6,7 |
11,9 |
20—30 |
4,8 |
16,7 |
30—40 |
6,0 |
22,7 |
40—50 |
5,4 |
28,1 |
50—60 |
3,5 |
31,6 |
60—70 |
4,4 |
36,0 |
70 и старше |
3,6 |
39,6 |
Итого |
39,6 |
На графике (рис. 4.1) представлены полигон (ломаная прямая) и гистограмма (совокупность прямоугольников) вышеуказанного распределения.
Рис. 4.1. Полигон и гистрограмма распределения сельского населения России по возрасту Кумулята этого распределения выглядит следующим образом (она строится на основании накопленных частот), рис. 4.2: Огива строится таким же образом, как и кумулята, только оси абсцисс и ординат меняются местами (рис. 4.3). Ряд распределения представляет собой простейшую группмров - ку, в которой каждая выделяемая группа характеризуется одним показателем—численностью единиц объекта, попавших в каждую группу. Построение рядов распределения является составной частью |
сводной обработки данных, при которой каждая группа единиц характеризуется многими показателями. Поэтому важным моментом в построении группировки является перечень тех показателей, которыми будет характеризоваться каждая группа.
Рис. 4.2. Кумулята распределения сельского населения России по возрасту |
39,6 Рис. 4.3. Численность сельского населения, млн чел Состав таких показателей формируется в соответствии с целями статистического исследования и задачами группировки. Для получения обобщенной, комплексной характеристики социально-экономического явления используют не отдельные показатели, а систему статистических показателей, которая предусматривает исчисление абсолютных, относительных и средних величин. Группировки, построенные за один и тот же период, но для |
разных регионов, или, наоборот, для одного региона, но за два разных периода, могут оказаться несопоставимыми из-за различного числа выделенных групп или неодинаковости границ интервалов. Для того чтобы привести такие группировки к сопоставимому виду осуществляют вторичную группировку.
Вторичная группировка — операция по образованию новых групп на основе ранее осуществленной группировки.
Применяют два способа образования новых групп. Первым, наиболее простым и распространенным способом является объединение первоначальных интервалов. Он используется в случае перехода от мелких к более крупным интервалам, а также когда границы новых и старых интервалов совпадают. Второй способ получил название долевой перегруппировки и состоит в образовании новых групп на основе закрепления за каждой из них определенной доли единиц совокупности. Этот способ употребляется, когда необходимо в ходе перегруппировки данных определить, какая часть (доля) единиц совокупности перейдет из старых групп в новые.
Рассмотрим первый способ проведения вторичной группировки. Например, имеются следующие данные о численности сельского населения России на 1 января 1998 г. (млн человек). Необходимо построить вторичную группировку с интервалами 0—15 лет; 15—55 лет; 55 лет и более. Эта группировка выглядит следующим образом:
Возраст (лет) |
Численность сельского населения |
Новая группировка |
Численность сельского населения |
О J. о |
5,2 |
0—15 |
8,9 |
10—15 |
3,7 |
||
15—25 |
5,6 |
15—55 |
20,4 |
25—40 |
8,2 |
||
40—55 |
6,6 |
||
55—65 |
4,4 |
55 и более |
10,3 |
65 и более |
5,9 |
||
Итого: |
39,6 |
39,6 |
Более сложным является способ долевой перегруппировки. Применение его рассмотрим на следующем примере. Имеются данные о численности сельского населения России на 1 января 1998 г. (млн человек). Построить вторичную группировку с интервалами О— 15 лет; 15—55 лет; 55 лет и более.
Возраст |
Численность |
Новая |
Численность сельского |
сельского населения |
группировка |
населения |
|
0—5 |
2,1 |
0—15 |
8,55 |
5—10 |
3,1 |
15—55 |
20,825 |
10—20 |
6,7 |
||
20—40 |
10,8 |
||
40—60 |
8,9 |
55 и более |
10,225 |
Свыше 60 |
8,0 |
||
Итого: |
39,6 |
39,6 |
Расчет численности сельского населения по новым группам производится следующим образом:
а) интервал О-15 : 51ИСС = 2.1+ 3,1+ 6,7*-^—^- = 8,55;
20-10
б) Интервал 15-55: = 6,7 • —— +10,8 + 8.9 • 5^~40 = 3,35 +10,8 +
20-10 60-40
+6,675 = 20,825;
в) интервал 55 и более: = 8,9*-^—— + 8,0 = 10,225
60-40
Проверка: 8,55 + 20,825 + 10,225 = 39,6 млн чел.