
- •Статистика Конспект лекций
- •Часть I. Теория статистики
- •Глава 1. Предмет и метод статистики
- •1.1. Предмет, метод и основные категории статистики как науки
- •1.2. Органы государственной статистики Российской Федерации
- •Глава 2. Статистическое наблюдение
- •2.1. Основные этапы статистического исследования
- •2.2. Статистическое наблюдение — первый этап статистического исследования
- •2.3. Программно-методологические и организационные вопросы статистического наблюдения
- •2.4. Формы, виды и способы наблюдения
- •2.5. Понятие выборочного наблюдения, отбор единиц в выборочную совокупность
- •2.6. Определение ошибок выборки*
- •2.7. Определение численности выборки
- •2.8. Распространение выборочных результатов
- •Глава 3. Сводка и группировка данньк статистического наблюдения
- •3.1. Сводка статистических данных
- •3.2. Группировка статистических данных
- •3.3. Многомерные группировки в статистике
- •3.4. Статистические таблицы
- •3.5. Статистические графики
- •35 % 61 % 4% [Активы, свободные от риска ! Активы с минимальным риском Активы с повышенным риском
- •Глава 4. Статистические величины
- •4.1. Понятие абсолютной и относительной величины в статистике
- •4.2. Виды и взаимосвязи относительных величин
- •2. Относительная величина планового задания.
- •4.3. Средние величины. Общие принципы их применения
- •4.4. Расчет средней через показатели структуры
- •3.'Средний уровень оплаты труда (f):
- •4. Средний уровень фондоотдачи (н):
- •4.5. Расчет средних по результатам группировки. Свойства средней арифметической
- •4.6. Структурные средние
- •4.7 Показатели вариации
- •Глава 5. Изучение динамики общественных явлений
- •5.1. Ряды динамики. Классификация
- •5.2. Правила построения рядов динамики
- •5.3. Показатели анализа рядов динамики
- •5.4. Структура ряда динамики. Проверка ряда на наличие тренда
- •5.5. Анализ сезонных колебаний
- •5.6. Анализ взаимосвязанных рядов динамики
- •Глава 6. Индексы
- •6.1. Индивидуальные индексы и их применение в экономическом анализе
- •6.2. Общие индексы и их применение в анализе
- •6.3. Общие индексы как средние из индивидуальных индексов
- •6.5. Индексы при анализе структурных изменений
- •6.6. Индексы средних величин
- •6.7. Территориальные индексы
- •Глава 7. Статистическое изучение взаимосвязей
- •7.1. Основные понятия корреляционного и регрессионного анализа
- •7.2. Парная корреляция и парная линейная регрессия
- •Ireop u 1 I
- •7.3. Множественная линейная регрессия
- •7.4. Нелинейная регрессия. Коэффициенты эластичности
- •7.5. Множественная корреляция
- •7.6. Оценка значимости параметров взаимосвязи
- •7.7. Непараметрические методы оценки связи
4.7 Показатели вариации
Конкретные условия, в которых находится каждый из изучаемых объектов, а также особенности их собственного развития (социальные, экономические и пр.) выражаются соответствующими числовыми уровнями статистических показателей. Таким образом, вариация, т. е несовпадение уровней одного и того же показателя у разных объектов, имеет объективный характер и помогает познать сущность изучаемого явления
Для измерения вариации в статистике применяют несколько способов.
Наиболее простым является расчет показателя размаха вариации Н как разницы между максимальным (Х^) и минимальным (X^J наблюдаемыми значениями признака.
Н = Х -X .
max mm
Однако размах вариации показывает лишь крайние значения признака Повторяемость промежуточных значений здесь не учитывается.
84
Более строгими характеристиками являются показатели колеблемости относительно среднего уровня признака. Простейший показатель такого типа — среднее линейное отклонение Л как среднее арифметическое значение абсолютных отклонений признака от его среднего уровня.
Л =ZlX,-XI/n .
При повторяемости отдельных значений Х используют формулу средней арифметической взвешенной.
Л = (£lX, - Xlm) / Zm,.
(Напомним, что алгебраическая сумма отклонений от среднего уровня равна нулю.)
Показатель среднего линейного отклонения нашел широкое применение на практике. С его помощью анализируются, например, состав работающих, ритмичность производства, равномерность поставок материалов, разрабатываются системы материального стимулирования. Но, к сожалению, этот показатель усложняет расчеты вероятностного типа, затрудняет применение методов математической статистики. Поэтому в статистических научных исследованиях для измерения вариации чаще всего применяют показатель дисперсии.
Дисперсия признака (<72) определяется на основе квадра-тической степенной средней:
£(X - X)2 £(X - Х)2^ (72 = ——————— или <72 = —————————— .
n £m,
Показатель (7, равный уа2, называется средним квадрати-ческим отклонением.
В общей теории статистики показатель дисперсии является оценкой одноименного показателя теории вероятностей и (как сумма квадратов отклонений) оценкой дисперсии в математической статистике, что позволяет использовать положения этих теоретических дисциплин для анализа социально-экономических процессов.
Простыми преобразованиями могут быть получены формулы расчета дисперсии методом моментов:
XX2 / £X \2 _ О2 = ——— - ——— = X2 - (X)2 ;
85
£X,m,
= X2 - (X)2
£m, \ £m, /
Здесь X2 — среднее значение квадратов признака, или начальный момент второго порядка; Х — среднее значение признака, или начальный момент первого порядка.
Величина дисперсии признака (J2 носит еще название центрального момента второго порядка.
Формула метода моментов используется довольно часто. На ней основываются, например, методы статистического имитационного моделирования. Кроме того, если первичные данные сгруппированы, метод моментов позволяет ускорить расчет дисперсии по аналогии с расчетом среднего значения.
Величина дисперсии не зависит от начала отсчета, т. е. все индивидуальные значения признака можно увеличить или уменьшить на одно и то же число А. Это свойство очевидно, ибо с увеличением или уменьшением значений признака Х аналогично изменяется и показатель среднего уровня.
Численное значение дисперсии зависит от масштаба измерения признака X. При увеличении (или уменьшении) всех значений признака в С раз показатель дисперсии нового, увеличенного (или уменьшенного) признака будет больше (или меньше) дисперсии прежнего значения признака в С2 раз, т. е. (^(Х-О^^Х).
Если первичные данные сгруппировать, то дисперсия признака может быть определена как сумма так называемой
межгрупповои дисперсии внутригрупповых — §2, т. е.
О2 и среднего значения
<^=^+§2.
Вывести эту формулу несложно, если учесть, что межгрупповая дисперсия рассчитывается как
k _ k а^р-а^-Х)2.^)/^,
1-1 )=1 где k — количество групп, на которые разбита вся совокупность;
пг — количество объектов, наблюдений, включенных в группу j;
Х^ — среднее значение признака по группе j;
Х — общее среднее значение признака. Среднее значение внутригрупповых дисперсий рассчитывается по формуле
86
52
£5fm,
1=1
k
£m 1=1
£(X„
- X,)2
1=1
£x,2
где
8,2
=
-
(X,)2.
m
m
Подставляя O2^ и 52 в формулу сложения дисперсий, выходим на формулу расчета дисперсии методом моментов, что и подтверждает правило сложения дисперсий. Свойство сложения дисперсий используется для измерения степени взаимосвязи признаков. Предыдущие два свойства способствуют ускорению расчетов, если первичные данные представлены в сгруппированном виде с равными интервалами. Вводя вместо прежних значений признака Х новые, полученные по формуле
X: = (X, - А) / h, убеждаемся, что
О^Х) = h2 • W} = h2 • (X72 - X72).
Если исходные данные представлены в форме интервального ряда распределения, т. е., по существу, первичные данные распределены по группам, то следовало бы и О2 рассчитывать по правилу сложения дисперсий. Но обычно это сделать невозможно из-за того, что точные средние значения признака в каждом интервале неизвестны. При замене средних значений серединами интервалов получающаяся межгрупповая дисперсия оказывается несколько больше общей дисперсии — ориентировочно на величину h2 /12 (поправка Шеппарда). На практике эту поправку вводят редко и подсчитываемая по данным интервального ряда распределения дисперсия считается достаточно точной оценкой искомой общей дисперсии:
k КХ-Х)2^
)=1
k
£m,
j-1
87
где k — количество интервалов; X. — значение признака Х в середине j-го интервала.
Для приведенного ранее примера получаем
X' -2 -1 0 1 m 0,09 0,18 0,24 0,49
0,18
0,49
Таким образом,
= 1,03.
£m, Так как (X')2 = 0.132, то
(У^б^Ц.ОЗ- 0,0169) = 25,3275.
Непосредственный расчет по исходным данным дает тот же результат, но оказывается более трудоемким.
Если вариация оценивается по небольшому числу наблюдений, взятых из неограниченной генеральной совокупности, то и среднее значение признака определяется с некоторой погрешностью. Расчетная величина дисперсии оказывается смещенной в сторону уменьшения. Для получения несмещенной оценки выборочную дисперсию, полученную по приведенным ранее формулам, надо умножить на величину n / (n - 1). В итоге при малом числе наблюдений (< 30) дисперсию признака рекомендуется вычислять по формуле
£(X, - X)2 (72 = ——————— или <У =
(X2 - (X)2).
n - 1 n - 1
Обычно уже при n > (15 - 20) расхождение смещенной и несмещенной оценок становится несущественным. По этой же причине обычно не учитывают смещенность и в формуле сложения дисперсий.
Если из генеральной совокупности сделать несколько выборок и каждый раз при этом определять среднее значение признака, то возникает задача оценки колеблемости средних. Оценить дисперсию среднего значения можно и на основе всего одного выборочного наблюдения по формуле
(^(Х) = СТ2 / n,
где n—объем выборки; <72—дисперсия признака, рассчитанная по данным выборки.
88
Величина (J. = \/ О^Х) = \/02 / n носит название средней ошибки выборки и является характеристикой отклонения выборочного среднего значения признака Х от его истинной средней величины. Показатель средней ошибки используется при оценке достоверности результатов выборочного наблюдения.
Формулы ________
X, = n, / n = W; О2, = W (1 - W); Ц, = \/W(1 -W)/n
используются для оценки точности выборочного значения доли (удельного веса) как средней величины альтернативного признака.
Под альтернативным понимается такой статистический показатель, который принимает одно из двух взаимоисключающих значений (пол — мужской или женский; изделие — годное или негодное; план по выпуску продукции — выполнен или не выполнен; заказ — выполнен менее чем на 90 % или более чем на 90 % и т. д.). Как видим, конкретное содержание альтернативного признака устанавливается самим исследователем. Обычно считают, что если признак Х принял интересующее нас значение, то его величина равна 1, в противном случае Х = 0. В результате в n, наблюдениях имеем интересующее нас явление (когда Х = 1), а в п^ случаях оно отсутствует (когда Х = 0). Таким образом,
X, = (1 • n, + 0 • n,) / (n, + n,) = n, / (n, + n,) = n, / n = W,
т. е. среднее значение альтернативного показателя равно частоте его появления (W = n, / n). Аналогично
(1 -W)2-^ + (О -W)2-^ 5^ =—————————————= (1 -WW+W'^ -W)=W(1 -W),
(n, + n,)
т. е. дисперсия альтернативного показателя равна произведению частоты его появления на частоту его отсутствия.
Заметим, что в указанном виде формулы средней ошибки применяются в случае выборочного наблюдения повторного типа (выборки с возвратом). Для бесповторной выборки (выборки без возврата) учитывается постепенное сокращение объема генеральной совокупности, а формулы приобретают вид
Ц^С^-Ц - n/N)/n и H=^W(1 -W)-(1 - n/ N)/N.
Например, если при обходе 100 рабочих мест обнаруживается, что 80 из них используются, то расчетный коэффициент использования рабочих мест равен, естественно, 80 %, или 0,8. Но поскольку такую оценку можно рассматривать как случайную величину, то истинный коэффициент использования рабочих мест
будет находиться в пределах от (0,8 - \i} до (0,8 + (1). Этот вывод справедлив с вероятностью 0,683, причем
89
Ц =^0,8(1 -0,8)/ 100=0,04 (0,76 <W< 0,84 с Р= 0,683).
Добавим, что с вероятностью 0,954 истинное значение коэффициента использования рабочих мест будет в пределах от (0,8 - 2 ' 0,04) до (0,8 + 2 • 0,04), или от 72 % до 88 %.
С вероятностью 0,997, т. е. практически всегда, истинное значение данного коэффициента находится в пределах от (0,8 - 3 • 0,04) до (0,8 + 3 • 0,04), или от 68 % до 92 %.
При увеличении коэффициента доверия (множителя перед Ц) получаем более правдоподобный, но практически менее ценный ответ о возможном значении коэффициента использования рабочих мест.
Для сравнения вариаций нескольких признаков по одной и той же совокупности объектов показатели вариации приводятся к сопоставимому виду. Достигается это сравнением среднего квадратического (либо среднего линейного) отклонения со средним уровнем того же признака. Получаемые величины называются коэффициентами вариации. Значения коэффициентов вариации обычно указывают в процентах. В статистике совокупности, имеющие коэффициент вариации больше 30-35 %, принято считать неоднородными.
У такого способа оценки вариации есть и существенный недостаток. Действительно, пусть, например, исходная совокупность рабочих, имеющих средний стаж 15 лет, со средним
квадратическим_отклонением 0 = 10 лет, «состарилась» еще на 15 лет. Теперь Х = 30 лет, а среднеквадратическое отклонение по-прежнему равно 10. Совокупность, ранее бывшая неоднородной (10 / 15 • 100 = 66,7%), со временем оказывается, таким образом, вполне однородной (10 / 30-100 = 33,3 %).