- •Курс лекций по дисциплине «Статистика» Статистика как наука
- •Организация государственной статистики в Российской Федерации
- •Организация международной статистики
- •Статистическое наблюдение
- •Способы наблюдения
- •Определение ошибок выборки
- •Сводка и группировка данных статистического наблюдения
- •Требования к оформлению и составлению таблиц
- •Статистические графики
- •Средние величины
- •Виды и форма средних
- •Степенные средние
- •Коэффициент прямолинейной корреляции Пирсона (Pearson).
- •Нелинейная регрессия
- •Частная корреляция
- •Аналитические показатели динамики
- •Средние по рядам динамики
- •Балансы основных фондов
- •Измерение производительности труда работников предприятия.
- •Риск и статистические методы его оценки.
- •Статистика доходов и расходов населения.
- •Структура потребления.
- •Измерение неравенства населения.
- •Статистика денежного обращения.
- •Статистическое исследование инфляции.
- •Макроэкономические показатели и система национальных счетов.
- •Счет товаров и услуг является своеобразной сводной таблицей :
- •Основные счета внутренней экономики и взаимосвязь между показателями снс.
Средние величины
Факторы надежности средних величин, делающие их действительно типическими характеристиками:
- чем больше единиц совокупности, по которым рассчитывается среднее, тем оно устойчивее и тем больше обеспечивается взаимопогашение случайных индивидуальных особенностей;
- чем более однородны единицы совокупности, тем надежнее, устойчивее среднее, тем более оно типично.
Чтобы понять сущность средней величины ее нужно рассматривать во взаимосвязи, в сравнении с другими средними величинами. Например, средний возраст, среднее образование и средний стаж работы – все эти характеристики взаимосвязаны.
Среднюю величину часто называют показателем центральной тенденции.
Виды и форма средних
Средние бывают двух видов:
- простые
- взвешенные
Пример: Заработная плата за январь у рабочих одного цеха составляет 16500 руб., 14955 руб., 15323 руб.
fi – весовые коэффициенты (веса).
Пример: По каждому из трех рабочих известно следующее:
Рабочий |
Число деталей/рабоч.час. |
Число часов, отработан. за мес. |
1 2 3 |
15 11 14 |
140 105 120 |
Тогда среднее число деталей в час:
Неверный способ:
Степенные средние
К ним относятся все средние, используемые в статистических расчетах. Формула степенной средней:
Вид средней зависит от показателя средней k:
k = 1:
-
средняя арифметическая
k = 2:
-
средняя квадратическая
k = 3:
-
средняя кубическая
k = 0:
- средняя геометрическая (k=0)
k = -1:
- средняя гармоническая
Свойство мажорантности средней:
Пример:
xi = 1, 2, 3
Свойства средней арифметической.
1).
2).
- сумма квадратов отклонений от средней
арифметической меньше суммы квадратов
отклонений от произвольного числа А.
3).
4).
- если каждую варианту умножить или
разделить на число А, то среднее увеличится
в А раз.
5).
6).
То есть, если каждый весовой коэффициент в формуле средней арифметической взвешенной умножить (разделить) на некоторое число, то средняя при этом не изменится.
Пример: Рассчитать среднюю выработку одного рабочего по следующим данным:
Рабочий |
Произведено за неделю |
Часовая выработка |
1 |
200 |
10 |
2 |
240 |
12 |
3 |
390 |
13 |
Неверный способ: (200+240+390)/3
Средняя величина является реальной величиной, поскольку она рассчитывается на основе фактически существующих данных, но вместе с тем она является абстрактной величиной, поскольку получена в результате расчетов.
Изучение вариации.
Вариация – различие значений признака у отдельных единиц изучаемой совокупности в один и тот же период или момент времени.
Статистический анализ вариации предполагает выполнение следующих основных этапов:
Построение вариационного ряда.
Графическое изображение вариационного ряда.
Расчет показателей центра распределения и структурных характеристик вариационного ряда.
Расчет показателей размера и интенсивности вариации.
Оценка вариационного ряда на асимметрию и эксцесс.
Построение вариационного ряда - это упорядоченное распределение единиц совокупности по возрастающим или убывающим значениям признака и подсчет числа единиц с тем или иным его значением.
Варианты – это значения, которые принимает исследуемый признак.
Частоты – это абсолютная численность отдельных групп с различными значениями признака.
Частости (относительные частоты) – это удельные веса (доли) отдельных групп в общей численности совокупности.
;
;
Пример: Имеются данные о проценте выполнения сменных заданий для сотрудников фирмы. Упорядочив их по возрастанию, получим вариационный ряд.
№ |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
Фамилия |
О |
К |
С |
А |
Е |
Р |
В |
Ж |
Г |
Б |
З |
Л |
М |
Т |
%, (xi) |
105 |
108 |
115 |
115 |
115 |
119 |
121 |
125 |
127 |
128 |
128 |
129 |
131 |
132 |
15 |
16 |
17 |
18 |
19 |
20 |
Ю |
Я |
Н |
Э |
М |
Д |
134 |
135 |
140 |
140 |
143 |
145 |
Объединив одинаковые значения Xi , получим таблицу, называемую рядом частот.
xi |
105 |
108 |
115 |
119 |
121 |
125 |
127 |
128 |
129 |
131 |
132 |
134 |
135 |
140 |
143 |
145 |
ni |
1 |
1 |
3 |
1 |
1 |
1 |
1 |
2 |
1 |
1 |
1 |
1 |
1 |
2 |
1 |
1 |
В вариационном ряду xi получены по сильной шкале. Можно перейти в порядковую шкалу, сопоставив каждому значению ранг. Ранг равен порядковому номеру i значения xi в упорядоченной выборке, если частота ni данного значения равна 1. Если же частота значения ni >1, то ранг значения xi равен среднему арифметическому порядковых номеров этого значения в упорядоченной выборке.
xi |
i |
ранг |
105 108 115 119 121 125 127 128 129 131 132 134 135 140 143 145 |
1 2 3,4,5 6 7 8 9 10,11 12 13 14 15 16 17,18 19 20 |
1 2 4 6 7 8 9 10,5 12 13 14 15 16 17,5 19 20 |
Ряд сгруппированных частот.
Такой ряд строят в случае непрерывного признака (или для дискретного признака при объеме совокупности n>50).
При этом весь отрезок [xmin, xmax] разбивается на интервалы, число которых определяется, как правило, по формуле Стерджесса (Sturgess):
k=1+3,32lg(n)=1+1,44ln(n).
Длина интервала:
.
Середины интервалов:
y
1=xmin
y2=xmin+d
y3=y2+d
…
yk=xmax
Находим частоту каждого интервала ni: т.е. число значений признака, попавших в данный интервал. Причем, если значение xi с четной частотой ni попадает на границу интервала, то половину значений ni/2 относят к левому интервалу, а другую - к праому. Если ni нечетное, то к левому относят (ni+1)/2.
Построим ряд сгруппированных частот для нашего примера:
xmin=105; xmax=145; n=20;
k=1+3,32lg(20)=5,3 (k=5)
d=(145-105)/(5-1)=10
Интервал
|
Середина интервала
|
Частота ni
|
Частость mi=ni/n
|
100-110 110-120 120-130 130-140 140-150 |
105 115 125 135 145 |
2 4 6 5 3 |
0,1 0,2 0,3 0,25 0,15 |
Гистограмма частот:
Полигон частостей:
Кумулята, огива:
Характеристики вариационного ряда.
1. Показатели центра распределения.
- Среднее значение признака
- Мода (Mo)
Mo – значение признака, наиболее часто встречающееся в изучаемой совокупности. В дискретном вариационном ряду модой является варианта с наибольшей частотой или частностью.
В интервальном вариационном ряду мода рассчитывается по формуле:
(*)
Модальный интервал – это интервал, имеющий наибольшую частоту.
Расчет модального значения для вариационных рядов с неравными интервалами осуществляется по формуле аналогичной (*), только вместо показателей частот или частостей используются показатели абсолютной или относительной плотности распределения, которые обеспечивают сопоставимость неравных интервалов. Показатели плотности распределения находятся как отношения частот (частостей) к величине интервала.
- абсолютная плотность распределения
- относительная плотность распределения
- Медиана (Me, Md)
Это варианта, расположенная в середине упорядоченного вариационного ряда, делящая его на две равные части так, что половина единиц совокупности имеет значение признака меньшее, чем медиана, а половина – большее, чем медиана.
-
xi
5
3
2
1
7
Упорядоч.
1
2
3
5
7
Me=3
Если n=2k+1, Me=Xk+1 ;
Если n=2k, Me=(Xk+Xk+1)/2
Нормальный закон распределения
Функция плотности вероятности для нормального закона распределения:
График такой функции называется кривой Гаусса.
Правило «трех сигм»:
Площадь под кривой Гаусса в диапазоне
составляет 68.3%
составляет 95.4%
составляет 99.7%
Моменты распределения
Начальным моментом k-го порядка называется величина:
Центральным моментом k-го порядка называется величина:
Дисперсия – это центральный момент 2-го порядка.
Средняя арифметическая – начальный момент 1-го порядка.
Основным моментом k-го порядка называется величина:
(безразмерная величина)
- Асимметрия
µ1=M(X-M(x))=0
-Эксцесс
Для нормального распределения показатели асимметрии и эксцесса равны 0.
Степень существенности (или значимости) асимметрии и эксцесса можно оценить с помощью соответствующих среднеквадратических ошибок коэффициента асимметрии и эксцесса.
;
;
Если
- то значение As
существенно (или значимо).
Если
- то значение Ex
существенно (значимо).
Для симметричного распределения
.
Правосторонняя асимметрия:
Квантили распределения.
Квантиль - это значение, делящее вариационный ряд (или ряд сгруппированных частот) на две части с определенными пропорциями в каждой из них.
К квантилям относятся:
- квартили (Q1, Q2, Q3). Они делят упорядоченную выборку на 4 равные части.
- децили (D1, D2, …, D9). Они делят упорядоченную выборку на 10 равных частей.
- процентили (P1, P2, …, P99). Они делят упорядоченную выборку на 100 равных частей.
Пример: 64 студента выполняли тест из 15 вопросов. Оценка равняется количеству правильных ответов. Определим 30 процентиль, т.е. такое значение, меньше которого получили оценку 30% испытуемых.
Интервал |
Оценка |
Частота ni |
Накопленная частота |
4,5-5,5 5,5-6,5 6,5-7,5 7,5-8,5 8,5-9,5 9,5-10,5 10,5-11,5 11,5-12,5
|
5 6 7 8 9 10 11 12 |
4 7 13 15 7 9 6 3
|
4 11 24 39 46 55 61 64 |
Формула для нахождения j-ой процентили:
,
;
d – длина интервала,
xн – левая (нижняя) граница интервала, содержащего накопленную частоту k,
n* - частота этого интервала,
∑ni – накопленная к xн частота.
k=(30*65)/100=19,5
В силу того, что 11 человек имеют оценку 6 или меньше, а 24 – 7 или меньше, то частота k=19,5 лежит в интервале [6,5; 7,5] => xн=6,5; n*=13; ∑ni=11, d=1.
P30=6,5 +1(19,5-11)/13=7,15
Следовательно, 30% всех оценок за тест лежит ниже 7,15. Me=P50=D5=Q2
Показатели вариации.
Абсолютные показатели вариации:
1). Размах (Range)
R=Xmax - Xmin
2). Среднее линейное отклонение
3). Среднее квадратическое отклонение (Standard Deviation)
Дисперсия (Variance):
4). Квартильное отклонение применяется иногда вместо размаха вариации
Относительные показатели:
1). Коэффициент осцилляции
2). Относительное линейное отклонение
3). Коэффициент вариации (наиболее часто
применяемый)
4). Коэффициент децильной дифференциации
Правило сложения дисперсий.
Для сгруппированной статистической совокупности возможно вычисление 3-х видов дисперсий: общей, межгрупповой и внутригрупповой.
Общая дисперсия характеризует изменение признака во всей изучаемой совокупности и рассчитывается по формуле:
,
i – индекс суммирования по группам.
j – индекс суммирования по элементам в группе.
Для оценки изменения признака внутри каждой i-ой группы вычисляют внутригрупповые дисперсии:
Обобщенную характеристику внутригруппового изменения для внутригрупповых средних вычисляют так:
Межгрупповая дисперсия показывает вариацию групповых средних вокруг средней величины признака в совокупности:
Общая дисперсия равна сумме межгрупповой дисперсии и средней из внутригрупповых дисперсий.
Шкалы измерения значений признаков.
Выделяют 4-е шкалы, каждая из них связана с определенным свойством чисел. Каждая последующая шкала, кроме свойств чисел, присущих предыдущим шкалам, имеет и свои собственные.
1). Номинальная (шкала наименований, номинативная). Частный случай – дихотомическая.
Свойство чисел: равенство и различие.
2). Порядковая (ранговая или ординальная).
Свойство чисел: упорядоченность.
3). Интервальная шкала.
Позволяет определить, на сколько единиц одно значение признака отличается от другого.
4). Шкала отношений.
Позволяет определить, во сколько раз одно значение отличается от другого. Значение 0 свидетельствует об отсутствии признака у объекта.
Первые два типа шкал называют слабыми или неметрическими. Последние два типа – сильные или метрические.
Значения, полученные по сильной шкале, всегда можно преобразовать в одну из слабых шкал.
Статистический анализ связей.
Статистическая связь – это связь, проявляющаяся не в каждом отдельном случае, а в массе случаев, в средних величинах, в форме тенденции.
Частный случай статистической связи - это корреляционная связь, при которой некоторому изменению одного признака (количеств.) соответствует определенное изменение средней величины другого признака.
Связь двух признаков (y,x) – называют парной корреляцией. x – факторный признак, y – результативный признак или отклик. Влияние нескольких факторов на результативный признак называется множественной корреляцией.
По направлению связи бывают прямые и обратные. Если при увеличении значений X, значения Y в среднем увеличиваются, то связь называется прямой.
Если при увеличении X, значения отклика Y в среднем уменьшаются, то такая связь называется обратной.
Пример: Зависимость качества работы (Y) от скорости ее выполнения (X).
Xi |
x1 |
x2 |
… |
xn |
|
yi |
y1 |
y2 |
… |
yn |
|
Регрессионный анализ исследует форму зависимости между X и Y что выражается в подборе соответствующей функции y=f(x).
