Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции по статистике_2014.doc
Скачиваний:
13
Добавлен:
01.07.2025
Размер:
2.31 Mб
Скачать

Средние величины

Факторы надежности средних величин, делающие их действительно типическими характеристиками:

- чем больше единиц совокупности, по которым рассчитывается среднее, тем оно устойчивее и тем больше обеспечивается взаимопогашение случайных индивидуальных особенностей;

- чем более однородны единицы совокупности, тем надежнее, устойчивее среднее, тем более оно типично.

Чтобы понять сущность средней величины ее нужно рассматривать во взаимосвязи, в сравнении с другими средними величинами. Например, средний возраст, среднее образование и средний стаж работы – все эти характеристики взаимосвязаны.

Среднюю величину часто называют показателем центральной тенденции.

Виды и форма средних

Средние бывают двух видов:

- простые

- взвешенные

Пример: Заработная плата за январь у рабочих одного цеха составляет 16500 руб., 14955 руб., 15323 руб.

fi – весовые коэффициенты (веса).

Пример: По каждому из трех рабочих известно следующее:

Рабочий

Число деталей/рабоч.час.

Число часов, отработан. за мес.

1

2

3

15

11

14

140

105

120

Тогда среднее число деталей в час:

Неверный способ:

Степенные средние

К ним относятся все средние, используемые в статистических расчетах. Формула степенной средней:

Вид средней зависит от показателя средней k:

k = 1: - средняя арифметическая

k = 2: - средняя квадратическая

k = 3: - средняя кубическая

k = 0: - средняя геометрическая (k=0)

k = -1: - средняя гармоническая

Свойство мажорантности средней:

Пример:

xi = 1, 2, 3

Свойства средней арифметической.

1).

2). - сумма квадратов отклонений от средней арифметической меньше суммы квадратов отклонений от произвольного числа А.

3).

4). - если каждую варианту умножить или разделить на число А, то среднее увеличится в А раз.

5).

6).

То есть, если каждый весовой коэффициент в формуле средней арифметической взвешенной умножить (разделить) на некоторое число, то средняя при этом не изменится.

Пример: Рассчитать среднюю выработку одного рабочего по следующим данным:

Рабочий

Произведено за неделю

Часовая выработка

1

200

10

2

240

12

3

390

13

Неверный способ: (200+240+390)/3

Средняя величина является реальной величиной, поскольку она рассчитывается на основе фактически существующих данных, но вместе с тем она является абстрактной величиной, поскольку получена в результате расчетов.

Изучение вариации.

Вариация – различие значений признака у отдельных единиц изучаемой совокупности в один и тот же период или момент времени.

Статистический анализ вариации предполагает выполнение следующих основных этапов:

  1. Построение вариационного ряда.

  2. Графическое изображение вариационного ряда.

  3. Расчет показателей центра распределения и структурных характеристик вариационного ряда.

  4. Расчет показателей размера и интенсивности вариации.

  5. Оценка вариационного ряда на асимметрию и эксцесс.

Построение вариационного ряда - это упорядоченное распределение единиц совокупности по возрастающим или убывающим значениям признака и подсчет числа единиц с тем или иным его значением.

Варианты – это значения, которые принимает исследуемый признак.

Частоты – это абсолютная численность отдельных групп с различными значениями признака.

Частости (относительные частоты) – это удельные веса (доли) отдельных групп в общей численности совокупности.

; ;

Пример: Имеются данные о проценте выполнения сменных заданий для сотрудников фирмы. Упорядочив их по возрастанию, получим вариационный ряд.

1

2

3

4

5

6

7

8

9

10

11

12

13

14

Фамилия

О

К

С

А

Е

Р

В

Ж

Г

Б

З

Л

М

Т

%, (xi)

105

108

115

115

115

119

121

125

127

128

128

129

131

132

15

16

17

18

19

20

Ю

Я

Н

Э

М

Д

134

135

140

140

143

145

Объединив одинаковые значения Xi , получим таблицу, называемую рядом частот.

xi

105

108

115

119

121

125

127

128

129

131

132

134

135

140

143

145

ni

1

1

3

1

1

1

1

2

1

1

1

1

1

2

1

1

В вариационном ряду xi получены по сильной шкале. Можно перейти в порядковую шкалу, сопоставив каждому значению ранг. Ранг равен порядковому номеру i значения xi в упорядоченной выборке, если частота ni данного значения равна 1. Если же частота значения ni >1, то ранг значения xi равен среднему арифметическому порядковых номеров этого значения в упорядоченной выборке.

xi

i

ранг

105

108

115

119

121

125

127

128

129

131

132

134

135

140

143

145

1

2

3,4,5

6

7

8

9

10,11

12

13

14

15

16

17,18

19

20

1

2

4

6

7

8

9

10,5

12

13

14

15

16

17,5

19

20

Ряд сгруппированных частот.

Такой ряд строят в случае непрерывного признака (или для дискретного признака при объеме совокупности n>50).

При этом весь отрезок [xmin, xmax] разбивается на интервалы, число которых определяется, как правило, по формуле Стерджесса (Sturgess):

k=1+3,32lg(n)=1+1,44ln(n).

Длина интервала: .

Середины интервалов:

y 1=xmin

y2=xmin+d

y3=y2+d

yk=xmax

Находим частоту каждого интервала ni: т.е. число значений признака, попавших в данный интервал. Причем, если значение xi с четной частотой ni попадает на границу интервала, то половину значений ni/2 относят к левому интервалу, а другую - к праому. Если ni нечетное, то к левому относят (ni+1)/2.

Построим ряд сгруппированных частот для нашего примера:

xmin=105; xmax=145; n=20;

k=1+3,32lg(20)=5,3 (k=5)

d=(145-105)/(5-1)=10

Интервал

Середина интервала

Частота ni

Частость mi=ni/n

100-110

110-120

120-130

130-140

140-150

105

115

125

135

145

2

4

6

5

3

0,1

0,2

0,3

0,25

0,15

Гистограмма частот:

Полигон частостей:

Кумулята, огива:

Характеристики вариационного ряда.

1. Показатели центра распределения.

- Среднее значение признака

- Мода (Mo)

Mo – значение признака, наиболее часто встречающееся в изучаемой совокупности. В дискретном вариационном ряду модой является варианта с наибольшей частотой или частностью.

В интервальном вариационном ряду мода рассчитывается по формуле:

(*)

Модальный интервал – это интервал, имеющий наибольшую частоту.

Расчет модального значения для вариационных рядов с неравными интервалами осуществляется по формуле аналогичной (*), только вместо показателей частот или частостей используются показатели абсолютной или относительной плотности распределения, которые обеспечивают сопоставимость неравных интервалов. Показатели плотности распределения находятся как отношения частот (частостей) к величине интервала.

- абсолютная плотность распределения

- относительная плотность распределения

- Медиана (Me, Md)

Это варианта, расположенная в середине упорядоченного вариационного ряда, делящая его на две равные части так, что половина единиц совокупности имеет значение признака меньшее, чем медиана, а половина – большее, чем медиана.

xi

5

3

2

1

7

Упорядоч.

1

2

3

5

7

Me=3

Если n=2k+1, Me=Xk+1 ;

Если n=2k, Me=(Xk+Xk+1)/2

Нормальный закон распределения

Функция плотности вероятности для нормального закона распределения:

График такой функции называется кривой Гаусса.

Правило «трех сигм»:

Площадь под кривой Гаусса в диапазоне

составляет 68.3%

составляет 95.4%

составляет 99.7%

Моменты распределения

Начальным моментом k-го порядка называется величина:

Центральным моментом k-го порядка называется величина:

Дисперсия – это центральный момент 2-го порядка.

Средняя арифметическая – начальный момент 1-го порядка.

Основным моментом k-го порядка называется величина:

(безразмерная величина)

- Асимметрия

µ1=M(X-M(x))=0

-Эксцесс

Для нормального распределения показатели асимметрии и эксцесса равны 0.

Степень существенности (или значимости) асимметрии и эксцесса можно оценить с помощью соответствующих среднеквадратических ошибок коэффициента асимметрии и эксцесса.

; ;

Если - то значение As существенно (или значимо).

Если - то значение Ex существенно (значимо).

Для симметричного распределения .

Правосторонняя асимметрия:

Квантили распределения.

Квантиль - это значение, делящее вариационный ряд (или ряд сгруппированных частот) на две части с определенными пропорциями в каждой из них.

К квантилям относятся:

- квартили (Q1, Q2, Q3). Они делят упорядоченную выборку на 4 равные части.

- децили (D1, D2, …, D9). Они делят упорядоченную выборку на 10 равных частей.

- процентили (P1, P2, …, P99). Они делят упорядоченную выборку на 100 равных частей.

Пример: 64 студента выполняли тест из 15 вопросов. Оценка равняется количеству правильных ответов. Определим 30 процентиль, т.е. такое значение, меньше которого получили оценку 30% испытуемых.

Интервал

Оценка

Частота ni

Накопленная частота

4,5-5,5

5,5-6,5

6,5-7,5

7,5-8,5

8,5-9,5

9,5-10,5

10,5-11,5

11,5-12,5

5

6

7

8

9

10

11

12

4

7

13

15

7

9

6

3

4

11

24

39

46

55

61

64

Формула для нахождения j-ой процентили:

, ;

d – длина интервала,

xн – левая (нижняя) граница интервала, содержащего накопленную частоту k,

n* - частота этого интервала,

∑ni – накопленная к xн частота.

k=(30*65)/100=19,5

В силу того, что 11 человек имеют оценку 6 или меньше, а 24 – 7 или меньше, то частота k=19,5 лежит в интервале [6,5; 7,5] => xн=6,5; n*=13; ∑ni=11, d=1.

P30=6,5 +1(19,5-11)/13=7,15

Следовательно, 30% всех оценок за тест лежит ниже 7,15. Me=P50=D5=Q2

Показатели вариации.

Абсолютные показатели вариации:

1). Размах (Range)

R=Xmax - Xmin

2). Среднее линейное отклонение

3). Среднее квадратическое отклонение (Standard Deviation)

Дисперсия (Variance):

4). Квартильное отклонение применяется иногда вместо размаха вариации

Относительные показатели:

1). Коэффициент осцилляции

2). Относительное линейное отклонение

3). Коэффициент вариации (наиболее часто применяемый)

4). Коэффициент децильной дифференциации

Правило сложения дисперсий.

Для сгруппированной статистической совокупности возможно вычисление 3-х видов дисперсий: общей, межгрупповой и внутригрупповой.

Общая дисперсия характеризует изменение признака во всей изучаемой совокупности и рассчитывается по формуле:

,

i – индекс суммирования по группам.

j – индекс суммирования по элементам в группе.

Для оценки изменения признака внутри каждой i-ой группы вычисляют внутригрупповые дисперсии:

Обобщенную характеристику внутригруппового изменения для внутригрупповых средних вычисляют так:

Межгрупповая дисперсия показывает вариацию групповых средних вокруг средней величины признака в совокупности:

Общая дисперсия равна сумме межгрупповой дисперсии и средней из внутригрупповых дисперсий.

Шкалы измерения значений признаков.

Выделяют 4-е шкалы, каждая из них связана с определенным свойством чисел. Каждая последующая шкала, кроме свойств чисел, присущих предыдущим шкалам, имеет и свои собственные.

1). Номинальная (шкала наименований, номинативная). Частный случай – дихотомическая.

Свойство чисел: равенство и различие.

2). Порядковая (ранговая или ординальная).

Свойство чисел: упорядоченность.

3). Интервальная шкала.

Позволяет определить, на сколько единиц одно значение признака отличается от другого.

4). Шкала отношений.

Позволяет определить, во сколько раз одно значение отличается от другого. Значение 0 свидетельствует об отсутствии признака у объекта.

Первые два типа шкал называют слабыми или неметрическими. Последние два типа – сильные или метрические.

Значения, полученные по сильной шкале, всегда можно преобразовать в одну из слабых шкал.

Статистический анализ связей.

Статистическая связь – это связь, проявляющаяся не в каждом отдельном случае, а в массе случаев, в средних величинах, в форме тенденции.

Частный случай статистической связи - это корреляционная связь, при которой некоторому изменению одного признака (количеств.) соответствует определенное изменение средней величины другого признака.

Связь двух признаков (y,x) – называют парной корреляцией. x – факторный признак, y – результативный признак или отклик. Влияние нескольких факторов на результативный признак называется множественной корреляцией.

По направлению связи бывают прямые и обратные. Если при увеличении значений X, значения Y в среднем увеличиваются, то связь называется прямой.

Если при увеличении X, значения отклика Y в среднем уменьшаются, то такая связь называется обратной.

Пример: Зависимость качества работы (Y) от скорости ее выполнения (X).

Xi

x1

x2

xn

yi

y1

y2

yn

Регрессионный анализ исследует форму зависимости между X и Y что выражается в подборе соответствующей функции y=f(x).