Добавил:
СПбГУТ * ИКСС * Программная инженерия Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Камартина Н. М. Теория вероятностей и математическая статистика. Часть 2. Статистика.pdf
Скачиваний:
16
Добавлен:
17.06.2020
Размер:
1.15 Mб
Скачать

Статистика критерия Фишера рассчитывается по формуле

 

n

 

 

 

 

n k yx y

 

 

 

ˆ

2

 

 

 

 

 

Fp

i 1

 

 

.

n

 

 

 

k 1 yx yi

 

 

 

ˆ

2

 

 

 

 

 

i 1

Здесь k – число параметров, оцениваемых по выборке. В нашем случае k = 2, потому что в уравнении линейной регрессии было два неизвестных коэффициента.

Теоретическое значение критерия выбирается из табл. П5 приложения:

1 k 1; 2 n k . Модель считается адекватной при уровне значимости α = 0,05, если Fp Fт .

Для нашего примера Fp = 269,76; v1 = 1; v2 = 8, соответствующее значение Fm = 5,32. Очевидно, модель линейной регрессии можно считать адекватной.

РЕКОМЕНДАЦИИ ПО ВЫПОЛНЕНИЮ КОНТРОЛЬНОЙ РАБОТЫ

Дана выборка объемом 150. Сгруппируем выборку и запишем ряды абсолютных и относительных частот. Для этого вычислим размах выборки: R = xmax xmin = 53,62 – 25,52 = 28,1. Выберем число интервалов по формуле Стэрджесса: k 1 3,32lg150 8 , тогда длина одного интервала:

h Rk 3,5125 .

Группируем полученные данные и подсчитываем число элементов выборки, попавших в каждый интервал, при этом элемент, совпавший с верхней границей интервала группировки, относим к последующему интервалу. Результаты запишем в табл. 2.

 

 

 

Таблица 2

 

 

 

 

Номер

Интервалы

Частоты

Середины

интервала

интервалов

 

 

1

25,52–29,03

2

27,28

2

29,03–32,55

10

30,79

3

32,55–36,06

23

34,31

4

36,06–39,57

21

37,82

5

39,57–43,08

33

41,33

6

43,08–46,60

32

44,82

7

46,60–50,11

19

48,36

8

50,11–53,62

10

51,87

 

150

 

19

Контроль: сумма абсолютных частот по всем интервалам группировки равна объему выборки 150.

Представим выборку графически. Для это нужно построить два графика:

1)полигон абсолютных частот – ломаную линию с вершинами в точках с координатами xi ,mi . За xi примем середины интервалов;

2)ненормированную гистограмму. Для этого на оси абсцисс отложим промежутки, а на оси ординат – частоты.

Оформление произвольное. Графики приведены во второй части примера, для их построения использован Excel.

Найдем характеристики вариации. Для этого таблицу можно расширить или сделать новую (табл. 3).

 

 

 

 

 

 

Таблица 3

 

 

 

 

 

 

 

i

Середина

Частота

mi x i

mi xi x 2

mi xi x 3

mi xi x 4

 

интервала x i

mi

 

 

 

 

1

27,28

2

54,56

389,21

–5429,41

75740,27

 

 

 

 

 

 

 

2

30,79

10

307,93

1089,41

–11370,8

118682,3

 

 

 

 

 

 

 

3

34,31

23

789,15

1102,98

–7638,13

52894,07

 

 

 

 

 

 

 

4

37,82

21

794,17

244,55

–834,521

2847,803

 

 

 

 

 

 

 

5

41,33

33

1363,89

0,33

0,033

0,0033

 

 

 

 

 

 

 

6

44,82

32

1434,96

417,61

1508,598

5449,811

 

 

 

 

 

 

 

7

48,36

19

918,75

964,55

6872,396

48965,82

 

 

 

 

 

 

 

8

51,87

10

518,68

1131,56

12037,01

128043,7

 

 

 

 

 

 

 

 

150

6181,94

5340,193

–4854,78

432623,8

 

 

 

 

 

 

 

Найдем выборочное среднее по формуле (2): xв 6181,94 41,23 и 150

5340,19

дисперсию по формуле (4): Dв 35,60. Исправленная выбороч-

150

ная дисперсия по формуле (5) равна 35,84. Соответственно исправленное среднее квадратическое отклонение s = 5,99.

Медианный интервал у нашей выборки имеет номер 5. Тогда

по формуле (6) вычислим: Me 39,57 3,510,5 150 56 41,59 . Модаль-

33

ный интервал тоже пятый. Распределение унимодальное, значение моды по формуле (7):

Mo 39,57 3,51

33 21

42,80 .

 

 

 

33 21 33 32

 

Коэффициент асимметрии по формуле (8): As

4854,78

 

0,15.

5,99 3 150

 

 

 

 

20

Коэффициент асимметрии Пирсона по формуле (9) – 0,26. В нашей выборке присутствует левосторонняя асимметрия, в средней части несколько большая, чем по краям. Оценка близости распределения к нормальному выполняется так: As 0,4.

Найдем эксцесс по формуле (10):

Ex 432623,8 3 2,24 3 0,76, 150 5,9 4

Ex 0,06 .

Есть основания для предположения о том, что вид распределения будет близок к нормальному. Но будет ли расхождение частот значимым, покажет проверка по критерию Пирсона. По знаку полученного эксцесса можно сделать вывод о том, что если гипотеза будет принята, то форма эмпирической кривой будет более плосковершинной, чем форма стандартной кривой нормального распределения.

Выдвинем гипотезу о том, что распределение генеральной совокупности подчиняется нормальному закону. Для расчета наблюдаемого значения критерия Пирсона заполняем табл. 4 в соответствии с формулой (13). Первый интервал содержит всего 2 индивидуальных значения нашего признака, поэтому объединим его со вторым. Расчет Ф0(bi) производится с помощью табл. П1 приложения. При этом используются свойства данной функции [1].

 

 

 

 

 

 

 

 

 

 

 

Таблица 4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Границы

 

 

 

 

 

 

 

 

 

 

 

I

 

i

ni

bi ai x

 

0 bi

pˆi 0 bi o bi 1

n pˆi

 

ni npi

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

 

 

a

 

 

 

s

 

 

 

 

 

ˆ

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

npi

 

 

 

ai

 

 

 

 

 

 

 

 

 

 

 

1

 

12

 

 

–0,5

0,07

10,5

 

0,21

 

 

32,55

–1,45

 

–0,43

 

 

 

 

 

 

 

 

 

 

 

 

2

32,55

23

–1,45

 

–0,43

0,12

18

 

1,39

 

 

36,06

–0,86

 

–0,31

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

36,06

21

–0,86

 

–0,31

0,20

30

 

2,7

 

 

39,57

–0,28

 

–0,11

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

39,57

33

–0,28

 

–0,11

0,23

34,5

 

0,07

 

 

43,08

0,31

 

0,12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5

43,08

32

0,31

 

0,12

0,19

28,5

 

0,43

 

 

46,60

0,9

 

0,31

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6

46,60

19

0,9

 

0,31

0,12

18

 

0,06

 

 

50,11

1,48

 

0,43

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7

50,11

10

1,48

 

0,43

0,07

10,5

 

0,02

 

 

 

 

0,5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

150

 

 

 

 

1

150

 

4,88

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

21

По данной выборке получили набл2 4,88 . Обратимся к табл. П4 приложения. В наших условиях число степеней свободы r = 7 – 2 – 1 = 4. Для

заданного уровня значимости α = 0,05 2

r 2

4 9,49.

1

0,95

 

Вывод. Гипотеза H0 о нормальном распределении признака на уровне

значимости α = 0,05 с данными измерений согласуется.

Поскольку есть основания считать распределение приближенно нормальным, для получения оценки математического ожидания генерального распределения используется формула (11). Для нашего примера

 

1,96

5,99

 

m 41,23 1,96

5,99

 

 

0,95 ,

P 41,23

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

149

 

 

149

 

 

 

где γ = 0,95 – доверительная вероятность оценивания;

s = 5,99 – исправленное среднее квадратическое отклонение;

t1 n 1 t0,975 149 1,96 – квантиль распределения Стьюдента.

2

Таблица квантилей распределения Стьюдента приведена в приложении (табл. П3). Окончательный вывод: оценка математического ожида-

ния генерального распределения имеет вид 40,26 m 42,19. Данный

интервал «накрывает» неизвестное математическое ожидание в 95 % случаев.

ИСПОЛЬЗОВАНИЕ ПРОГРАММЫ EXCEL В СТАТИСТИЧЕСКИХ РАСЧЕТАХ

Можно выполнять статистические расчеты в Microsoft Excel. Делается это с помощью формул и функций. Формулы вводятся в ячейку путем набора с клавиатуры, он начинается со знака равенства. Статистические функции вставляют в формулы, выбранные в верхнем меню: Вставка → Функция → Статистические. Сначала в новую Книгу Excel вводится массив данных своего варианта. Затем с помощью формул можно найти необходимые величины для последующей группировки. Лучше разместить их в таблице, необходимые формулы для определения размаха вариации, числа интервалов и длины интервала приведены выше. Группировку можно выполнять с помощью функции.

Для вычисления размаха варьирования можно использовать функцию МАКС (рис. 2) и МИН, которая работает аналогично.

Функция МАКС возвращает наибольшее значение из набора значений. МАКС(число1;число2;...). Число1, число2,… – от 1 до 30 чисел, среди которых требуется найти наибольшее.

22

Рис. 2. Функция МАКС

Расчет размаха варьирования осуществляется путем ввода формулы

встроку формул, а минимальное и максимальное значения указываются

ввиде ссылки на ячейки.

Впрограмме Excel среднее значение определяется функцией СРЗНАЧ (рис. 3). Она позволяет находить среднее арифметическое (простое), результат будет несколько отличаться от приведенного выше значения выборочного среднего.

Для проведения расчетов выделяем курсором ячейку, в которой хотим отобразить среднее значение, и нажимаем на клавиатуре клавишу =. Далее

вполе Имя указываем функцию СРЗНАЧ.

Если в поле ИМЯ название функции не появилось, то левой кнопкой мыши щелкаем по треугольнику рядом с полем, после этого появится окно со списком функций. Если данной функции в списке нет, то левой кнопкой мыши нажимаем на пункт списка ДРУГИЕ ФУНКЦИИ, появится диалоговое окно МАСТЕР ФУНКЦИЙ, в котором с помощью вертикальной прокрутки выбираем нужную функцию, выделяем ее курсором и нажимаем на ОК.

Рис. 3. Функция СРЗНАЧ

23

Для поиска функции в программе Excel 2007 в меню может быть открыта любая вкладка, тогда для проведения расчетов выделяем курсором ячейку, в которой хотим отобразить среднее значение, и нажимаем на клавиатуре клавишу =. Далее в поле Имя указываем функцию СРЗНАЧ. Также в меню можно сразу выбрать категорию Статистические функции.

СРЗНАЧ(число1;число2;...). Число1, число2,... – это от 1 до 30 аргументов, для которых вычисляется среднее. Аргументы должны быть либо числами, либо именами, массивами или ссылками, содержащими числа.

В результате диалоговое окно примет вид, приведенный на рис. 4.

Рис. 4. Диалоговое окно функции СРЗНАЧ

Далее курсор перемещается на рабочий лист и устанавливается в первую ячейку диапазона, для которого вычисляется среднее значение. Передвигая курсор вниз при нажатой левой кнопке мыши, выделяем диапазон для расчета. В строке отобразятся номера ячеек. После ввода номеров ячеек левой кнопкой мыши нажимаем на квадрат в конце строки. На экране появится изображение диалогового окна для расчета среднего значения. Далее нажимаем на ОК.

Функция ЧАСТОТА (рис. 5) вычисляет частоту появления значений в интервале значений и возвращает массив цифр. Поскольку данная функция возвращает массив, она должна задаваться в качестве формулы массива. ЧАСТОТА(массив данных;массив интервалов). Массив дан-

ных – массив или ссылка на множество данных, для которых вычисляются частоты. Количество элементов в возвращаемом массиве на единицу больше числа элементов в массиве интервалов. Дополнительный элемент в возвращаемом массиве содержит количество значений, больших, чем максимальное значение в интервалах.

Рис. 5. Функция ЧАСТОТА

24

Для ввода данных как массива нужно нажать на клавишу F2, а затем на клавиши CTRL + SHIFT + ENTER. Если формула не будет введена как формула массива, единственное значение будет равно 1.

Для удобства дальнейших действий имеет смысл сформировать таблицу, подобную табл. 2.

Следующий шаг – построение гистограммы. Режим Вставка → Гис-

тограмма → иконка типа гистограммы. Далее правой кнопкой мыши нажимаем на область гистограммы и выбираем Выбрать данные.

В появившемся меню в строке Диапазон данных для диаграммы

вставляем предварительно выделенный столбец частот. Далее в режиме Работа с диаграммами → Макет можно сделать гистограмму желаемого вида. Оформление произвольное. Обязательным является изменение подписей горизонтальной оси. Для этого в правом поле (рис. 6) нажимаем на кнопку Изменить и в появившемся меню (рис. 7) в строку Диапазон подписей оси вставляем выделенный столбец, в котором находятся середины интервалов группировки.

Рис. 6. Выбор источника данных

Рис. 7. Подписи оси

Получилась гистограмма частот (рис. 8).

25

Рис. 8. Гистограмма частот

Функция СТАНДОТКЛОН оценивает среднее квадратическое отклонение (стандартное отклонение) по выборке. СТАНДОТКЛОН(число1; число2;...). Число1, число2,... – от 1 до 30 числовых аргументов, соответствующих выборке из генеральной совокупности. СТАНДОТКЛОН предполагает, что аргументы являются только выборкой из генеральной совокупности и использует формулу для нахождения несмещенной оценки s.

Моду и медиану интервального распределения одной функцией рассчитать нельзя. В программе Excel есть статистические функции с такими названиями, но они работают для дискретных распределений. Придется прописывать формулы вручную. Определять модальный интервал удобно по гистограмме, он там хорошо виден. А для нахождения медианного интервала можно заполнить столбец накопленных частот. Медиана находится

винтервале, в котором накопленная частота достигает 50 %.

Впрограмме Excel асимметрия вычисляется с помощью функции СКОС (рис. 9). СКОС(число1;число2;...). Массив данных вводится в стро-

ку Число1.

Рис. 9. Функция СКОС

26

Коэффициент асимметрии Пирсона прописывается вручную по формуле (9).

В программе Excel доверительные интервалы рассчитываются с помощью функции ДОВЕРИТ (рис. 10). Она возвращает значение, с помощью которого можно определить доверительный интервал для математического ожидания генеральной совокупности. Доверительный интервал представ-

ляет собой диапазон значений. Выборочное среднее x является серединой этого диапазона, следовательно, доверительный интервал определяется как

( x ± ДОВЕРИТ).

Рис. 10. Функция ДОВЕРИТ

ДОВЕРИТ(альфа; станд_откл; размер). Здесь Альфа (α) – это уро-

вень значимости, используемый для вычисления уровня надежности. Уровень надежности равняется (1 – α) · 100 %, или, другими словами, α = 0,05 означает 95-процентный уровень надежности. Станд_откл – это стандартное отклонение генеральной совокупности для интервала данных. У нас это оценка s. Размер – это объем выборки.

С помощью функции ЭКСЦЕСС(число1;число2;...), рис. 11, вычисляем эксцесс.

Рис. 11. Функция ЭКСЦЕСС

27

При решении задачи корреляционного анализа нужно построить диаграмму рассеивания.

В Excel имеется специальное средство – Мастер диаграмм, под руководством которого пользователь проходит все четыре этапа процесса построения диаграммы или графика.

Построение графика начинают с выделения диапазона, содержащего данные, по которым он должен быть построен. Данные нужно сформировать в виде двух смежных столбцов.

Для проведения регрессионного анализа лучше всего использовать диаграмму типа Точечная. При ее построении Excel воспринимает первый ряд выделенного диапазона исходных данных как набор значений аргумента функций, графики которых нужно построить (один и тот же набор для всех функций). Следующие ряды воспринимаются как наборы значений самих функций (каждый ряд содержит значения одной из функций, соответствующие заданным значениям аргумента, находящимся в первом ряду выделенного диапазона). Названия осей ставятся во вкладке меню МАКЕТ.

Для получения модели линейной регрессии нужно построить на графике линию тренда. Для этого щелкнуть правой кнопкой мыши по точкам графика. Тогда в Excel 2003 появится вкладка с перечнем пунктов, из которых выбираем ДОБАВИТЬ ЛИНИЮ ТРЕНДА (рис. 12).

Рис. 12. ДОБАВИТЬ

После нажатия на пункт ДОБАВИТЬ ЛИ-

ЛИНИЮ ТРЕНДА

НИЮ ТРЕНДА появится окно ЛИНИЯ ТРЕН-

 

ДА. Во вкладке ТИП можно выбрать следующие типы линий: линейная, логарифмическая, экспоненциальная, степенная, полиномиальная, линейная фильтрация.

Во вкладке ПАРАМЕТРЫ (рис. 13) устанавливаем флажок напротив пунктов ПОКАЗЫВАТЬ УРАВНЕНИЕ НА ДИАГРАММЕ, тогда на графике появится математическая модель данной зависимости. Также флажок ставим напротив пункта ПОКАЗЫВАТЬ НА ДИАГРАММЕ ВЕЛИЧИНУ ДОСТОВЕРНОСТИ АППРОКСИМАЦИИ (R ^ 2). Чем ближе величина достоверности аппроксимации к 1, тем ближе подходит выбранная кривая к точкам на графике. Далее нажимаем на кнопку ОК. На графике появятся линия тренда, соответствующие ей уравнение и величина достоверности аппроксимации.

В Excel 2007, после того как щелкнем правой кнопкой мыши по точкам графика, появится список пунктов меню, из которого выбираем ДОБАВИТЬ ЛИНИЮ ТРЕНДА (рис. 14).

Далее откроется окно ФОРМАТ ЛИНИИ ТРЕНДА с вкладкой ПАРАМЕТРЫ ЛИНИИ ТРЕНДА (рис. 15). Устанавливаем необходимые флажки и нажимаем кнопку ЗАКРЫТЬ.

28

Рис. 13. Вкладка ПАРАМЕТРЫ

Рис. 14. ДОБАВИТЬ ЛИНИЮ ТРЕНДА

Рис. 15. Вкладка ПАРАМЕТРЫ ЛИНИИ ТРЕНДА

Тесноту связи определяем по величине коэффициента линейной корреляции, формула (15). В Excel эта операция выполняется с помощью стандартной функции КОРРЕЛ (рис. 16).

Рис. 16. Функция КОРРЕЛ

29