Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Методическое пособие 639

.pdf
Скачиваний:
5
Добавлен:
30.04.2022
Размер:
3.05 Mб
Скачать

Рис. 15. Диалоговое окно процедуры парного t-теста

Рис. 16. Результаты парного t-теста

3. ЛАБОРАТОРНОЕ ЗАДАНИЕ

Задание 1. Сравнить непрерывный статистический ряд из лабораторной работы №1 с нормальным распределением графическим методом.

Задание 2. Проверить гипотезу о соответствии выборки нормальному распределению с помощью критерия Пирсона.

31

Задание 3. Если гипотеза не верна, то скорректировать исходную выборку таким образом, чтобы она подчинялась

нормальному распределению.

 

 

Задание 4. Сформулировать

задачу,

требующую

проверки гипотезы равенства средних двух зависимых выборок и проверить ее с помощью парного t-теста.

Задание 5. Сформулировать задачу, требующую проверки гипотезы равенства средних двух независимых выборок и проверить ее с помощью t-теста, обосновать выбор варианта t-теста.

4.УКАЗАНИЯ ПО ОФОРМЛЕНИЮ ОТЧЕТА

Отчет должен содержать:

- наименование и цель работы; - краткие теоретические сведения;

- задание на лабораторную работу; - результаты выполнения лабораторной работы.

5.КОНТРОЛЬНЫЕ ВОПРОСЫ

1.Что такое статистическая гипотеза? На какие группы можно разделить гипотезы?

2.Перечислите этапы проверки гипотез.

3.Какие типы задач решаются с помощью проверки гипотез? Какие критерии используются для их решения?

4.Какие встроенные функции и процедуры надстройки Анализ данных используются для проверки гипотез?

32

Лабораторная работа №3 КОРРЕЛЯЦИОННЫЙ И РЕГРЕССИОННЫЙ АНАЛИЗ

ВEXCEL

1.ОБЩИЕ УКАЗАНИЯ ПО ВЫПОЛНЕНИЮ ЛАБОРАТОРНОЙ РАБОТЫ

1.1.Цель работы

Изучение основных методов проверки статистических гипотез о нормальном распределении; получение практических навыков применения функций Excel для проверки гипотез.

1.2. Используемое оборудование и программное обеспечение

Для выполнения лабораторной работы требуется ПЭВМ типа IBM PC с установленной ОС Windows XP и выше, математический пакет Microsoft Excel 2007 и выше.

2. МЕТОДИЧЕСКИЕ УКАЗАНИЯ ПО ВЫПОЛНЕНИЮ ЛАБОРАТОРНОЙ РАБОТЫ

2.1. Основные понятия корреляционного анализа

Корреляционный анализ – это метод анализа,

позволяющий сделать вывод о степени статистической зависимости между признаками исследуемого объекта или явления.

Для измерения степени связи между выборками используется коэффициент корреляции. В общем случае коэффициент корреляции принимает значения в интервале [ 1,1]. Степень взаимосвязи между признаками может быть оценена качественно по табл. 2.

33

Таблица 2

Значения модуля

Качественная оценка

коэффициента корреляции

линейной связи

[0, 0.3)

практически

отсутствует

 

[0.3, 0.5)

слабая

[0.5, 0.8)

умеренная

[0.8,1]

сильная

Если коэффициент корреляции больше нуля, то связь между признаками прямая (положительная), если же значение коэффициента меньше нуля, то связь обратная

(отрицательная).

Коэффициент корреляции используется для оценки степени связи признаков, имеющих нормальное распределение, и если зависимость между ними близка к линейной. Если данные условия не выполняются, то малые значения коэффициента корреляции означают, что рассматриваемые признаки являются некоррелированными, но при этом допускается наличие между ними нелинейной зависимости.

В математической статистике используется несколько различных коэффициентов корреляции, выбор конкретного вида зависит от шкалы измерения исследуемых переменных. Согласно этому признаку выделяют следующие виды переменных:

-количественные – позволяют определить степень проявления изучаемого свойства в принятых единицах измерения (денежный доход, возраст, количество единиц, время выполнения и др.);

-порядковые (ординальные) – позволяют отнести анализируемые объекты к одному из классов в зависимости от степени проявления в объектах изучаемого свойства, при этом классы образуют упорядоченную последовательность (уровень

34

образования – среднее, среднее специальное, высшее, квалификационный разряд работника – 1, 2, 3 и т.д.);

- классификационные (номинальные) – разделяют объекты на неподдающиеся упорядочению классы (профессия работника, отрасль промышленности, вероисповедание и др.).

Для измерения степени связи количественных переменных чаще всего используется выборочный парный коэффициент корреляции Пирсона (коэффициент корреляции), вычисляемый по формуле

n

xi x yi y

r

 

i 1

 

 

.

 

 

 

 

 

 

 

 

 

n

n

 

 

xi

x

2

yi

y

2

 

 

i 1

i 1

Недостатком коэффициента Пирсона является то, что он может применяться только для оценки степени связи между двумя количественными переменными, имеющими нормальное распределение.

Рассмотрим случай, когда исследуемые объекты характеризуется тремя признаками, т.е. выборка с наблюдениями имеет вид

x

1

y

z

 

 

1

1

 

x2

y2

z2

 

 

 

...

...

.

...

 

 

 

yn

 

 

xn

zn

Для оценки связи между признаками x и y без учета влияния параметра z, т.е. при z const , используется частный коэффициент корреляции, определяемый по формуле

r

 

 

r12 r13r23

 

 

 

,

 

 

 

 

 

12.3

 

 

1 r132 1 r232

 

 

где r12, r13, r23 - частные парные коэффициенты корреляции между признаками x и y, x и z, y и z, соответственно,

35

r1.23

обозначение r12.3 показывает, что коэффициент вычисляется в

предположении, что 3-я выборка постоянна.

В трехмерной модели могут быть вычислены частные коэффициенты r12.3 , r13.2 и r23.1.

Если необходимо определить степень связи между признаком x и остальными признаками y и z, то используется

множественный коэффициент корреляции, который для случая трех выборок определяется следующим образом:

r122 r132 2r12r13r23 ,

(1 r23)

где запись r1.23 означает, что вычисляется степень

зависимости первого признака от остальных (второго и третьего).

Для трехмерной модели вычисляются множественные коэффициенты корреляции r1.23, r2.13 и r3.12 .

В случае если распределение хотя бы одного из рассматриваемых количественных признаков отличается от нормального или если хотя бы один из изучаемых признаков порядковый, то для анализа связи между признаками применяется коэффициент ранговой корреляции Спирмена,

вычисляемый по формуле:

n

s 1 n36 n xi yi 2 .

i 1

Для порядковых переменных в качестве массивов x и y могут выступать ранги, присваиваемые некоторому набору объектов разными экспертами в зависимости от степени проявления изучаемого свойства. Но приведенная формула справедлива только для случая, когда в массивах x и y все ранги различны. В противном случае элементам ряда присваиваются порядковые номера в соответствии с их рангами и для значений с одинаковыми рангами номер заменяется на среднее арифметическое порядковых номеров. Вычисленные таким образом ранги называются связанными.

36

Коэффициент Спирмена для случая связанных рангов определяется следующим образом:

 

 

1

 

 

n

 

 

 

 

 

 

n3

n xi yi 2 Tx Ty

 

 

 

 

s

6

i 1

 

 

,

 

 

 

 

 

 

 

 

 

 

 

1

n3 n 2Tx

1

n3 n 2Ty

6

6

 

 

 

 

 

 

 

где Tx , Ty - величины, рассчитываемые для выборок x и y,

соответственно, по формуле

K

T 121 t3k tk ,

k 1

где K - число групп с одинаковыми рангами в выборке, tk - число элементов, входящих в k-ю группу с одинаковыми рангами.

2.2. Основные понятия регрессионного анализа

Регрессионный анализ – это метод статистического анализа данных, позволяющий выразить в аналитической форме зависимость среднего значения результативного признака от значений одной или нескольких факторных переменных.

В общем случае уравнение регрессии, выражающее зависимость среднего значения результативной переменной y от влияющих на нее переменных x1,x2,...,xn , записывается следующим образом:

y f(x).

По количеству факторных переменных регрессия может быть парной (однофакторной) и множественной (многофакторной).

Парная регрессия характеризует связь между двумя признаками – факторным и результативным. Аналитическая зависимость между данными признаками может быть:

37

- линейная – выражается линейной функцией (уравнением прямой):

ya0 a1x;

-нелинейная – выражается уравнениями вида:

y a0 a1x a2x2 - парабола;

y a0 a1 - гипербола и т.д. x

Для определения неизвестных коэффициентов aj могут

использоваться несколько методов, наиболее распространенным из которых является метод наименьших квадратов.

Суть метода заключается в нахождении таких параметров aj , при которых сумма квадратов отклонений

фактических значений результативного признака от теоретических, полученных по уравнению регрессии, стремится к минимуму:

n

~ 2

min ,

S yi yi

i 1

где ~ - значения результативного признака, полученные по yi

уравнению регрессии.

Множественная регрессия изучает связь между тремя и более признаками.

Задачей множественной регрессии является построение уравнения регрессии, связывающего среднее значение результативного признака y и факторные признаки x1,x2,...,xn :

y1,2,...,k f(x1,x2,...,xk).

38

2.3.Методы вычисления коэффициента корреляции

вExcel

Коэффициенты корреляции в Excel могут быть вычислены с помощью одного из следующих способов:

1.Функция КОРРЕЛ(x, y), где x, y – диапазоны ячеек, для которых необходимо определить коэффициент корреляции.

2.Процедура Корреляции пакета Анализ данных, возвращающая корреляционную матрицу для заданного набора данных.

При вычислении корреляции порядковых переменных для определения связанных рангов может использоваться функция РАНГ.СР(x; y; [n]), где x – число, для которого определяется ранг, y – диапазон ячеек, содержащих все числа массива, n – необязательный параметр, определяющий порядок сортировки: 0 (по умолчанию) – ранг определяется для массива, отсортированного в порядке убывания, любое другое число, кроме 0 – ранг определяется для массива, отсортированного в порядке возрастания.

2.4. Методы выполнения регрессионного анализа в Excel

Microsoft Excel предоставляет несколько способов для проведения регрессионного анализа:

-графический метод – построение линии тренда на корреляционном поле с выводом уравнения регрессии;

-процедура Регрессия из пакета анализа данных;

-встроенная функция ЛИНЕЙН(y, [x], [n], [s]) – находит значения коэффициентов линейного уравнения регрессии с помощью метода наименьших квадратов: y –

массив значений, подставляемых в уравнение y a0 a1x, x –

необязательный аргумент – массив значений, подставляемых в уравнение регрессии, n – необязательный аргумент, по умолчанию n 1 (истина) подбираются коэффициенты

39

уравнения y a0 a1x, при n 0 (ложь) решается уравнение y a1x; s – необязательный аргумент, при s 0 (ложь) возвращаются только коэффициенты уравнения, при n 1 (истина) возвращаются дополнительные статистические параметры; данная функция является формулой массива, следовательно, для ее ввода необходимо выделить две ячейки (по числу возвращаемых коэффициентов) и после задания формулы надо нажать сочетание клавиш Ctrl+Shift+Enter.

2.5.Пример выполнения корреляционного анализа

вExcel

Пусть необходимо проверить наличие статистической связи между результатами тестирования студентов и такими параметрами, как средний балл студента до тестирования и посещаемость занятий. Для этого добавим соответствующие столбцы в таблицу Excel (рис. 17).

Рис. 17. Фрагмент таблицы Excel с исходными данными

Проведем предварительный анализ наличия зависимостей между исследуемыми факторами графическим методом. Для этого на основе точечного графика построим корреляционное поле, отражающее зависимость результативного признака от факторных (рис. 18-19).

40