Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

статистика_лекция_3 (1)

.pdf
Скачиваний:
9
Добавлен:
15.04.2015
Размер:
3.01 Mб
Скачать

Прямолинейная регрессия

Пусть в ходе исследования были получены следующие пары наблюдений:

При нанесении этих результатов на двумерную

плоскость координат,

получаем диаграмму рассеивания (облачко точек)..

Диаграмма рассеяния

Пульс

160

 

 

 

 

 

 

140

 

 

 

 

 

 

120

 

 

 

 

 

 

100

 

 

 

 

 

 

80

 

 

 

 

 

 

60

 

 

 

 

 

 

40

 

 

 

 

 

 

20

 

 

 

 

 

 

0

 

 

 

 

 

 

35

36

37

38

39

40

41

Температура

Диаграмма рассеяния

Пульс

160

140

120

100

80

60

40

20

0

35

36

37

38

39

40

41

 

 

Температура

 

 

Как описать такое рассеивание.

В

данном

примере

более всего подходит

прямая. Как известно, уравнение прямой: Y=b0+b1X.

Таким уравнением можно описать бесконечное число прямых, от чего зависит график прямой? Всего лишь 2 коэффициента b0 и b1 полностью ее описывают. Таким образом, задача подбора оптимальной прямой по полученному "облачку" сводится к подбору правильных коэффициентов b0 b1.

Залача подбора оптимальной прямой по полученному "облачку" сводится к подбору правильных коэффициентов b0 и b1.

yi b0 b1xi i

Уравнение теоретической линии регрессии

b1 коэффициент регрессии или угловой коэффициент b0 свободный член уравнения регрессии

Наилучшие оценки коэффициентов b0 и b1 дает

 

метод наименьших квадратов (МНК).

 

 

 

n

 

 

 

1.

 

 

(xi

x) yi

2.

b0 y b1x

b

 

i 1

 

 

 

 

n

 

 

 

 

1

 

 

 

 

 

 

 

(xi

x)2

3.

i yi Yi

i 1

Точность оценки регрессии

При проведении регрессионного анализа для оценки точности подбора модели пользуются величиной R2 ее называют коэффициентом детерминации.

Фактически, эта величина характеризует соотношение между наблюдаемыми значениями и предсказанными и показывает, насколько точно модель (прямая) описывает эмпирические данные.

Величину R2 часто выражают в процентах, умножая на 100.

Коэффициент может достигать значения 1 (100%), когда все значения Х различны и подобрана оптимальная модель

Проверка гипотезы о значимости коэффициента регрессии b1

Для проверки правильности подобранной линейной модели, необходимо проверить, не равен ли коэффициент b1 нулю. Для этого:

1.Формулируют гипотезы:

H0: b1= 0: "линейная модель подошла чисто случайно" H1: b1 0: "линейная модель подошла не случайно"

2.Задают уровень значимости = 0.05

3.Работают с критерием Фишера. Получают [F]набл или p-level

4.Делают выводы

Если [F]набл > [F]крит или p-level < то H0 Отвергают. Если [F]набл < [F]крит или p-level > то H0 Принимают.

Что необходимо вынести из регрессионного анализа?

1)Регрессионный анализ описывает характер связи между признаками.

2)С помощью РА можно подобрать математическую модель, описывающую эту связь. (уравнение)

3)Следует проверить, насколько подобранная модель адекватна: вычислить коэффициент детерминации (какой процент наблюдений объясняется моделью)

4)Проверить гипотезу о достоверности коэффициента регрессии b1. По критерию Фишера. Основная гипотеза предполагает, что модель прямой «подошла» к имеющимся данным чисто случайно.

Понятие корреляции

Регрессионный анализ отвечал на вопрос: Каков характер связи между признаками (прямолинейный, криволинейный, какой функцией эту связь можно описать).

Корреляционный анализ отвечает на вопрос: Какова сила связи

между признаками.

Понятие корреляции отражает, главным образом, степень выраженности связи между переменными.

Понятие корреляции

Одним из подходов к корреляции является вычисление доли объясняемой дисперсии, т.е. доли вариабельности одного признака, зависящей от вариабельности другого.

Эта мера вычисляется по формуле: r2 100(%) (где r - коэфф. корреляции.)

Например. Известно, что коэффициент корреляции между кол-вом часов, затраченных студентом для подготовку к тесту и кол-вом полученных баллов равен 0,5. Тогда 0,52 100(%) = 25% вариабельности баллов можно объяснить вариабельностью кол-ва часов затраченных на подготовку к нему.

Понятие коэффициента корреляции

Основной носитель информации о корреляции -

коэффициент корреляции (r)

Коэффициент корреляции показывает, в какой степени изменение значения одного признака сопровождается изменением значения другого признака.

Значения коэффициента корреляции изменяются в интервалах от 1 до -1.

Крайние значения ( 1) указывают на наличие линейной функциональной связи между признаками.

Ноль - на отсутствие статистической связи.

Оценка связи по силе и направлению

По направлению, связь может быть прямой и обратной, а по силе – сильной, средней и слабой. Узнать эти свойства связи позволяет коэффициент корреляции:

Знак коэффициента корреляции - направление связи Значение коэффициента корреляции - сила связи