статистика_лекция_3 (1)
.pdfПрямолинейная регрессия
Пусть в ходе исследования были получены следующие пары наблюдений:
При нанесении этих результатов на двумерную
плоскость координат,
получаем диаграмму рассеивания (облачко точек)..
Диаграмма рассеяния
Пульс
160 |
|
|
|
|
|
|
140 |
|
|
|
|
|
|
120 |
|
|
|
|
|
|
100 |
|
|
|
|
|
|
80 |
|
|
|
|
|
|
60 |
|
|
|
|
|
|
40 |
|
|
|
|
|
|
20 |
|
|
|
|
|
|
0 |
|
|
|
|
|
|
35 |
36 |
37 |
38 |
39 |
40 |
41 |
Температура
Диаграмма рассеяния
Пульс
160
140
120
100
80
60
40
20
0
35 |
36 |
37 |
38 |
39 |
40 |
41 |
|
|
Температура |
|
|
||
Как описать такое рассеивание. |
В |
данном |
примере |
более всего подходит |
прямая. Как известно, уравнение прямой: Y=b0+b1X.
Таким уравнением можно описать бесконечное число прямых, от чего зависит график прямой? Всего лишь 2 коэффициента b0 и b1 полностью ее описывают. Таким образом, задача подбора оптимальной прямой по полученному "облачку" сводится к подбору правильных коэффициентов b0 b1.
Залача подбора оптимальной прямой по полученному "облачку" сводится к подбору правильных коэффициентов b0 и b1.
yi b0 b1xi i
Уравнение теоретической линии регрессии
b1 – коэффициент регрессии или угловой коэффициент b0 – свободный член уравнения регрессии
Наилучшие оценки коэффициентов b0 и b1 дает
|
метод наименьших квадратов (МНК). |
|||||
|
|
|
n |
|
|
|
1. |
|
|
(xi |
x) yi |
2. |
b0 y b1x |
b |
|
i 1 |
|
|
|
|
|
n |
|
|
|
||
|
1 |
|
|
|
|
|
|
|
|
(xi |
x)2 |
3. |
i yi Yi |
i 1
Точность оценки регрессии
При проведении регрессионного анализа для оценки точности подбора модели пользуются величиной R2 ее называют коэффициентом детерминации.
Фактически, эта величина характеризует соотношение между наблюдаемыми значениями и предсказанными и показывает, насколько точно модель (прямая) описывает эмпирические данные.
Величину R2 часто выражают в процентах, умножая на 100.
Коэффициент может достигать значения 1 (100%), когда все значения Х различны и подобрана оптимальная модель
Проверка гипотезы о значимости коэффициента регрессии b1
Для проверки правильности подобранной линейной модели, необходимо проверить, не равен ли коэффициент b1 нулю. Для этого:
1.Формулируют гипотезы:
H0: b1= 0: "линейная модель подошла чисто случайно" H1: b1 0: "линейная модель подошла не случайно"
2.Задают уровень значимости = 0.05
3.Работают с критерием Фишера. Получают [F]набл или p-level
4.Делают выводы
Если [F]набл > [F]крит или p-level < то H0 Отвергают. Если [F]набл < [F]крит или p-level > то H0 Принимают.
Что необходимо вынести из регрессионного анализа?
1)Регрессионный анализ описывает характер связи между признаками.
2)С помощью РА можно подобрать математическую модель, описывающую эту связь. (уравнение)
3)Следует проверить, насколько подобранная модель адекватна: вычислить коэффициент детерминации (какой процент наблюдений объясняется моделью)
4)Проверить гипотезу о достоверности коэффициента регрессии b1. По критерию Фишера. Основная гипотеза предполагает, что модель прямой «подошла» к имеющимся данным чисто случайно.
Понятие корреляции
Регрессионный анализ отвечал на вопрос: Каков характер связи между признаками (прямолинейный, криволинейный, какой функцией эту связь можно описать).
Корреляционный анализ отвечает на вопрос: Какова сила связи
между признаками.
Понятие корреляции отражает, главным образом, степень выраженности связи между переменными.
Понятие корреляции
Одним из подходов к корреляции является вычисление доли объясняемой дисперсии, т.е. доли вариабельности одного признака, зависящей от вариабельности другого.
Эта мера вычисляется по формуле: r2 100(%) (где r - коэфф. корреляции.)
Например. Известно, что коэффициент корреляции между кол-вом часов, затраченных студентом для подготовку к тесту и кол-вом полученных баллов равен 0,5. Тогда 0,52 100(%) = 25% вариабельности баллов можно объяснить вариабельностью кол-ва часов затраченных на подготовку к нему.
Понятие коэффициента корреляции
Основной носитель информации о корреляции -
коэффициент корреляции (r)
Коэффициент корреляции показывает, в какой степени изменение значения одного признака сопровождается изменением значения другого признака.
Значения коэффициента корреляции изменяются в интервалах от 1 до -1.
Крайние значения ( 1) указывают на наличие линейной функциональной связи между признаками.
Ноль - на отсутствие статистической связи.
Оценка связи по силе и направлению
По направлению, связь может быть прямой и обратной, а по силе – сильной, средней и слабой. Узнать эти свойства связи позволяет коэффициент корреляции:
Знак коэффициента корреляции - направление связи Значение коэффициента корреляции - сила связи