- •Ответы на экзамен «Математические методы в психологии».
- •Цель применения математических методов. Измерение в психологии.
- •Шкала измерения
- •Переменные.
- •Мартица.
- •Основные этапы статистического исследования
- •1 0. Описание с помощью квантилей.
- •11. Меры центральной тенденции, мода.
- •12. Интерпретация меры.
- •13. Меры вариации.
- •Асимметрия и эксцесс
- •Нормальное распределение и его роль.
- •Применение нормального распределения:
- •Функция Лапласа
- •Измерительные шкалы.
- •Поняття і суть вибіркового методу, причини і умови його застосування.
- •Сравнение средних spss
- •Переменные, относящиеся к интервальной шкале и подчиняющиеся нормальному распределению
- •Переменные, относящиеся к порядковой шкале или переменные, относящиеся к интервальной шкале, но не подчиняющиеся нормальному распределению
- •Дисперсионный анализ
- •Критерий Фишера
- •20.Коэффициент корреляции
- •Symmetric Measures (Симметричные меры)
- •21.Непараметрические показатели связи. Ранговые коэффициенты связи.
- •В spss: Ранговые коэффициенты корреляции по Спирману и Кендалу
- •Correlations (Корреляции)
- •22.Категориальная переменная
- •23.Статистические критерии для таблиц сопряженности
- •12.2.3 Таблицы сопряженности с категориальными наборами
- •Пол * Психическое состояние Таблица сопряженности
- •Критерий хи-квадрат по Пирсону
- •Критерий хи-квадрат с поправкой на правдоподобие
- •Тест Мантеля-Хэнзеля
- •24. Проверка гипотезы о независимости признаков (таблица сопряженности признаков)
- •25. Коэф-т связи в табл сопряженности: Коэффициенты корреляции
- •Symmetric Measures (Симметричные меры)
- •26.Меры (may) л. Гудмена и е. Краскала (l. Goodman, е. Kruskal)
- •28. Регрессионный анализ
- •31. Линейная регрессия (пропедевтика)
- •Графики гетероскедастичности
- •Определение гетероскедастичности
- •Пр.: Этапы кластерного анализа
- •Выбор переменных-критериев для кластеризации.
- •Формирование кластеров
- •Интерпретация результатов.
31. Линейная регрессия (пропедевтика)
Представим зависимость y от x в виде линейной модели первого порядка:
Будем считать, что значения x определяются без ошибки, β0 и β1 — параметры модели, а ε — ошибка, распределение которой подчиняется нормальному закону с нулевым средним значением и постоянным отклонением σ2. Значения параметров β заранее не известны и их нужно определить из набора экспериментальных значений (xi, yi), i=1, …, n. Таким образом мы можем записать:
где означает предсказанное моделью значение y при данном x, b0 и b1 — выборочные оценки параметров модели, а — значения ошибок аппроксимации.
Для вычисления параметров модели по экспериментальным данным зачастую используют различные программы, предназначенные для статистической обработки данных. Однако для этого простого случая не сложно выписать подробные формулы[3][4].
Метод наименьших квадратов даёт следующие формулы для вычисления параметров данной модели и их отклонений:
здесь средние значения определяются как обычно: , и se2 обозначает остаточное отклонение регрессии, которое является оценкой дисперсии σ2 в том случае, если модель верна.
Стандартные ошибки коэффициентов регрессии используются аналогично стандартной ошибке среднего — для нахождения доверительных интервалов и проверки гипотез. Используем, например, критерий Стьюдента для проверки гипотезы о равенстве коэффициента регрессии нулю, то есть о его незначимости для модели. Статистика Стьюдента: t=b/sb. Если вероятность для полученного значения и n−2 степеней свободы достаточно мала, например, <0,05 — гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем b1 — есть основание задуматься о существовании искомой регрессии, хотя бы в данной форме, или о сборе дополнительных наблюдений. Если же нулю равен свободный член b0, то прямая проходит через начало координат и оценка углового коэффициента равна
,
а её стандартной ошибки
Линия регрессии и 95%-е доверительные области для линии регрессии (пунктиром) и для значений (сплошные границы)
Обычно истинные величины коэффициентов регрессии β0 и β1 не известны. Известны только их оценки b0 и b1. Иначе говоря истинная прямая регрессии может пройти иначе, чем построенная по выборочным данным. Можно вычислить доверительную область для линии регрессии. При любом значении x соответствующие значения y распределены нормально. Средним является значение уравнения регрессии . Неопределённость его оценки характеризуется стандартной ошибкой регрессии:
Теперь можно вычислить 100(1−α/2)-процентный доверительный интервал для значения уравнения регрессии в точке x:
,
где t(1−α/2, n−2) — t-значение распределения Стьюдента. На рисунке показана линия регрессии, построенная по 10 точкам (сплошные точки), а также 95%-я доверительная область линии регрессии, которая ограничена пунктирными линиями. С 95%-й вероятностью можно утверждать, что истинная линия находится где-то внутри этой области. Или иначе, если мы соберём аналогичные наборы данных (обозначены кружками) и построим по ним линии регрессии (обозначены голубым цветом), то в 95 случаях из 100 эти прямые не покинут пределов доверительной области. (Для визуализации кликните по картинке) Обратите внимание, что некоторые точки оказались вне доверительной области. Это совершенно естественно, поскольку речь идёт о доверительной области линии регрессии, а не самих значений. Разброс значений складывается из разброса значений вокруг линии регрессии и неопределённости положения самой этой линии, а именно:
Здесь m — кратность измерения y при данном x. И 100(1−α/2)-процентный доверительный интервал (интервал прогноза) для среднего из m значений y будет:
.
На рисунке эта 95%-я доверительная область при m=1 ограничена сплошными линиями. В эту область попадает 95 % всех возможных значений величины y в исследованном диапазоне значений x.
32.СУЩНОСТЬ АНАЛИЗА ОСТАТКОВ ПРИ НАЛИЧИИ РЕГРЕССИОННОЙ МОДЕЛИ. КАК МОЖНО ПРОВЕРИТЬ НАЛИЧИЕ ГОМО- ИЛИ ГЕТЕРОСКЕДАСТИЧНОСТИ ОСТАТКОВ. ОЦЕНКА ОТСУТСТВИЯ АВТОКОРРЕЛЯЦИИ ОСТАТКОВ ПРИ ПОСТРОЕНИИ СТАТИСТИЧЕСКОЙ РЕГРЕССИОННОЙ МОДЕЛИ.
С этой целью строиться график зависимости остатков ei от теоретических значений результативного признака: Если на графике получена горизонтальная полоса, то остатки ei представляют собой случайные величины и МНК оправдан, теоретические значения ух хорошо аппроксимируют фактические значения у.
Возможны следующие случаи: если ei зависит от уx, то: 1.остатки ei не случайны.2. остатки e
i, не имеют постоянной дисперсии. 3. Остатки ei носят систематический характер в данном случае отрицательные значения ei, соответствуют низким значениям ух, а положительные — высоким значениям. В этих случаях необходимо либо применять другую функцию, либо вводить дополнительную информацию.
Как можно проверить наличие гомо- или гетероскедастичноси остатков?
Гомоскедастичность остатков означает, что дисперсия остатков ei одинакова для каждого значения х. Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность.