
- •А.А. Кочетыгов
- •Содержание
- •1. Возможности и организация пакета spss
- •1.1.1. Выбор статистической процедуры
- •1.1.2. Настройки редактора данных
- •1.1.3. Панели символов
- •1.1.4. Построение и редактирование графиков
- •1.1.5. Окно просмотра
- •1.1.6. Редактор синтаксиса
- •1.1.7. Информация о файле
- •1.1.8. Справочная система
- •1.1.9. Настройки
- •1.2. Базовый модуль (spss Base)
- •1.3. Дополнительные модули
- •1.4. Ввод данных (Data Entry)
- •1.5. Представление результатов анализа
- •2. Практикум обработки данных на эвм
- •2.1. Описание показателей по выборке
- •2.2. Интервальные оценки параметров
- •2.3. Проверка гипотез по статистическим данным
- •2.4. Корреляционный и регрессионный анализы
- •2.5. Дисперсионный анализ
- •2.6. Ряды динамики
- •2.7. Индексный метод
- •2.8. Кластерный анализ
- •2.9. Двухфакторный дисперсионный анализ
- •2.10. Многомерный анализ
- •2.11. Множественная линейная регрессия
- •Variables Entered/Removedb
- •2.12. Дискриминантный анализ
- •3. Основные методы математической статистики
- •3.1. Корреляционный анализ
- •3.1.1. Исследование взаимосвязей количественных показателей
- •3.1.2. Исследование взаимосвязей качественных показателей
- •3.2. Дисперсионный анализ
- •3.2.1. Однофакторный дисперсионный анализ
- •3.2.2. Двухфакторный дисперсионный анализ
- •3.3. Регрессионный анализ
- •3.3.1. Линейная парная регрессия
- •3.3.2. Нелинейная парная регрессия
- •3.3.3. Множественная регрессия
- •3.4. Структурный подход к обработке многомерных данных
- •3.5. Метод главных компонент
- •3.6. Факторный анализ
- •3.7. Дискриминантный анализ
- •3.8. Кластерный анализ
- •3.9. Распознавание образов
- •4. Индивидуальные задания для исследований
- •Варианты задания
- •Варианты задания
- •Варианты задания
- •Варианты задания
- •Варианты задания
- •Библиографический список
- •Учебное издание
3.3.1. Линейная парная регрессия
Рассмотрим связь
между одной причиной
и следствием
,
то есть парную регрессию (однофакторную
регрессионную модель). В этом случае
исходными данными являются
значений
(
)
фактора
и соответствующие значения
(
)
результативной величины
.
Предположим,
что связь между
и
описывается линейной функцией
.
Для
отдельного наблюдения имеем соотношение:
,
где
и
– коэффициенты регрессии;
–
независимая нормально распределенная
случайная величина
– остаток с нулевым математическим
ожиданием
и постоянной дисперсией.
Если
,
то переменныеХ
и Y
положительно коррелированы, если
,
то – отрицательно коррелированы;
Случайная
величина
отражает тот факт,
что изменение
будет неточно описываться изменением
(присутствуют другие факторы, не учтенные
в данной модели).
Оценка параметров уравнения парной регрессии
Для линейной регрессионной модели критерий метода наименьших квадратов запишется в виде:
Нахождение
параметров
регрессионного уравнения
приводит к следующей системе линейных
алгебраических уравнений:
или
Решая эту систему двух уравнений с двумя неизвестными, получаем
;
.
Можем
записать
Такое решение может существовать только при выполнении условия
.
Это
условие называется условием
идентифицируемости
модели
и означает, что не все значения
совпадают между собой. Принарушении
этого условия все точки (
)
лежат наодной
вертикальной прямой
.
Выражение для b можно записать и в другом виде
В
случае системы двух нормальных случайных
величин
и линейной связи между ними имеем
уравнения регрессии
на
и
на
соответственно (рис.5.3.):
;
где
–
среднее значений величины
при значении
;
–среднее значений
величины
при значении
;
Рис. 3.3.3. Графическое представление уравнений регрессии
Оценка качества линейного уравнения парной регрессии
Для оценки качества парной линейной регрессионной модели целесообразно:
1) вычислить и оценить значимость коэффициента корреляции;
2) проверить адекватность (значимость) всей модели регрессии;
3)
оценить среднее квадратическое отклонение
остатков
;
4) проверить значимость параметров а и b модели регрессии;
5) определить доверительные границы модели регрессии;
6) определить интервальные оценки параметров а и b модели регрессии.
Для проверки значимости модели парной линейной регрессии используется F–критерий Фишера:
.
В качестве меры точности парной линейной регрессии применяют стандартную ошибку
С
помощью величины
можно построить доверительные границы
для уравнения регрессии.
Проведем
анализ
значимости параметров
модели парной
линейной регрессии
.
Наблюдаемые
значения
,
соответствующие данным
,являются
случайными. Случайными являются и
рассчитанные
по ним значения коэффициентов а
и b.
Надежность получаемых оценок а
и b
зависит от дисперсии
случайных отклонений (ошибок).
По
данным выборки эти отклонения
и соответственно их дисперсия не
оцениваются, а используются отклонения
зависимой переменной
от ее
расчетных значений
:
.
Так как предполагается, что ошибки (остатки) i нормально распределены, то среднеквадратическое отклонение ошибок используется для измерения вариации параметров регрессионной модели. Среднеквадратические отклонения коэффициентов определяются по формулам:
где
– оценка математического ожидания
(среднее значение) независимой переменной
Х;
– стандартная ошибка оценки регрессии.
Проверка
значимости отдельных коэффициентов
регрессии связана
с определением наблюдаемых (расчетных)
значений Т–критерия
(Т–статистики)
для соответствующих коэффициентов
регрессии. Нулевая (проверяемая) гипотеза
в данном случае имеет вид:
Наблюдаемые
значения критерия
и
сравниваются с табличными (при
двухсторонней критической области)
Если
расчетное значение критерия
превосходит
его табличное значение
при заданном уровне
значимости
(0.1; 0.05; 0.01),
коэффициент регрессии считается
значимым.
В противном случае фактор, соответствующий этому коэффициенту, следует исключить из модели (при этом ее качество не ухудшится).
Для значимого уравнения регрессии представляет интерес построение интервальных оценок для параметра b и свободного члена а
;
,
где
определяется по таблице распределения
Стьюдента для уровня
значимости
и числа степеней свободы ν
= п –2;
–
стандартные отклонения свободного
члена и коэффициента
регрессии соответственно; n
–
число наблюдений.