- •1 Несколько основных понятий математической статистики
- •2 Гистограмма
- •3 Закон (плотность) распределения случайной величины
- •4 Нормальный закон распределения
- •5 Функция Лапласа
- •6 Основные числовые характеристики выборки
- •7 Расчет необходимого объема выборки для получения достоверных суждений о генеральной совокупности
- •8 Оценка различия двух выборок
- •9 Проверка нормальности закона распределения случайной величины
- •10 Выявление грубых ошибок
- •11 Анализ степени взаимовлияния двух случайных величин
- •12 Простая регрессия
- •13 Множественная регрессия
- •14 Выделение наиболее значимых независимых переменных и их комплексов
- •15 Кластеризация множества объектов
- •Литература
12 Простая регрессия
В простой
линейной регрессии
предполагается, что зависимая переменная
является
линейной функцией
от независимой переменной
.
Требуется найти значения параметров
и
,
при которых прямая
будет наилучшим образом описывать
(аппроксимировать) значения переменных
.
Можно использовать нелинейную, например
полиномиальную, регрессию, в которой
предполагается, что зависимая переменная
является нелинейной функцией заданной
структуры с неопределенными коэффициентами
(например, полиномом некоторой степени
от независимой переменной). Например,
полиномом второй степени будет зависимость
вида
и
задачей регрессии будет нахождение
коэффициентов
.
Критериями качества аппроксимации могут быть
минимум максимальной ошибки (абсолютной или относительной),
минимум средней ошибки (абсолютной или относительной),
минимум среднеквадратичной ошибки (абсолютной или относительной).
Оптимизация по критерию минимума максимальной ошибки.
Для линейной регрессии для
каждого номера
ошибка от представления значения
аппроксимирующей его функцией равна
.
Обозначим максимальную из абсолютных
величин этих ошибок через
.
Тогда
,
или, что то же самое
.
(1)
Условие (1) задает систему
неравенств, которым должны удовлетворять
неопределенные переменные
.
Они должны быть выбраны так, чтобы, при
выполнении условий (1) переменная
принимала минимально возможное значение:
. (2)
Такая задача является математической задачей оптимизации и решается в Excell с помощью надстройки «Поиск решения». Заметим, что она является задачей т.н. линейного программирования, что облегчает решение.
Для линейной регрессии для
каждого номера
относительная ошибка имеет вид
,
соответственно, неравенства (1) переходят
в
,
(3)
где через
обозначена максимальная из относительных
ошибок. Построение регрессии сводится
к отысканию таких значений переменных
,
при которых условия (3) выполняются с
наименьшим возможным значением
:
(4)
Оптимизация по критерию минимума средней ошибки.
В этом случае вместо
максимальной ошибки
или
для
каждого номера
вводится в рассмотрение его ошибка
или
и соотношения (1), (3) заменяются на (1а) и
(2а) соответственно:
,
(1а)
.
(3а)
С помощью надстройки «Поиск решения»
отыскиваются такие значения переменных
или
соответственно, которые, удовлетворяя
(1а) или (3а) обеспечивают минимальное
значение критериев (2а) или (4а):
,
(2а)
.
(4а)
Эти задачи также являются задачами линейного программирования.
Оптимизация по критерию минимума среднеквадратичной ошибки.
В случае абсолютной ошибки среднее
квадратичное отклонение
рассчитанных значений зависимой
переменной от заданных равно
.
Минимизируя его, из условия равенства
нулю частных производных по
и
получены формулы для коэффициентов
линейной регрессии:
,
.
В случае относительной ошибки среднее
квадратичное отклонение
рассчитанных значений зависимой
переменной от заданных равно
.
Аналогично предыдущему, из условия равенства нулю частных производных


