- •2 Функция распределения
- •3 Плотность распределения
- •4 Числовые характеристики случайной величины
- •5 Законы распределения дискретной случайной величины
- •6 Законы распределения непрерывной случайной величины
- •7 Обработка результатов измерений, доверительный интервал
- •8 Корреляционный анализ
- •9 Регрессионный анализ
9 Регрессионный анализ
Регрессионный анализ используется для решения задачи статистического исследования зависимости между зависимой переменной и независимой переменной. Полезно использование регрессионного анализа при обработке эмпирических данных.
При обработке экспериментальных или иных статистических данных часто требуется представлять их в виде некоторой приближенной
зависимости типа y=f(x). Пусть в результате измерений получена таблица данных:
Данные можно представить |
|
|
|
|
|
|
|
|
в виде графика. Необходимо |
||||||
|
получить |
в |
аналитическом |
виде |
|||
|
зависимость, |
которая |
будет |
||||
|
приближенно |
описывать |
|
эти |
|||
|
данные. |
Зависимость |
|
графически |
|||
|
будет |
определяться |
кривой, |
||||
|
соединяющей |
точки. |
|
Вариантов |
|||
|
таких кривых может быть много, и |
||||||
( ), = ( ) |
они |
могут |
описываться |
||||
различными |
уравнениями |
( |
|
||||
|
|
||||||
|
и др.). Необходимо выбрать наилучшим образом |
подходящую |
|||||
|
|
|
|
= |
|||
зависимость. Основным методом решения данной задачи является метод наименьших квадратов. Подбор регрессионной модели по методу наименьших квадратов производится таким образом, чтобы сумма квадратов
отклонений имеющихся экспериментальных данных от значений, получаемых по регрессионной модели, была минимальной.
Например, требуется установить зависимость (подобрать регрессионную модель) величины простоя составов поездов в ожидании расформирования от количества поездов, находящихся в парке приема сортировочной станции (рисунок 2.1).
Количество поездов, находящихся в парке приема |
2 |
3 |
4 |
5 |
6 |
7 |
Простой в ожидании расформирования, ч |
0,2 |
0,3 |
0,5 |
0,6 |
0,8 |
0,9 |
Простой в ожидании расформирования, ч
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
Количество поездов в парке приема
Рисунок 2.1 – Зависимость простоя в ожидании расформирования от количества поездов в парке приема в табличном и графическом виде
Можно предположить, что зависимость между двумя величинами
линейная, т.е. представлена в виде функции: |
|
|
|
|
|
|||||
|
|
|
0 |
1 |
|
, |
|
|
|
(2.2) |
|
|
|
|
|
|
|
|
|
||
Тогда коэффициенты |
|
|
можно подобрать, исходя из того, что |
|||||||
0(и )1= |
+ |
|
|
|
→ |
|
|
|||
= ∑=1( |
− 0 |
− ) |
|
|
|
|||||
|
должна быть минимальной: |
|
||||||||
сумма квадратов отклонений |
|
|
|
|
|
2 |
|
, |
(2.3) |
|
|
|
1 |
|
|
|
|
|
|
|
|
Простой в ожидании |
расформирования, ч |
0,9 |
|
|
|
|
|
|
|
|
0,8 |
|
|
|
|
|
|
|
|
||
0,7 |
|
|
|
|
|
|
|
|
||
0,6 |
|
|
|
|
|
|
|
|
||
0,5 |
|
|
|
|
|
|
|
|
||
0,4 |
|
|
|
|
|
|
|
|
||
0,3 |
|
|
|
|
|
|
|
|
||
0,2 |
|
|
|
|
|
|
|
|
||
0,1 |
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
0 |
|
|
|
|
|
|
|
|
|
|
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
|
|
|
|
|
|
|
Количество поездов в парке приема |
|||
Рисунок 2.2 – Регрессионная модель |
|
||||||
Аналитически |
коэффициенты |
|
и |
|
можно вычислить, решив |
||
|
1 ∑ =1 + 0 = ∑ =1 |
|
(2.4) |
||||
следующую систему уравнений: |
0 |
|
1 |
|
|
||
1 |
∑=1 |
2 + 0 ∑=1 |
|
= ∑=1 |
|
||
Эту же задачу можно решить значительно проще, если воспользоваться возможностями программы Microsoft Excel. Для этого следует использовать функцию «Добавить линию тренда» (рисунок 2.3).
Рисунок 2.3 – Построение линии тренда
Критерием выбора регрессионной модели является в этом случае величина R2 (величина достоверности аппроксимации). Чем ближе она к 1, тем лучше подобранная регрессионная модель описывает эмпирические данные. Для построения регрессионной модели может использоваться любая функция, однако предпочтение следует отдавать более простым функциям. Так, например, использование полиномиальной функции 5-6 порядка часто позволяет получить R2 весьма близким или даже равным 1. Однако такая модель не всегда будет корректной. Это легко заметить, если попробовать использовать ее для прогнозирования зависимости рассматриваемых данных за пределами имеющейся статистики – см. рисунок 2.3–2.4.
Рисунок 2.4 – Особенности использования полиномов высоких степеней при подборе линии тренда
Таким образом, в результате регрессионного анализа определяется в аналитическом виде зависимость одного параметра от другого. Полученная формула вида y=f(x), как правило, существенно упрощает описание и практическое использование рассматриваемой зависимости.
При математическом моделировании систем и процессов регрессионная модель может использоваться для следующих целей:
1)получение в аналитическом виде (т.е. в виде формулы) зависимости одного параметра от другого. Такая модель может использоваться, в частности, в более сложных моделях, например, имитационных, комплексных.
2)прогнозирования изменения одного параметра при изменении другого за пределами имеющейся статистики – например, для прогнозирования изменения объемов работы.
Важно отметить, что использование регрессионных моделей, или моделей трендов, для прогнозирования объемов работы транспортных объектов может иметь ограничения. В частности, для получения корректного прогноза необходимо, чтобы «поведение» рассматриваемого процесса, для которого имеются статистические данные за прошедший период, причины и основные закономерности изменения данных сохранялось и в будущем. В том случае, если поведение процесса или системы существенным образом зависит от субъективных факторов, рекомендуется дополнять его другими, в частности, экспертными методами прогнозирования
