
- •Математическое моделирование локомотивов в расчетах на эвм математическое моделирование в машиностроении
- •190301 – Локомотивы и 190205 – Подъемно-транспортные,
- •Введение
- •Содержание и объем расчетно-графической (контрольной) работы
- •2. Исходные данные
- •Значения фактора X
- •Значения отклика y
- •3. Порядок выполнения работы
- •4. Теоретические сведения
- •5. Пример выполнения расчетной части работы
- •Значения экспериментальных данных
- •Промежуточные расчеты для определения коэффициента корреляции
- •Результаты расчета по программе "stat1"
- •Расчет ошибки аппроксимации
- •Заключение
- •Библиографический список
- •Процентные точки распределения Стьюдента
- •Приложение 5
4. Теоретические сведения
С помощью корреляционного анализа изучается теснота взаимосвязи между откликом и факторами, а регрессионный анализ позволяет приближенно представить корреляционную связь в виде некоторого уравнения, называемого уравнением регрессии.
В
работе предлагается построить и
исследовать самый простой вид регрессионной
модели: парную регрессию, т.е. уравнение
вида
.
Между переменными
и
нет строгой функциональной зависимости,
поэтому практически в каждом отдельном
случае величина y
складывается из двух слагаемых:
y = ŷx+ε
где
– фактическое значение отклика; ŷx
– теоретическое значение отклика,
найденное исходя из уравнения регрессии;
– случайная величина, характеризующая
отклонения реального значения
результативного признака от теоретического,
найденного по уравнению регрессии.
Случайная величина называется также возмущением. Она включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения. Ее присутствие в модели обусловлено тремя источниками: спецификацией модели, выборочным характером исходных данных, особенностями измерения переменных.
От правильно выбранной спецификации модели зависит величина случайных ошибок: они тем меньше, чем в большей мере теоретические значения отклика ŷx, подходят к фактическим данным .
К ошибкам спецификации относятся неправильный выбор той или иной математической функции для ŷx и недоучет в уравнении регрессии какого-либо существенного фактора, т. е. использование парной регрессии вместо множественной.
Наряду с ошибками спецификации могут присутствовать ошибки выборки, которые имеют место в силу неоднородности данных в исходной статистической совокупности. Если совокупность неоднородна, то уравнение регрессии не имеет практического смысла. Для получения хорошего результата обычно исключают из совокупности наблюдения с аномальными значениями исследуемых признаков. Считается, что число наблюдений должно в 7-8 раз превышать число рассчитываемых параметров при переменной . Это означает, что искать линейную регрессию, имея менее 7 наблюдений, вообще не имеет смысла. Если вид функции усложняется, то требуется увеличение объема наблюдений, т.к. каждый параметр при должен рассчитываться хотя бы по 7 наблюдениям. Значит, если выбирается парабола вида y = a+bx+cx2, то требуется объем информации уже не менее 14 наблюдений.
Наибольшую опасность в практическом использовании методов регрессии представляют ошибки измерения. Если ошибки спецификации можно уменьшить, изменяя форму модели (вид математической формулы), а ошибки выборки – увеличивая объем исходных данных, то ошибки измерения практически сводят на нет все усилия по количественной оценке связи между признаками.
Зависимость между откликом и факторами может быть линейной или нелинейной (параболической, гиперболической, экспоненциальной или какой-либо другой). Поэтому перед выбором структуры модели необходимо выяснить форму корреляционной зависимости.
В парной регрессии выбор вида математической функции ŷx =f(x) может быть осуществлен тремя методами:
графическим;
аналитическим, т.е. исходя из теории изучаемой взаимосвязи;
экспериментальным.
При изучении зависимости между двумя признаками графический метод подбора вида уравнения регрессии достаточно нагляден. Но на практике часто даже после построения графика, показывающего взаимосвязь между откликом и факторами, бывает трудно с уверенностью определить, к какой именно форме (линейной или нелинейной) следует относить полученную в эксперименте кривую. Поэтому для оценки наличия линейной коррелированности величин используется линейный коэффициент корреляции, рассчитываемый по формуле:
,
где
-значение
фактора в
-м
эксперименте;
- значение отклика в
-ом
эксперименте;
-
число экспериментов;
- среднее значение фактора
;
- среднее значение отклика
;
=
1, 2, ... ,
.
,
.
Рассматриваемый коэффициент корреляции называется выборочным, является оценкой истинного коэффициента корреляции, который может быть получен для генеральной совокупности и обладает следующими свойствами:
1)
-1
1;
2) чем ближе к ±1, тем связь более тесная, чем ближе к 0, тем связь слабее;
3) если =±1, то связь между откликом и фактором является функциональной.
Исходя
из свойств выборочного коэффициента
корреляции, можно судить о тесноте связи
между откликом и факторами. Задача эта
очень важная, т.к. в уравнение регрессии
следует включать только те переменные,
которые находятся в тесной зависимости
между собой. Однако, прежде чем делать
вывод о тесноте взаимосвязи, необходимо
предварительно установить значимость
выборочного коэффициента корреляции.
Для этого проверяется гипотеза о
равенстве нулю коэффициента корреляции
в генеральной совокупности с помощью
случайной величины
,
имеющей распределение Стьюдента с
степенями свободы для заданного уровня
значимости критерия.
По
таблице "Процентные точки распределения
Стьюдента" (приложение 1) определяется
критическое значение случайной величины
.
Сравнивая расчетное значение с критическим , делается вывод:
-
если
,
то гипотеза о равенстве нулю коэффициента
корреляции в генеральной совокупности
не принимается, значит, между откликом
и фактором имеется статистически
значимая линейная корреляция;
-
если
,
то коэффициент корреляции в генеральной
совокупности незначимо отличается от
нуля, а между откликом и фактором
отсутствует статистически значимая
линейная корреляция.
Если принята гипотеза о значимости коэффициента корреляции, то в качестве уравнения регрессии выбирается линейная зависимость и рассчитывается коэффициент детерминации, показывающий, на сколько процентов в среднем вариация отклика объясняется за счет вариации фактора:
Если коэффициент корреляции незначим, то следует предположить наличие нелинейной взаимосвязи между откликом и фактором.
Коэффициенты
уравнения линейной регрессионной
модели, имеющей вид
,
могут быть получены с помощью программы
"stat1".
Параметр b
называется коэффициентом регрессии.
Его величина показывает среднее изменение
отклика с изменением фактора на одну
единицу.
Программа позволяет вычислить расчетное значение критерия Фишера и значения ŷx для построения графика зависимости отклика от фактора, полученной на модели.
После того как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров.
Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение факторов для описания отклика.
Чтобы иметь общее суждение о качестве модели, из относительных отклонений по каждому наблюдению определяют среднюю ошибку аппроксимации:
.
Средняя ошибка аппроксимации у модели хорошего качества не должна превышать 8–10 %.
Оценка
значимости уравнения регрессии в целом
производится на основе
-критерия
Фишера, которому предшествует дисперсионный
анализ.
В практических исследованиях, как правило, имеет место некоторое рассеяние точек относительно линии регрессии. Оно обусловлено влиянием прочих, не учитываемых в уравнении регрессии, факторов. Иными словами, имеют место отклонения фактических данных от теоретических (y-ŷx). Величина этих отклонений и лежит в основе расчета остаточной дисперсии:
.
Чем меньше величина остаточной дисперсии, тем меньше влияние не учитываемых в уравнении регрессии факторов и тем лучше уравнение регрессии подходит к исходным данным.
Согласно основной идее дисперсионного анализа, общая сумма квадратов отклонений переменной от ее среднего значения раскладывается на две части – «объясненную» и «необъясненную»:
,
где
– общая сумма квадратов отклонений;
– сумма квадратов отклонений, объясненная
регрессией (или факторная сумма квадратов
отклонений);
– остаточная сумма квадратов отклонений,
характеризующая влияние неучтенных в
модели факторов.
Схема
дисперсионного анализа имеет вид,
представленный в табл. 4.1 (
– число наблюдений,
– число параметров при переменной
).
Таблица 4.1
Компоненты дисперсии |
Сумма квадратов |
Число степеней свободы |
Дисперсия на одну степень свободы |
Общая |
|
|
|
Факторная |
|
|
|
Остаточная |
|
|
|
Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получают величину -критерия Фишера:
.
Проверка гипотезы об адекватности модели по вычисленному значению критерия Фишера F осуществляется, исходя из соотношения:
,
(3)
где
F-
расчетное значение критерия Фишера,
полученное на ЭВМ;
- критическое значение критерия Фишера,
выбираемое из таблиц "Процентные
точки распределения Фишера" (приложения
2 - 5) в зависимости от уровня значимости
р и
степеней свободы v1
и v2:
v1 = q; v2 = n – q - 1;
где v1 - номер столбца, v2 - номер строки в таблице соответствующего уровню значимости p приложения.
Гипотеза об адекватности модели подтверждается, если выполняется соотношение (3), в противном случае считается, что при выбранном уровне значимости модель неадекватно описывает поведение исследуемого объекта.
В парной линейной регрессии оценивается значимость не только уравнения в целом, но и отдельных его параметров. С этой целью по каждому из параметров определяется его стандартная ошибка: mb и ma.
Стандартная ошибка коэффициента регрессии определяется по формуле:
,
где
– остаточная дисперсия на одну степень
свободы.
Величина
стандартной ошибки совместно с
-распределением
Стьюдента при
степенях свободы применяется для
проверки существенности коэффициента
регрессии и для расчета его доверительного
интервала.
Для
оценки существенности коэффициента
регрессии его величина сравнивается с
его стандартной ошибкой, т.е. определяется
фактическое значение
-критерия
Стьюдента:
,
которое затем сравнивается с табличным
значением при определенном уровне
значимости р
и числе степеней свободы
.
Доверительный интервал для коэффициента
регрессии определяется как
.
Поскольку знак
коэффициента регрессии указывает на
рост результативного признака
при увеличении признака-фактора
(
),
уменьшение результативного признака
при увеличении признака-фактора (
)
или его независимость от независимой
переменной (
),
то границы доверительного интервала
для коэффициента регрессии не должны
содержать противоречивых результатов,
например,
.
Такого рода запись указывает, что
истинное значение
коэффициента регрессии одновременно
содержит положительные и отрицательные
величины и даже ноль, чего не может быть.
Стандартная
ошибка параметра
определяется по формуле:
.
Процедура
оценивания существенности данного
параметра не отличается от рассмотренной
выше для коэффициента регрессии.
Вычисляется
-критерий:
,
его величина сравнивается с табличным
значением при
степенях свободы.