Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Мои лекции ИВТ на АТ(для Раи).doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
3.84 Mб
Скачать
  1. Выяснение общего вида этой формулы

  2. Определение наилучших параметров её.

В некоторых случаях выбор эмпирической функции регрессии может быть произведен геометрически. Т.е. подобрать такую формулу, которая лучше подходит к кривой, построенной по данным наблюдений.

Это могут быть степенные (y=a*xb), логарифмические (y=a*Ln(x)+b ), экспоненциальные (y=a*eb*x ) и т.п.

Если неизвестен характер зависимости между величинами xi,yi , то вид эмпирической функции регрессии является произвольным.

Во многих случаях можно ограничиться многочленом. (Любой вид зависимости путем преобразований можно привести к многочлену.)

При построении эмпирической функции регрессии можно предположить, что исходные данные xi,yi (i=1,…,n) положительны.

Действительно, если бы например:

  • Все xi < 0 (или все yi< 0), то достаточно рассмотреть таблицу значений - xi, yi (или соответственно xi, - yi)

  • Все xi и yi < 0. Тогда достаточно построить эмпирическую функцию регрессии для таблицы - xi, - yi.

  • Знаки xi, yi – переменные, т.е. имеем общий случай. Т.к. таблица значений xi, yi конечна, то всегда можно подобрать числа «m» и «n» такие, что

ξi = m+ xi, ηi = n+ yi

Отсюда получаем, что решение поставленной задачи сводится к нахождению эмпирической функции регрессии для системы положительных значений ξi, ηi

Если вид эмпирической функции регрессии выбран, то возникает задача определения наилучших коэффициентов (параметров), входящих в эту формулу.

Т.о. задача ставится следующим образом.

Пусть дана совокупность пар значений (xi,yi) i=1,…,n, которая приближённо описывается формулой вида

(2.1)

где f - известная функция, и a0,a1,a2,...,am – параметры эмпирической функции регрессии, которые необходимо определить.

Т.е. нужно найти наилучшие значения a0,a1,a2,...,am, приближенно удовлетворяющие системе уравнений

yi = f(xi, a0,a1,a2,...,am), i=1,…,n (2.2)

и такие, что невязки (уклонения)

yi- f(xi, a1,a2,...,am)=ei (i=1,…,n) (2.3)

являются, возможно, малыми по абсолютной величине.

Для определения параметров a0,a1,a2,...,am применяются методы

  • Метод выбранных точек

  • Метод средних

  • Метод наименьших квадратов

Остановимся на методе наименьших квадратов, т.к. он имеет наилучшую сходимость.

2.1.2 Метод наименьших квадратов.

Метод наименьших квадратов Гаусс разработал в 1794 г., но опубликовал его только в 1808 г.

На два года раньше, а именно в 1806 г., Лежандр в своем мемуаре «Новый способ определения орбит комет» также предложил этот метод, но его изложение не такое полное, как у Гаусса. Гаусс и позднее неоднократно возвращался к изложению своего метода и довел его до полной законченности и совершенства.

Из многочисленных применений метода наименьших квадратов мы рассмотрим только наиболее важное, которое относится к определению наилучшего уравнения заданного типа для представления наблюденных данных, т. е. для обработки результатов наблюдений.

Согласно методу наименьших квадратов (МНК) наилучшими коэффициентами а0,a1,a2,...,am считаются те, для которых сумма квадратов уклонений наблюдаемых значений переменной yi от соответствующих ординат эмпирической функции регрессии y=f(xi, a0,a1,a2,...,am) будет минимальной, т.е.

(2.4)

Отсюда, используя необходимые условия экстремума функции нескольких переменных, получаем нормальную систему для определения коэффициентов a1,a2,...,am.

(2.5)

Если система имеет единственное решение, то оно будет искомым.

Метод наименьших квадратов обладает тем преимуществом, что если сумма квадратов уклонений мала, то сами эти уклонения малы по абсолютной величине.

Недостатком метода наименьших квадратов, является громоздкость вычислений. Поэтому к нему прибегают обычно при обработке наблюдений высокой точности, когда нужно получить весьма точные значения параметров.

Рассмотрим методику расчёта эмпирических функций регрессии методом наименьших квадратов для линейной зависимости. Предположим, что произведён эксперимент, в результате которого зафиксировано «n» значений исследуемых переменных X и Y (xi, yi,, i=1,…,n). Нанося экспериментальные данные в виде точек в декартовой системе координат, получаем корреляционное поле, изображенное на рисунке 1.2

Рисунок 2.2 - Корреляционное поле эксперимента.

Если точки на корреляционном поле группируются вокруг прямой линии, то эмпирическая функция регрессии изображается в виде

y =f(x,a1,a2)=a1+a2x..

Следующая задача – нахождение параметров a1,a2. Находим их методом наименьших квадратов при условии

(2.6)

Для этого находим частные производные

(2.7)

Раскрывая скобки и выполняя элементарные операции, получим систему из двух линейных уравнений, называемых нормальными уравнениями

(2.8)

Решая систему, находим a1,a2.

Пример.

Имеются две наблюдаемые величины x и y, например, объем реализации фирмы, торгующей подержанными автомобилями, за шесть недель ее работы. Значения этих наблюдаемых величин приведены в таблице 2.2, где х – отчетная неделя, а y – объем реализации за эту неделю.

Необходимо найти эмпирическую функцию регрессии y =f(x,a1,a2) по шести парам наблюдаемых значений СВ (X,Y)

Таблица 2.2 – Значения наблюдаемых величин

x

1

2

3

4

5

6

y

7

9

12

13

14

17

Если нанесем точки на декартову систему координат, то заметим, что они группируются вокруг прямой линии. Поэтому будем подбирать эмпирическую функцию регрессии линейного вида y= a1+a2x. Для удобства все вычисления расположим в таблице (таблица 1.2).

Y

Рисунок 2.3 – Результаты эксперимента

Таблица 2.3 – Значения коэффициентов

xi

yi

xi yi

xi2

1

7

7

1

2

9

18

4

3

12

36

9

4

13

52

16

5

14

70

25

6

17

102

36

Суммы

21

72

285

91

В результате получится система уравнений для нахождения коэффициентов a1,a2

1 + 21а2 = 72

21 а1 + 91 а2 = 285

Решая систему получим а1 = 5,4 и а2 = 1,885714.

Тогда эмпирическая функция регрессии будет иметь вид

y = 5,4 + 1,885714 x

В наше время существует большое количество специализированных программных пакетов (MathCad, Statistica, MathLab и т.д.), позволяющих производить различные статистические вычисления, оценивать полученные результаты по различным критериям.

До сих пор мы говорили об уравнениях регрессии, когда строим зависимость между функцией и одной переменной, т.е.

y=f(x). (2.9)

Такая зависимость называется парной.

Как правило, на любой рассматриваемый объект или процесс оказывает влияние гораздо большее количество факторов. Так, например, на мощность автомобильного бензинового двигателя помимо угла опережения зажигания влияют и другие факторы (температура охлаждающей жидкости, зазор между электродами свечей зажигания, износ цилиндропоршневой группы и т.д.). Поэтому мы можем говорить о многофакторной задаче.

Спросить у О.В. стоит ли давать теорию планирования эксперимента.

Регрессия называется множественной (многофакторной), если она записывает зависимость функции от нескольких переменных

y=f(x1,x2,…xn)) (2.10)

Если зависимости (2.9-2.10) являются линейными, то регрессия называется линейной, в противном случае – нелинейной.

При решении практических задач уравнение множественной регрессии, как правило, принимается в виде полинома второй степени.

(2/11)

Чем больше статистических данных, используемых при определении уравнения регрессии, тем точнее будет определена искомая зависимость. Но при этом следует иметь в виду, что количество статистических данных не может обеспечить получение достоверной зависимости, если в действительности такой зависимости нет.

Вместе с тем есть минимальное число К необходимых исходных данных для применения метода наименьших квадратов

К=М+2, где М количество неизвестных величин в искомом уравнении.

Например:

1 у=a1 x+a2 М=2 - (a1, a2) тогда К=М+2=4

2 у=a1 x2+a2х+а3 М=3 - (a1, a2 а3) тогда К=М+2=5

Уравнение множественной регрессии при решении практических задач, как правило, принимается в виде полинома второй степени, для которого число определяемых величин находится по зависимости

где n – число переменных y=f(x1,x2) (n=2) тогда