Аппроксимация методом наименьших квадратов.
Ч
асто
требуется найти форму зависимости одной
величины от другой. В простейшем случае
предполагается линейная зависимость
вида y=ax+b.
Результатом измерений служат пары чисел
(х, y(х)), при
этом можно считать значения х точными,
а значения y(x)-
имеющими
равные погрешности y.
Рассматриваемую задачу анализа данных
можно разделить на две части:
Какие коэффициэнты a и b наилучшим образом описывают линейную зависимость?
Насколько правомерно предположение, что эта зависимость линейна?
Задача определения
коэффициэнтов а и b
решается с использованием метода
максимального правдоподобия. Предполагая
Гауссову форму функции распределения,
можно записать формулу для вероятности
получения измеренного набора yi
в случае
предполагаемых коэффициэнтов a
и b.
В формулу войдет экспонента с показателем
.
Очевидно, что максимальная вероятность
достигается в том случае, когда сумма
квадратов отклонений измеренных значений
yi
от вычисленных
по предполагаемой формуле, минимальна.
Вот почему рассматриваемый метод
называют методом наименьших квадратов.
Опуская процедуру нахождения минимумов
путем дифференцирования по переменным
a и
b,
выпишем итоговые формулы:
;
,
где введено
обозначение
.
Погрешности коэффициэнтов a и b определяются обычным способом вычисления ошибок в косвенных измерениях, исходя из погрешностей в y1…yn . Можно убедиться, что
;
При отсутствии каких-либо сведений о погрешностях у их можно оценить по формуле:
. Значение 1/(n-2)
вместо
ожидаемого 1/n появилось перед суммой в
связи с тем, что параметры а и b
не являются
точными, вместо них используются
статистические оценки. Действительно,
при попытке оценить точность измерения
значений yi
всего
лишь по двум точкам мы получили бы
погрешность, равную нулю, в то время как
приведенная выше формула указывает на
недостаточность информации о точности
измерений.
Задача аппроксимации данных кривыми другого вида также решается методом наименьших квадратов. В частности, в некоторых случаях можно осуществить математические преобразования искомой зависимости к линейному виду. Так или иначе, наилучшей кривой, описывающей экспериментальные данные, будет та кривая, для которой сумма квадратов отклонений измеренных значений yi от теоретически рассчитанных, минимальна.
Проверка наличия линейной зависимости X от y
Предположив наличие линейной зависимости x от y, можно вычислить параметры a и b этой зависимости. Однако, следует обосновать утверждение, что зависимость существует и имеет вид линейной функции.
Наличие какой-либо
зависимости подтверждает отличие от
нуля так называемого смешанного
второго момента
.
Если эту величину нормировать на
произведение стандартных отклонений
ху
, получим коэффициэнт корреляции,
вычисляемый по формуле:
Коэффициэнт
корреляции принимает значения, лежащие
в интервале от –1 до 1. Если предположить,
что все экспериментальные точки лежат
точно на прямой линии, т.е. всегда
yi=axi+b,
следовательно,
и, вычитая одно из другого,
.
Поэтому в случае точной линейной
зависимости
,
причем знак коэффициэнта корреляции
положителен для возрастающей линейной
функции y(x).
Если никакой зависимости между x и y нет, то слагаемые суммы, стоящей в числителе, могут иметь положительный и отрицательный знаки с равной вероятностью. Это приводит к тому, что при отсутствии связи между x и y коэффициэнт корреляции равен нулю.
В реальных случаях исследователь получает некоторое значение коэффициэнта корреляции r0, лежащее между 0 и 1. Если это значение близко к 1 – он должен сделать вывод о существовании зависимости, если близко к 0 – об её отсутствии. Для определения количественного критерия, которым должен руководствоваться исследователь в своих выводах, он должен определить вероятность, с которой две независимые величины дадут значение r>r0. Эта вероятность зависит не только от r0, но и от числа n экспериментальных точек. Некоторые значения вероятности получить r> r0 приведены в таблице (в процентах):
n |
0 |
0.1 |
0.2 |
0.3 |
0.4 |
0.5 |
0.6 |
0.7 |
0.8 |
0.9 |
1.0 |
3 |
100 |
94 |
87 |
81 |
74 |
67 |
59 |
51 |
41 |
29 |
0 |
6 |
100 |
85 |
70 |
56 |
43 |
31 |
21 |
12 |
6 |
1 |
0 |
10 |
100 |
78 |
58 |
40 |
25 |
14 |
7 |
2 |
0.5 |
- |
0 |
20 |
100 |
67 |
40 |
20 |
8 |
2 |
0.5 |
0.1 |
- |
- |
0 |
50 |
100 |
49 |
16 |
3 |
0.4 |
- |
- |
- |
- |
- |
0 |
Обратим внимание, что сделать вывод о наличии линейной зависимости по трем точкам практически невозможно – даже значение r=0.9 недостаточно, поскольку вероятность случайной имитации достаточно велика (~30%). Во многих практических случаях требуется значение r>0.7 .

r0