
- •8.4.2.1 Корреляцонный эллипс как числовая характеристика
- •Глава 7. Обработка совместных измерений двух величин
- •7.1. Задачи совместной обработки двух величин
- •7.2. Линейная корреляция
- •7.2.1. Характеристики корреляции и их оценки
- •7.2.1.1 Свойства коэффициента корреляции
- •7.2.I.2. Геометрический смысл коэффициента корреляции
- •7.2.1.З. Назначение коэффициента корреляции
- •7.2.I.4. Оценка значимости коэффициента корреляции
- •7.2.I.5. Оценка равенства двух коэффициентов корреляции
- •7.2.2. Установление линейной корреляции, регрессии
- •7.2.3. Оценка нелинейной статистической связанности
- •7.2.3.1. Корреляционное отношение
- •7.2.3.2. Свойства корреляционного отношения
- •7.2.3.3. Критерий линейности
- •7.2.4.1. Подбор эмпирической кривой
- •7.2.4.2. Определение параметров кривой
- •7.2.4.3. Ортогональные полиномы Чебышева
- •7.2.4.4. Построение ортогональной системы полиномов
- •7.2.4.5. Аппроксимация ортогональными полиномами Чебышева
- •7.1. Основы корреляционного анализа.
- •7.1.1. Определение формы связи. Понятие регрессии.
- •7.1.2. Оценка тесноты связи.
- •7.1.3. Выборочный коэффициент корреляции и его свойства.
- •7.1.4. Частный коэффициент корреляции.
- •7.1.5. Совокупный коэффициент корреляции.
7.2.4.1. Подбор эмпирической кривой
Подбор кривой рассматривается также в гл.4 при анализе распределения случайной величины и в гл.17 при определении вероятности опознавания объекта.
Построение графика. Если построить диаграмму, откладывая в произвольных масштабах значения x и y, то точки могут быть так рассеяны, что на глаз трудно заметить тенденцию к виду функциональной зависимости этих величин. Поэтому нужны некоторые начальные преобразования.
Если результативный признак изменяется вначале значительно, а в последующем изменения затухают, то целесообразно перейти к логарифмам значений x по какому-либо основанию a.
При незначительном начальном изменении результативного признака, которое с увеличением x нарастает, можно попробовать log y или перейти к экспоненциальному графику.
Таким образом, мы переходим от одной из измеренных величин к ее функции z с целью приблизить искомую зависимость к линейному виду, делаем линеаризацию. Если линеаризация удовлетворительна, то можем искать уравнение регрессии для новой пары величин x и z или z и y, как рассмотрено в предыдущих параграфах.
Чтобы уменьшить разброс значений, вызванный ошибками измерений, нормируют значения каждой из величин x и y их стандартами Sx и Sy, вычисленными по этим значениям. График, построенный в единицах точности измерения каждой из величин, более нагляден.
Обычно по оси абсцисс откладывают в порядке возрастания значений тот признак, который мы желаем рассматривать как факторный.
7.2.4.2. Определение параметров кривой
Наметив по графику или из теоретических соображений вид кривой, записываем уравнения связи между признаками или одним из признаков и элементарной функцией другого:
,
(7.19)
где a, b, c - искомые параметры, n - количество пар измерений.
Получаем систему из уравнений, в общем случае нелинейных. Система будет несовместной вследствие ошибок измерений, влияния различных факторов и случайного характера исследуемого признака. Для определения параметров отыскивается то решение этой системы, которое отвечает заданным условиям: простоты решения, условия оптимальности и т.п. Оптимальное решение может быть получено по методу наименьших квадратов (м.н.к.) при условии несмещенности и симметричности распределения ошибок измерений. Пример такого решения приведен в 7.2.4.4. Теория и технология м.н.к. изложены в разделе Ш.
Для нахождения м.н.к. оценок параметров исходную систему, если она нелинейная, разлагают в ряд Тейлора.
Систему линейных алгебраических уравнений, например такую,
(7.20
можно решать без разложения, вычтя из соответствующих значений xcp и ycp для снижения разрядности чисел.
В
матричной записи (7. 20) будет выглядеть
как
,
где A- матрица коэффициентов, T - вектор
параметров, Y - вектор измеренных значений.
Для
нахождения мнк-оценок
переходят к системе нормальных уравнений
,
где AT
-транспонированная матрица A, а
называют информационной матрицей.
Решение системы есть
.
Матрицу N-1
в регрессионном анализе называют
«матрицей ошибок».
Определив параметры и подставив в полученное уравнение элементарные функции, если их применяли для линеаризации, получаем искомое уравнение регрессии.
Для каждого измеренного значения x мы вычислим по этому уравнению значения y(m). Расхождения вычисленных и измеренных значений y позволяют найти оценку общей дисперсии колебаний результативного признака:
,
где m - число параметров.
Аналогичную процедуру мы можем проделать, выбрав другую подходящую кривую. Получим другое значение общей дисперсии
,
где k - число параметров в другом уравнении.
Из непосредственного сравнения дисперсий или пользуясь критерием Фишера, как показано в 7.2.4.5, выбираем оптимальное уравнение, описывающее регрессионную модель.
На практике пары измерений могут поступать в обработку со средств измерений последовательно, например, при рисовке горизонтали. Чтобы не повторять с каждой новой парой измерений все решение заново, можно применить рекуррентный подход.
Рекуррентная процедура. Суть ее в том, что к исходной системе (у нас 7.20) добавляется новое уравнение
.
Отсюда согласно лемме об обращении матрицы получаем новую матрицу
,
где F- вектор-строка частных производных; здесь F=[x+ x+2 x+3], (T) знак транспонирования.
Новые
значения оценок параметров tнов
вычисляют по предыдущим t и
:
,
где
,
t
- вектор
предыдущих оценок параметров tT=[a
b c…].
Для лучшего согласования данных мы можем получать новые уравнения, наращивая последовательно на единицу число параметров. В системе (7.20) можно добавить параметр е при степени x4, если окажутся существенные расхождения, то ввести параметр при степени x5, x6 и т.д. Но следует помнить, что повышение степени может исказить реальную зависимость.
Ниже изложено решение такой задачи по м.н.к., применительно к ортогональным полиномам.