планирование эксп / Пособие план. эксп / Пос.Кад.I.4
..doc4. О ФАКТОРНОМ АНАЛИЗЕ
4.1. Постановка задачи
Предположим, что функция отклика Y зависит от весьма большого количества факторов Xi. Анализ такого регрессионного полинома может оказаться затруднительным. Поэтому в ряде случаев оказывается более предпочтительным выделить какие-то главные факторы, которые каким-то образом связаны с исходными факторами (теперь их будем называть параметрами), но число этих главных факторов будет существенно меньшим по сравнению с числом исходных параметров. Так, например, при решении задач, связанных с минимизацией потерь в радиальных сетях 6-10 кВ, можно выделить следующие параметры, от которых зависят потери в этих сетях : )
X1, X2 - суммарная активная и реактиная энергии, передаваемые через сети за расчетный период;
X3 – суммарная установленная мощность трансформаторов в сетях;
X4 – суммарная длина участков ВЛ;
X5 – суммарные потери в меди трансформаторов;
X6 – суммарные потери холостого хода в трансформаторах;
X7 – число трансформаторов;
X8 – число участков линий;
X9 – длина головного участка сети;
X10 – сечение головного участка сети;
X11 – мощность головного трансформатора;
X12 – номинальное напряжение сети.
Часть из этих параметров являются режимными, часть – конфигурационными, часть – конструктивными. Следовательно, можно перейти от 12 параметров к трем главным факторам - F1, F2 и F3.
пример взят из диссертации: Содномдорж Дарийн "Разработка комплексных методов расчета и мероприятий по снижению потерь электроэнергии в электрических сетях Монголии".-Новосибирск.-НГТУ-МГТУ.-1995.
Следует отметить, что главные факторы не являются непосредственнно определяемыми величинами. Главный фактор является формой проявления более общей величины, содержащей скрытые свойства совокупности всех параметров (в рассмотренном примере – свойства режимов, конфигурации сети и её конструктивного исполнения).
Факторный анализ возник при исследовании психологических задач. Классическим примером является теория интеллектуальных возможностей человека. Можно предположить, что интеллектуальные возможности человека характеризуются большим количеством параметров: памятью, наблюдательностью, внимательностью, компетентностью и т.д. Спирмэн, однако, предположил, что все возможные совокупности корреляций между этими параметрами определяются лишь одним главным фактором - смышленностью. Более поздние исследования показали, однако, что этого одного главного фактора мало, чтобы охарактеризовать интеллектуальные возможности человека. Для разных задач могут быть введены какие-то эмпирические показатели. Так, например, анализ функций щитовидной железы, проведенный с помощью факторного анализа, показал, что главным фактором является наличие тироксина в крови (остальные анализы не являются небходимыми для установления диагноза).
Итак, наиболее сложной задачей является переход от параметров к факторам. Эта связь может быть представлена в матричной форме:
,
(4.1)
где
- матрица-столбец исходных параметров;
- матрица-столбец главных
факторов.
Поскольку матрица A – не является квадратной, то решение уравнения (4.1) относительно матрицы-столбца главных факторов запишется в виде:
.
(4.2)
Основной задачей факторного анализа является определение матрицы A.
4.2. Определение матрицы А. Метод главных компонент
Исходной информацией для определения матрицы А может служить матрица R (3.4) парных коэффициентов корреляции. Эта матрица может быть представлена в виде:
,
(4.3)
где А - квадратная матрица, на основе которой далее находится искомая матрица А. Уравнение (4.3) имеет неоднозначное решение. Покажем это обстоятельство на примере. Пусть матрица парных коэффициентов имеет вид:
,
Неизвестную матрицу Апредставим как
.
Тогда уравнение (4.3) запишется в виде:
.
(4.4)
В уравнении (4.4) четыре неизвестных величины a11; a22, a12 и a21 связаны тремя уравнениями:
;
;
,
т.е. решение уравнения (4.4) не однозначно.
Следовательно, для решения уравнения (4.4) должны быть наложены какие-то дополнительные условия. Наиболее употребимым является метод, основанный на последовательной максимизации дисперсии матрицы Ав направлении из каждого из факторов.
Поясним
идею этого метода. В матрице А
(4.5) k-ый
столбец связывает параметры Xi
c k-ым
главным фактором. Поэтому максимизация
дисперсии в направлении этого фактора
отвечает максимуму
.
.
(4.5)
Выражения
для
при
использовании этого метода будут иметь
вид:
,
(4.6)
где k – собственные числа матрицы R,
zik
– i-ая
составляющая k-го
собственного вектора матрицы R
.
Таким образом, чтобы найти матрицу А необходимо решить проблему собственных чисел и векторов матрицы R. Собственные числа найдутся путем решения уравнения
.
(4.7)
k –ый собственный вектор определяется из уравнения
.
(4.8)
Матрица собственных векторов будет:
.
(4.9)
Матрица А- квадратная матрица, позволяющая получить из n параметров n главных факторов. Вместе с тем, число главных факторов должно быть меньше числа параметров. Поэтому в матрице А необходимо отбросить часть столбцов.
Возможным критерием может служить следующий:
.
(4.10)
Иными словами, после отбрасывания части столбцов (m<n) остаточная дисперсия не должна быть менее 0.75 полной дисперсии.
Пример. В табл.4.1 приведены результаты экспериментов.
Таблица 4.1
Результаты экспериментов
|
N оп. |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
|
x1 |
1 |
2 |
1 |
2 |
2 |
1 |
1 |
0 |
1 |
|
x2 |
1 |
1 |
2 |
2 |
1 |
2 |
0 |
1 |
1 |
|
x3 |
2 |
1 |
1 |
1 |
2 |
2 |
1 |
1 |
0 |
|
|
4 |
5 |
2 |
45 |
6 |
3 |
4 |
1 |
2 |
Регрессионный
полином, связывающий функцию отклика
с параметрами, имеет вид:
.
Попытаемся перейти к двум главным
факторам F1 и
F2.
Матрица парных коэффициентов корреляции,
полученная на основе табл.4.1 по приведенным
в 3.1 выражениям, имеет вид:
.
Собственные числа матрицы R являются решениями уравнения:
—![]()
Матрица собственных векторов, отвечающих вычисленным собственным числам, а также матрица A будут:
,
.
Дисперсии
столбцов матрицы Аоказались
равными
,
.
Суммы нагрузок первого
и второго факторов оказались одинаковыми.
При отбрасывании любого из этих столбцов
оставшаяся суммарная дисперсия составляет
72% от первоначальной суммарной дисперсии.
Выше указывалось, что оставшаяся
дисперсия не должна быть меньше величины
порядка 75% от изначальной суммарной
дисперсии. Поскольку эта рекомендация
не является жесткой, а остаточная
дисперсия близка к 75% , то отбросим второй
столбец в матрице А.
Тогда
.
Матричное уравнение, связывающее матрицу главных факторов F с матрицей параметров X, записывается в виде:
![]()
или
=
.
Результаты экспериментов, приведенные в табл.4.1 для различных значений параметров, переписаны далее в виде табл.4.2 относительно соответствующих этим параметрам главных факторов.
Таблица 4.2
Результаты экспериментов применительно к главным факторам
|
N оп. |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
|
F1 |
-0.435 |
0.889 |
-0.454 |
0.435 |
0.454 |
-0.889 |
0.454 |
-0.889 |
0.435 |
|
F2 |
2.018 |
2.018 |
2.018 |
2.522 |
2.522 |
2.522 |
1.009 |
1.009 |
1.009 |
|
|
4 |
5 |
2 |
4 |
6 |
3 |
4 |
1 |
2 |
|
|
4.337 |
7.534 |
2.989 |
5.288 |
5.316 |
3.280 |
2.460 |
0.427 |
2.436 |
Определим
методом наименьших квадратов коэффициенты
линейной регрессии
.
Матрица-столбец коэффициентов оказалась
равной
.
Результаты функции отклика, определенные
с помощью линейной регрессии, занесены
в нижнюю строку табл.4.2 (
).
Проверка статистической значимости
полученной линейной регрессии относительно
двух главных факторов была произведена
с использованием критерия Фишера:
,
где
;
.
Статистическая значимость линейной регрессии, составленной относительно главных факторов, оказалась достаточно высокой (q = 0.526).
