- •Самарский государственный университет.
- •Глава 5. Анализ временных рядов. 29
- •Глава 6. Дисперсионный анализ. 34
- •Глава 7. Метод главных компонент 47
- •Глава 8. Факторный анализ 53
- •Глава 1. Математические модели.
- •1.1. Классификация моделей.
- •1.2. Этапы построения математических моделей
- •Глава 2. Корреляционный анализ: вид связи и проверка гипотез.
- •2.1.Коэффициент парной корреляции
- •2.2. Коэффициент детерминации
- •2.3. Статистическая оценка значимости коэффициентов корреляции.
- •2.4. Интервальные оценки для значимых парных коэффициентов корреляции.
- •2.5. Коэффициент корреляции рангов.
- •Решение
- •Глава 3. Регрессионный анализ: парная линейная регрессия.
- •3.1. Общие сведения. Парная линейная регрессия.
- •3.1.1. Функция регрессии
- •3.1.2. Последовательность проведения регрессионного анализа
- •3.1.3. Предпосылки к проведению регрессионного анализа
- •3.2. Метод наименьших квадратов
- •3.2.1. Проверка адекватности модели
- •3.2.2. Проверка значимости параметров модели
- •3.3. Описание типового примера. Алгоритм построения регрессионной модели.
- •3.4. Использование оцененной модели для прогнозирования
- •Глава 4. Множественная линейная регрессия
- •4.1. Корреляционно - регрессионный анализ.
- •4.2. Некоторые нелинейные модели, сводящиеся к линейным
- •4.3. Проверка предпосылок регрессионного анализа
- •1. Проверка нормальности закона распределения ошибок
- •3. Проверка на автокорреляцию случайных ошибок
- •Замечание. Если в модели много незначимых коэффициентов - ее надо упростить, т.Е. Уменьшить число искомых величин b. Если модель неадекватна, ее надо усложнить, т.Е. Добавить новые члены.
- •4.4. Пример решения задачи моделирования с использованием метода наименьших квадратов.
- •4.5. Метод наименьших квадратов (мнк) – общий случай
- •Глава 5. Анализ временных рядов.
- •5.1. Проверка законов распределения.
- •1. Проверка подчинения эмпирического распределения нормальному закону распределения
- •2. Проверка подчинения эмпирического распределения закону распределения Пуассона.
- •5.2. Изучение динамики
- •5.2.1. Средние показатели тенденции динамики
- •5.2.2. Выявление типа тенденции динамики тренда
- •5.2.3. Определение оптимального значения тренда
- •Глава 6. Дисперсионный анализ.
- •Однофакторный дисперсионный анализ.
- •6.2. Применение однофакторного анализа.
- •6.3. Проверка гипотезы об отсутствии влияния факторов на параметр
- •Можно показать [5], что, как и в случае однофакторного анализа, разность
- •Трехфакторный дисперсионный анализ.
- •6.5. Отсеивающие эксперименты и дисперсионный анализ
- •6.6. Рандомизация эксперимента
- •6.7. Определение аналитического вида зависимости параметра от факторов.
- •6.7.1. Матрица планирования
- •Глава 7. Метод главных компонент
- •7.1. Математическая модель метода главных компонент.
- •7.2. Алгоритм метода главных компонент
- •7.3. Нахождение коэффициентов характеристического уравнения
- •Глава 8. Факторный анализ
- •8.1. Модель факторного анализа.
- •8.2. Вращение факторов.
- •8.3. Применение факторного анализа.
- •8.4. Некоторые результаты факторного анализа
- •Приложение 1. Статистические таблицы
- •При числе степеней свободы
- •Критические точки распределения критерия g
- •Значения верхнего предела n2 в зависимости от уровня значимости
Глава 7. Метод главных компонент
7.1. Математическая модель метода главных компонент.
Метод главных компонент (МГК) был предложен Пирсоном в 1901 году и ,затем вновь открыт и детально разработан Хоттелингом /1933/. Ему посвящено большое количество исследований, и он широко представлен в литературных источниках, обратившись к которым можно получить сведения о методе главных компонент с различной степенью детализации и математической строгости (например, Айвазян С. А. и др., 1974, 1983, 1989).
Из числа методов, позволяющих обобщать значения элементарных признаков, метод главных компонент выделяется простой логической конструкцией и позволяет понять общую идею и целевые установки методов факторного анализа.
Метод главных компонент дает возможность по m - числу исходных признаков выделить m главных компонент, или обобщенных признаков. Пространство главных компонент ортогонально.
Математическая модель главных компонент базируется на допущении, что значения множества взаимосвязанных признаков порождают некоторый общий результат. предположим, что форма связи признаков линейна, тогда уравнение зависимости результата имеет вид
F=XB , (7.1.1.)
где В - вектор параметрических значений линейного уравнения связи. Условием выполнения такого равенства является соответствие дисперсий, т.е. D(Х) = D(ХВ). Поскольку Х - многомерная случайная величину, её дисперсионная оценка - это ковариационная матрица S. Постоянную величину В вынесем за знак дисперсии, получим:
D(F) = B’SB. (7.1.2.)
Поиск главных компонент сводится к задаче последовательного выделения первой главной компоненты F1 , обладающей максимальной дисперсией , второй главной компоненты , имеющей вторую по величине дисперсию и т. д.. Такая задача имеет решение при условии введения ограничений. Пусть В’В=b12+b22+…+bm2 = 1 . Таким образом, математическая формулировка задачи имеет вид:
max { B’SB } (7.1.3)
при условии: В’В=b12+b22+…+bm2 = 1.
Для решения поставленной задачи используем метод множителей Лагранжа:
r= В’SВ – ( В’В-1); =2SB-2B=0, откуда SB-B=0.
Следовательно, получим |S-E|B=0 и характеристическое уравнение для поиска j ,будет равно |S-E|=0.
Из множества значений характеристических чисел j относительно первого, наибольшего 1 находим вектор В1 – вектор значений для первой главной компоненты F1.
Для второго по величине характеристического числа 2 находим вектор В2 – вектор значений для второй главной компоненты F2 и т. д.
Для m находим вектор Вm – вектор значений для m-ой главной компоненты Fm.
Здесь: В – векторы величин, представляющих координаты главных компонент Fr в пространстве признаков Rx , они же одновременно являются характеристиками силы связи r-ой главной компоненты и j-го признака Xj.
Если исходную матрицу данных Х предварительно стандартизировать, то матрица ковариаций S перйдет в матрицу парных корреляций R, тогда вектор В будет собственным вектором по стандартизированным данным U. Решающее правило в матричной форме принимает вид:
(R-E)U=0 (7.1.4)
В результате применения метода главных компонент получаем матрицу отображения А. Итоговая зависимость значений исходных признаков от значений главных компонент имеет вид: BZ=AF или Zij=aj1f1j+aj2f2j+ …+ajrfri . (7.1.5)
Либо F=A-1Z’, fri=(a1rzi1+a2rzi2+…+amrzim) (7.1.6.)
Здесь: zij – значение j-ой стандартизованной переменной по i-му объекту,
fri – r-я главная компонента Fr по ш-му объекту наблюдения,
ajr – весовой коэффициент r-ой главной компоненты для j –й переменной.
Уравнения (7.1.6.) являются производными от (7.1.5).
Для двумерной случайной величины процедуру выделения главных компонент можно показать геометрически (см. рис 7.1.1).
Рис. 7.1.1. а) Первоначально имеется некоторое эмпирическое распределение данных в двумерном признаковом пространстве с центром (μ1,μ2).
Рис.7.1.1. б) Центрированием и стандартизацией это пространство признаков сжимается, и система координат переносится в центр распределения данных.
Рис.7.1.1. в) Решением матричного уравнения (R-E)V=0 найдем параметры эллипса, описывающие эмпирическое распределение объектов в нормированном признаковом пространстве Rz , соответственно устанавливается положение главных компонент (осей), обобщающих вариацию признаков Z1 и Z2 .
На рисунке видно, что задача выделения главных компонент сводится к поэтапному решению классических задач аналитической геометрии: изменению масштаба пространства, повороту координатой системы, координатному отображению векторов в старой системе координат и новой, после поворота. На рис. 7.1.1. в) видно отображение z в f и, наоборот, f в z . Это было записано ранее в виде функциональных уравнений связи (7.1.5), (7.1.6). Первоначально число главных компонент равно числу исходных элементарных признаков.