- •Самарский государственный университет.
- •Глава 5. Анализ временных рядов. 29
- •Глава 6. Дисперсионный анализ. 34
- •Глава 7. Метод главных компонент 47
- •Глава 8. Факторный анализ 53
- •Глава 1. Математические модели.
- •1.1. Классификация моделей.
- •1.2. Этапы построения математических моделей
- •Глава 2. Корреляционный анализ: вид связи и проверка гипотез.
- •2.1.Коэффициент парной корреляции
- •2.2. Коэффициент детерминации
- •2.3. Статистическая оценка значимости коэффициентов корреляции.
- •2.4. Интервальные оценки для значимых парных коэффициентов корреляции.
- •2.5. Коэффициент корреляции рангов.
- •Решение
- •Глава 3. Регрессионный анализ: парная линейная регрессия.
- •3.1. Общие сведения. Парная линейная регрессия.
- •3.1.1. Функция регрессии
- •3.1.2. Последовательность проведения регрессионного анализа
- •3.1.3. Предпосылки к проведению регрессионного анализа
- •3.2. Метод наименьших квадратов
- •3.2.1. Проверка адекватности модели
- •3.2.2. Проверка значимости параметров модели
- •3.3. Описание типового примера. Алгоритм построения регрессионной модели.
- •3.4. Использование оцененной модели для прогнозирования
- •Глава 4. Множественная линейная регрессия
- •4.1. Корреляционно - регрессионный анализ.
- •4.2. Некоторые нелинейные модели, сводящиеся к линейным
- •4.3. Проверка предпосылок регрессионного анализа
- •1. Проверка нормальности закона распределения ошибок
- •3. Проверка на автокорреляцию случайных ошибок
- •Замечание. Если в модели много незначимых коэффициентов - ее надо упростить, т.Е. Уменьшить число искомых величин b. Если модель неадекватна, ее надо усложнить, т.Е. Добавить новые члены.
- •4.4. Пример решения задачи моделирования с использованием метода наименьших квадратов.
- •4.5. Метод наименьших квадратов (мнк) – общий случай
- •Глава 5. Анализ временных рядов.
- •5.1. Проверка законов распределения.
- •1. Проверка подчинения эмпирического распределения нормальному закону распределения
- •2. Проверка подчинения эмпирического распределения закону распределения Пуассона.
- •5.2. Изучение динамики
- •5.2.1. Средние показатели тенденции динамики
- •5.2.2. Выявление типа тенденции динамики тренда
- •5.2.3. Определение оптимального значения тренда
- •Глава 6. Дисперсионный анализ.
- •Однофакторный дисперсионный анализ.
- •6.2. Применение однофакторного анализа.
- •6.3. Проверка гипотезы об отсутствии влияния факторов на параметр
- •Можно показать [5], что, как и в случае однофакторного анализа, разность
- •Трехфакторный дисперсионный анализ.
- •6.5. Отсеивающие эксперименты и дисперсионный анализ
- •6.6. Рандомизация эксперимента
- •6.7. Определение аналитического вида зависимости параметра от факторов.
- •6.7.1. Матрица планирования
- •Глава 7. Метод главных компонент
- •7.1. Математическая модель метода главных компонент.
- •7.2. Алгоритм метода главных компонент
- •7.3. Нахождение коэффициентов характеристического уравнения
- •Глава 8. Факторный анализ
- •8.1. Модель факторного анализа.
- •8.2. Вращение факторов.
- •8.3. Применение факторного анализа.
- •8.4. Некоторые результаты факторного анализа
- •Приложение 1. Статистические таблицы
- •При числе степеней свободы
- •Критические точки распределения критерия g
- •Значения верхнего предела n2 в зависимости от уровня значимости
7.2. Алгоритм метода главных компонент
Как было сказано в п.7.1., решение задачи методом главных компонент сводится к поэтапному преобразованию матрицы исходных данных X( см. рисунок 7.1.1, а),б), в)).
Пусть X– матрица исходных данных размерностьюn*m(n– число объектов наблюдения, m– число элементарных аналитических признаков);
Z– матрица центрированных и нормированных значений признаков, Элементы матрицы вычисляют по формуле:
; (7.2.1)
R– матрица парных корреляций:
R = (1/n)*Z’*Z. (7.2.2.)
Рис. 7.2.1 Схема математических преобразований
Если предварительная стандартизация данных не проводилась, то на данном шаге получают матрицу
S = (1/n)*X’*X, (7.2.3)
При этом элементы матрицы Xдля расчета будут центрированными величинами.
Опишем дальнейшие шаги вычислений для метода главных компонент и математический смысл полученных результатов.
Обозначим черезΛдиагональную матрицу собственных (характеристических) чисел.
(7.2.4.)
Множество решений λjнайдем из характеристического уравнения (7.2.5)
|R - λE| =0, (7.2.5)
здесь Λ - характеристики вариации, или показатели дисперсии каждой главной компоненты.
Суммарное значение Σλjравно сумме дисперсий элементарных признаковXj. При условии стандартизации исходных данных, эта сумма равна числу элементарных признаковm.
Решение характеристического уравнения относительно λ, когда число признаковmдостаточно велико и матрицаR большой размерности, вызывает трудности при расчете определителя|R|.Они успешно преодолеваются с применением различных методов матричной алгебры.
Наиболее эффективен и легко поддается алгоритмизации метод Фадеева, который базируется на рекуррентных соотношениях. Если А - некоторая симметрическая матрица размерностьюm x m, то её определитель находится по следу матриц, производных изА:
А1 = А | P1=trA1 | B1=A1- P1E
A2 = AB1 | P2=(1/)2trA2 | B2 =A2-P2E
……………… | ……………………... | ………………
| |
Am-1=ABm-1 | Pm-1= (1/(m-1)) trAm-1 | Bm-1 = Am-1 – Pm-1E
Am = ABm-1 | Pm = (1/m)trAm | Bm = Am- PmE, Bm=0
На заключительном этапе расчетов Pmесть определитель матрицыA(Pm= |A|). Для проверки вычислений используется условие:Bm = 0.
После вычислений рекуррентных соотношений записывается характеристический многочлен:
Pm (λ)= λm – P1λm-1 – P2λm-2 - …-Pm (7.2.6)
Приравняем характеристический многочлен к нулю и найдем корни λj этого уравнения.
Обозначим через Vматрицу нормированных собственных векторов. Число векторовVj первоначально равно m, т.е. j = 1, 2, 3, …, m.ПолучаютVj преобразованием ненормированных собственных векторовU:
Vj =Uj/|Uj| , (7.2.7)
где |Uj| - норма вектора U , т.е.|Uj| = (u1j2+u2j2+…+umj2)1/2
Необходимость повторного нормирования пространства обобщенных признаковRF объясняется механическим появлением в ходе расчетов результатов, искажающих нормированное пространство. В свою очередь собственные векторыUjнаходят из матричного уравнения:
(R- λE)U = 0 , (7.2.8.)
Реально это означает решение mсистем линейных уравнений для каждогоλjприj = 1..m. В общем виде система имеет вид:
(7.2.9)
Приведенная система объединяет однородные линейные уравнения, и так как число ее уравнений равно числу неизвестных, она имеет бесконечное множество решений. Конкретные значения собственных векторов при этом можно найти, задавая произвольно , по крайней мере, величину одной компоненты каждого вектора.
A– матрица факторного отображения, ее элементыarj– весовые коэффициенты. ВначалеAимеет размерностьm*m– по числу элементарных признаковXj, затем в анализе остаетсяr наиболее значимых компонент,r ≤ m. Вычисляют матрицуAпо известным данным матрицы собственных чиселΛи нормированных собственных векторовVпо формуле
A = VΛ1/2. (7.1.6)
F– матрица значений главных компонент размерностьюr*n,F = A-1Z’ илиF=λ-1A’Z’ илиF= Λ-1/2 V’Z’.
Эта матрица в общем виде записывается:
(7.2.10)