- •11. Многомерные методы экспериментальной оптимизации.
- •12. Симплекс-метод экспериментальной оптимизации. Последовательный симплексный метод Этот метод требует проведения минимально возможного числа опытов при определении направления движения.
- •13. Метод Бокса-Уилсона.
- •14. Анализ главных компонент. Вычислительная процедура.
- •15. Анализ главных компонент. Геометрическая интерпретация.
- •16. Модель и основная теорема факторного анализа.
- •17. Основные этапы факторного анализа
- •18. Меры близости и различия в кластерном анализе. Функции расстояния и сходства Неотрицательная вещественная функция называется функцией расстояния (метрикой), если:
- •19. Метод k-средних в кластерном анализе.
- •20. Иерархический кластерный анализ. Проблема индексации.
- •21. Графическое представление результатов кластерного анализа.
- •22. Многомерное шкалирование. Метрический и неметрический подходы.
- •23. Многомерное шкалирование. Теорема Янга-Хаусхолдера. Метрическое шкалирование в метрическом шкалировании укажем два метода: ординация Орлочи и метод главных проекций Торгерсона.
- •24. Ортогональные методы многомерного шкалирования.
- •25. Неметрическое шкалирование. Схема алгоритма Каскала.
- •26. Критерии качества шкалирования.
24. Ортогональные методы многомерного шкалирования.
В метрическом шкалировании укажем два метода: ординация Орлочи и метод главных проекций Торгерсона.
Ординация Орлочипредставляет собой сравнительно простой геометрический метод. По матрицеGвначале выбирают две наиболее различающиеся (удаленные) точки
(i,j = 1,2,…,N).
Прямая, проходящая через эти две точки, принимается за первую ось. Обозначим ее A1A2(рис.15).
Рис.15. Ординация Орлочи
Проекции (координаты) остальных точек на первую ось, как видно из рис. 15, составят .
Строится матрица расстояний по найденным координатам, которая сравнивается с матрицей различий. Если соответствие приемлемое, решение достигнуто; в противном случае необходимо искать вторую ось, проходящую через точку, наиболее удаленную от прямой .Очевидно, это точка, которая доставит максимум,j=3,4,…,N.
Координаты остальных точек – проекции на полученные оси – можно получить геометрическим построением либо аналитически. Однако повышение размерности приводит к сложностям получения оценок. К тому же решение оказывается излишне чувствительным к данным, поскольку оно определяется всего по нескольким точкам.
В методе главных проекций Торгерсона предполагается, что матрица G– матрица евклидовых расстояний между объектами, не содержащая ошибок. По матрицеGнеобходимо определить размерность пространства и проекции точек на его оси. Пусть– расстояния между точкамиi, j, k(рис.16).
Рис. 16. Графическая иллюстрация скалярного произведения
Вычислим симметричную матрицу Bi размерностиN×N с элементамиbjk , представляющими скалярное произведение векторов с началом в точкеiи концами в точкахj иk:.
Любая из N точек может быть взята в качествеi-й. Таким образом можно получитьN возможных матрицBi. Согласно теореме Янга-Хаусхолдера:
1. Если какая-либо Bi (i=1,2,…,n) является положительно полуопределенной (ППО), то различия между объектами можно рассматривать как расстояния между точками в вещественном евклидовом пространстве.
2. Ранг любой ППО матрицы соответствует размерности rмножества точек. (Напомним, то ранг ППО матрицы равен числу положительных собственных значений.)
3. Любую ППО матрицу можно факторизовать в виде Bi=XX′. ЭлементыХесть проекции точек-объектов наr ортогональных осей вr-мерном вещественном пространстве с центром в точкеi.
Для того чтобы уменьшить влияние возможных ошибок, начало координат помещают в центр тяжести всех объектов. Тогда координаты искомых (центрированных) точек будут иметь вид:
.
Матрица скалярных произведений новых переменных должна факторизоваться в виде. Подставляя сюда выражение для центрированных переменных и выражая координаты через расстояния можно получить, чтогде.
Легко видеть, что .
Матрицу называют матрицей сдвойным центрированием.Факторизация матрицыпроводится так же, как и в факторном анализе (см. п. 11.2).
25. Неметрическое шкалирование. Схема алгоритма Каскала.
Рассмотрим один из известных алгоритмов неметрического многомерного шкалирования, предложенный Дж. Краскалом. Пусть – оценки координат, гдеi– номер точки;k –номер координаты;– оценка расстояний по-метрике;–ранговые образы расстояний, иначеотклонения. Эти величины должны соответствовать, насколько это возможно, оценкам расстояний, но с сохранением условия монотонности:. (12.1)
Для оценки степени расхождения вводят меру соответствия (S-стресс):
либо , где– среднее арифметическое оцененных расстояний.
Наряду с S-стрессом используетсяSS-стресс, где в числителе оценки расстояний и отклонения заменены их квадратами.SS-стресс обеспечивает более быструю сходимость, если матрица различий симметрична.
Алгоритм Краскала состоит из пяти основных этапов:
1) формирование стартовой конфигурации, то есть получение начальных оценок координат (размерность пространства предполагается известной);
2) стандартизация расстояний и оценок координат;
3) неметрический этап, в ходе которого вычисляются отклонения;
4) метрический этап: перерасчет оценок координат;
5) подсчет меры соответствия.
Если мера улучшилась, то возвращаются к этапу 2; в противном случае работа алгоритма завершается.
Рассмотрим перечисленные этапы подробнее. Стартовая конфигурация строится по методу Торгерсона (ортогональное проектирование). Затем по координатам найденных точек вычисляется матрица расстояний с элементами .
На втором этапе в ходе первой итерации текущие расстояния и координаты – те, которые получены из стартовой конфигурации. Для всех итераций, кроме первой, в качестве текущего расстояния и оценок используются те, что были получены на метрическом этапе предыдущей итерации.
Стандартизация оценок расстояний и координат состоит в делении их на сумму квадратов . Очевидно, подобное преобразование делает сумму квадратов расстояний равной единице, что снижает вероятность получения вырожденного решения и упрощает вычисления, особенно при использованииS1-стресса, выражение для которого приобретает вид. (12.2)