- •Министерство образования росссийской федерации
- •Организационно-методические указания
- •Лабораторная работа №1 Принятие решений на основе попарного сравнения альтернатив Цель работы
- •Краткая характеристика иллюстративного примера.
- •Описание иллюстративного кейса
- •Сводная информация по маркам пива
- •Усредненная матрица различий между сортами
- •Этапы выполнения лабораторной работы
- •Порядок выполнения расчетов методом многомерного шкалирования в ппп Statistica .
- •Оформление отчета по проделанной работе включат в себя
- •Лабораторная работа №2
- •Этап 2. Проверка допущений о независимости по полезности.
- •Теперь вернемся к выражению (14) и осуществим замену с равенствами 16-18. В результате выполненных операций получим итоговый вид двухфакторной функции для случая односторонней независимости zотy
- •Для случая независимости фактора у от z, следует осуществить эквивалентные выкладки.
- •Приложение 1. Краткое описание метода многомерного шкалирования.
- •Список литературы
Приложение 1. Краткое описание метода многомерного шкалирования.
Логика многомерного шкалирования
В общем случае метод МНШ позволяет таким образом расположить "объекты" в пространстве некоторой небольшой размерности (в данном случае она равна двум), чтобы достаточно адекватно воспроизвести наблюдаемые расстояния между ними. В результате эти расстояния измеряются в терминах найденных латентных переменных.
На входе всех алгоритмов МНШ используется матрица, элемент которой на пересечении ее i-й строки и j-го столбца, содержит сведения о попарном сходстве анализируемых объектов (объекта [i] и объекта [j]). На выходе алгоритма МНШ получаются числовые значения координат, которые приписываются каждому объекту в некоторой новой системе координат (во «вспомогательных шкалах», связанных с латентными переменными, откуда и название МНШ), причем размерность нового пространства признаков существенно меньше размерности исходного.
Ориентация осей координат.
Ориентация осей может быть выбрана произвольной и является, в большей степени результатом содержательного решения в конкретной предметной области (т.е. решением ЛПР, который выберет такую ориентацию осей, которую легче всего интерпретировать).
Вычислительные методы
МНШ размещает объекты в пространстве заданной размерности и проверяет, насколько точно полученная конфигурация сохраняет расстояния между объектами. В общем случае МНШ использует алгоритм минимизации некоторой функции, оценивающей качество получаемых вариантов отображения.
Меры качества отображения.
Мерой, оценивающей качество подгонки модели (отображения), измеряемого по степени воспроизведения исходной матрицы сходств, является так называемый стресс. Величина стрессаSдля текущей конфигурации определяется так:
S= [dij - f (ij)]2, где
dij - воспроизведенные расстояния в пространстве заданной размерности, а fij (дельтаij) - исходное расстояние. Функция f(ij) обозначает неметрическое монотонное преобразование исходных данных (расстояний). Таким образом, МНШ воспроизводит не количественные меры сходств объектов, а лишь их относительный порядок (поэтому в качестве шкалы измерения берется порядковая шкала).
Обычно используется одна из несколько похожих мер сходства. Наиболее широко распространенным методом определения «эффективной» размерности р в настоящее время является использование стресс-функции (понятие введено Крускалом в 1964 г.). Стресс-функция используется одновременно для двух целей:
как показатель качества «подгонки» получившейся модели к исходным данным;
как параметр, помогающий определить оптимальную размерность р: построив график в координатах «размерность-стресс», можно однозначно определить оптимальную размерность р. Если на оси абсцисс расположить размерность пространства, а на оси ординат – значения стресса (график при этом будет иметь отрицательный наклон, т.к. чем больше размерность, тем точнее отображение и тем меньше стресс), то ближайшее целое слева значение проекции точки изгиба (скачка) графика зависимости стресса от размерности, спроецированная на ось абсцисс и будет оптимальной размерностью.
Наиболее простым, является показатель стресса следующего вида:
,
где zi и zj обозначают точки размещения объектов 1...N в новом пространстве размерности р.
Более совершенной и самой распространенной модификацией, не зависящей от масштаба расстояний, является следующий вид стресса:
.
Итак, кратко суммируя вышеописанный алгоритм, можно сказать, что целью применения многомерного шкалирования является размещение N объектов в пространстве размерности р в точках z1... z N так, чтобы определенные наперед попарные отличия объектов dij хорошо апроксимировались расстояниями zi - zj
Тем не менее, большинство из них сводится к вычислению суммы квадратов отклонений наблюдаемых расстояний (либо их некоторого монотонного преобразования) от воспроизведенных расстояний.
Поскольку критерий направлен минимум, чем меньше значение стресса, тем лучше матрица исходных расстояний согласуется с матрицей результирующих расстояний.
Диаграмма Шепарда.
Для построения зависимости воспроизведенных расстояния от исходных расстояний для текущей конфигурации точек используется диаграмма рассеяния, получившая название диаграммы Шепарда. По оси ординат OY показываются воспроизведенные расстояния (сходства), полученные из матрицы различий, а по оси OX откладываются истинные сходства (расстояния) между объектами (отсюда обычно получается отрицательный наклон). На этом график также строится график ступенчатой функции. Ее линия представляет так называемые величиныd- с крышечкой (d-hat), то есть, результат монотонного преобразования f() исходных данных (в отличии от предыдущей ломанной, где монотонному преобразованию подвергаются только величины воспроизведенных расстояний (сходств)). Если бы все результирующие расстояния легли на эту ступенчатую линию, текущая конфигурация была бы в точности воспроизведена полученным решением (пространственной моделью). Отклонения от этой линии как раз показывают на ухудшение качества согласия (т.е. качества подгонки модели).
Критерий "каменистой осыпи".
Обычно, для выбора размерности пространства, в котором будет воспроизводиться наблюдаемая матрица, используют график зависимости стресса от размерности (график каменистой осыпи). Этот критерий впервые был предложен Кэттелом (Cattell (1966)) в контексте решения задачи снижения размерности в факторном анализе; Краскал и Виш (Kruskal and Wish (1978; стр. 53-60)) обсуждали применение этого графика в методе МНШ.
Кэттел предложил найти такую абсциссу на ломаной, в которой график стресса начинает визуально сглаживаться в направлении правой, пологой его части, и, таким образом, уменьшение стресса максимально замедляется. Образно говоря, линия на рисунке напоминает скалистый обрыв, а черные точки на графике напоминают камни, которые ранее упали вниз. Таким образом, внизу наблюдается как бы каменистая осыпь из таких точек.
Интерпретируемость конфигурации.
Вторым критерием для решения вопроса о размерности с целью интерпретации является "ясность" полученной конфигурации точек. Иногда, результирующие координаты легко интерпретируются. В других случаях, точки на графике могут образовывать ту или иную разновидность "случайного облака", и не существует непосредственного способа для интерпретации латентных переменных. В последнем случае следует постараться немного увеличить число координатных осей и рассмотреть получаемые в результате конфигурации. Чаще всего, получаемые решения проще удается проинтерпретировать. Однако если точки на графике не следуют какому-либо образцу, а также если график стресса не показывает какого-либо явного "изгиба" (и не похож на "край обрыва"), то данные, скорее всего, являются случайным "шумом".
Интерпретация осей координат
Интерпретация осей обычно представляет собой заключительный этап анализа по методу многомерного шкалирования. Как уже упоминалось ранее, в принципе, ориентация осей в методе МНШ может быть произвольной, и систему координат можно повернуть в любом направлении. Поэтому на первом шаге получают диаграмму рассеяния точек, соответствующих объектам, на различных плоскостях. Заметим, что в дополнение к существенным осям координат, также следует искать кластеры точек, а также те или иные конфигурации точек (окружности, многообразия и др.).
