Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ekzamen_bilety.doc
Скачиваний:
18
Добавлен:
04.06.2015
Размер:
4.05 Mб
Скачать

Функции расстояния и сходства Неотрицательная вещественная функция называется функцией расстояния (метрикой), если:

а) для всехииз;

б) лишь для;

в) ;

г) , где− любые три точки из(так называемое “правило треугольника”).

Значение функции dдля двух заданных точекэквивалентно расстоянию междуОiиОj.

В качестве примера функций расстояний приведем наиболее употребительные:

  1. евклидово расстояние ;

2) сумма абсолютных отклонений, называемая иногда метрикой города, ;

3) расстояние Махаланобиса ,

где – матрица, обратная матрице рассеяния (см. (9.3)) .

Расстояние Махаланобиса часто называют обобщенным евклидовым расстоянием; оно инвариантно относительно невырожденного линейного преобразования Υ=BХ, то есть.

Первые две метрики представляют частный случай так называемой -метрики:

.

Для -метрики справедливо соотношение для любыхтогда и только тогда, когда.

Обобщением lp-метрики является «взвешенная»lp-метрика,

где wi– некоторый неотрицательный «вес», пропорциональный степени важностиi-й компоненты при решении вопроса об отнесении объекта к тому или иному классу.

Расстояния между Nобъектами могут быть сведены в квадратную симметричнуюматрицу расстояний

. (9.2)

Понятием, противоположным расстоянию, является понятие сходства. Мерой сходства называют неотрицательную вещественную функцию, удовлетворяющую следующим аксиомам:

1) ;

2) ;

3) .

Значения функции сходства элементов множества Оможно объединить в матрицу сходства

.

Величину обычно называют коэффициентом сходства. Приведем в качестве примера функции сходства для объектов, описываемых дихотомическими признаками, т.е. такими, которые могут принимать значения нуль или единица. Для заданных точекиобозначим черезчисло совпадающих единичных (нулевых) координат, через– число координат, имеющих 1 ви 0 в, сходным образом определяется. Мерами сходства будут функции:

1) ; 2); 3).

Заметим, что подбирая подходящее преобразование, можно перейти от мер расстояния к мерам сходства.

Меры близости и расстояния могут задаваться также с помощью так называемых потенциальных функцийF(U,V) = f(d(U,V)),гдеUиV– любые две точки изЕn,d(U,V) – метрика. В качестве примера приведем две такие функции:F(U,V) = exp (ad2(U,V)), a>0;F(U,V) = (1 + ad2(U,V))-1.

Выбор той или иной метрики (или меры близости) является ответственным этапом кластерного анализа, оказывая существенное влияние на результаты разбиения объектов на классы. В каждой конкретной задаче этот выбор должен производиться с учетом целей исследования, физической и статистической природы наблюдений, полноты априорных сведений о характере распределения наблюдений. Приведем несколько рекомендаций по выбору метрики.

1. Если известно, что наблюдения извлекаются из нормальных генеральных совокупностей с одной и той же матрицей ковариаций, то целесообразно использовать расстояние Махаланобиса.

2. Использование обычного евклидова расстояния можно признать оправданным, если:

а) компоненты вектора наблюдений взаимно независимы и имеют одну и ту же дисперсию;

б) отдельные признаки однородны по физическому смыслу и одинаково важны с точки зрения задачи классификации;

в) пространство признаков совпадает с геометрическим пространством (n= 1, 2, 3).

В некоторых задачах связи между объектами вытекают из сущности самой задачи, требуется лишь «подкорректировать» их с тем, чтобы они удовлетворяли аксиомам мер расстояния или сходства. Примером может служить задача классификации с целью агрегирования отраслей народного хозяйства, решаемая на основе матрицы межотраслевого баланса.

Рассмотрим теперь меры близости между кластерами. Введение понятия расстояния между группами объектов оказывается целесообразным при конструировании многих процедур кластеризации. ПустьКii-й кластер, содержащийобъектов;– арифметическое среднее наблюдений, входящих вKi, т.е.– выбранная метрика.

Рассмотрим наиболее употребительные расстояния между кластерами:

1) расстояние, измеряемое по принципу ближайшего соседа (nearest neighbour)

;

2) расстояние, измеряемое по принципу дальнего соседа (furthest neighbour)

;

3) статистическоерасстояние между кластерами ;

4) расстояние, измеряемое по центрам тяжестикластеров.

Легко видеть, что пропорционально, если в качестве метрики используется евклидово расстояние;

5) мера близости, основанная на потенциальной функции F(Kl,Km) =

Иллюстрация трех приведенных мер представлена на рис. 8.

Рис.8. Примеры расстояний между кластерами

ЭКЗАМЕНАЦИОННЫЙ БИЛЕТ № 19

  1. Теоретические критерии планирования эксперимента.

Теоретические критерии планирования эксперимента.

Все многообразие критериев планирования эксперимента можно разбить на две большие группы. Первую составляют критерии, непосредственно учитывающие точностные свойства получаемых оценок. Среди них можно выделить критерии, связанные с точностью нахождения коэффициентов регрессии (критерии A- иD-оптимальности), и критерии, требующие максимальной точности оценки выходной переменной (критерийG-оптимальности).

Смысл перечисленных критериев можно пояснить, используя понятие эллипсоида рассеяния случайного вектора. Для случайного вектора аразмерности, ковариационная матрица которого естьcov a, эллипсоид рассеяния задается выражением ,

описывающим эллипсоид в -мерном пространстве с центром в точкеМа. Эта геометрическая фигура имеет такие размеры, что ковариационная матрица случайного вектора, равномерно распределенного в пределах эллипсоида, совпадает с матрицейcov a. Следовательно, чем больше рассеяние вектора относительно его математического ожидания, тем большие размеры имеет эллипсоид рассеяния.

Критерий А-оптимальности Поскольку точностной характеристикой вектора коэффициентов регрессии является ковариационная матрица, а критерии планирования желательно иметь в скалярной форме, то необходима некоторая свертка ковариационной матрицы. Критерий A-оптимальности в качестве такой свертки использует след матрицы. Поскольку диагональные элементы матрицыСпропорциональны дисперсии оценок коэффициентов регрессии, то при минимизации следа матрицыСминимизируется, по сути дела, суммарная либо средняя дисперсия оценок коэффициентов модели: .

Известно, что сумма диагональных элементов матрицы равняется сумме её собственных значений. Поскольку квадраты длины осей эллипсоида рассеяния пропорциональны собственным значениям ковариационной матрицы, то критерий A-оптимальности требует минимизации диагонали параллелепипеда, описанного у эллипсоида рассеяния.

Критерий D-оптимальности КритерийD-оптимальности требует такого расположения точек в области планирования, при котором определитель матрицыимеет минимальную величину. Иными словами, планD-оптимален, если .

Известно, что объем эллипсоида рассеяния пропорционален корню из величины определителя ковариационной матрицы, т.е.. С учетом (3.8)V.

Чем меньше величина определителя, тем меньше, как правило, разброс оценок коэффициентов относительно их математических ожиданий. Исключением является случай, когда эллипсоид рассеяния имеет сильно вытянутую форму.

Критерий G-оптимальности ПланG-оптимален, если он обеспечивает наименьшую величину максимальной дисперсии оценки зависимой переменной:.

  1. Концепция «простой структуры в факторном анализе.

ЭКЗАМЕНАЦИОННЫЙ БИЛЕТ № 20

  1. Совместность оценок дробного факторного эксперимента.

Совместность оценок дробного факторного эксперимента.

Дробный факторный эксперимент (ДФЭ) Из-за показательного роста числа экспериментов с увеличением размерности пространстваПФП оказываются практически неприемлемыми при больших. Однако из матрицы ПФПможет быть отобрана некоторая часть, называемаядробным факторнымпланом(ДФП), которая сохраняет свойство ортогональности. Правило построения ДФП состоит в следующем. Задается порядок дробности. Извходных переменных отбираютn-p переменных (их называют основными), и для них строят полный факторный план. Этот план затем дополняютстолбцами, соответствующими оставшимся переменным. Для определения способа образования этих столбцов вводится понятиегенератора(генерирующего соотношения) плана. Генератор представляет собой произведение граничных значений () основных переменных, определяющее граничные значения элементов каждого из дополнительныхстолбцов матрицы плана. Так, для построения линейной модели от трех переменныхможно воспользоваться ДФП типас генератором:

Чем выше размерность пространства , тем большее число генераторов плана можно предложить. Целесообразно выбирать такие из них, которые соответствуют незначимым взаимодействиям. Действительно, в состав базисных функций входят и левая и правая части генератора и, поскольку от эксперимента к эксперименту они меняются одинаковым образом, различить эффекты, соответствующие частям генератора, не представляется возможным. Так, если в качестве генератора выбрано соотношение, то получить раздельные оценки дляинельзя. Соответствующий ДФП позволяет оценить лишь суммарное воздействие линейного фактораи тройного взаимодействия. Подобные оценки называютсмешанными. Однако, если взаимодействие незначимо, т.е. , тобудет практически несмешанной оценкой. Для определения порядка смешивания вводят понятие контраста плана. Контраст – это генерирующее соотношение, задающее элементы столбца свободного члена матрицы . (Со свободным членом уравнения регрессии связывается фиктивная переменная, тождественно равная единице.) Контраст получают из генерирующего соотношения умножением на переменную, стоящую слева от знака равенства. Для ДФП с генераторомконтраст есть, так как. Чтобы определить, с какими переменными или взаимодействиями смешана оценка некоторой данной переменной, необходимо умножить обе части контраста на эту переменную. При этом получают порядок смешивания оценок коэффициентов при использовании данного плана.

Пусть, к примеру, исследуется объект из трех переменных полная модель которого есть

(В выражении (6.3) и далее случайное возмущение опускается.) В ходе исследования было решено ограничиться линейным (по переменным) описанием

, (6.4)

что дало основание воспользоваться ДФЭ с генераторомс определяющим контрастом. Порядок смешивания для переменныхследующий:,,. (6.5)

С учетом (6.5) сгруппируем подобные члены в модели (6.3): . (6.6)

Сравнивая (6.6) и (6.4) , видим, что при оценивании линейной модели (6.4) получаются не чистые оценки свободного члена и линейных эффектов а оценки комбинаций, включающих двойные и тройные (для свободного члена) эффекты: .

Таким образом, платой за сокращение числа экспериментов стала совместность оценок. Если же поставить дополнительно четыре эксперимента с генератором , то получим оценки

.

Восемь оценок дают возможность получить раздельные оценки эффектов. Так, есть оценка , а – оценка и так далее. Это и понятно, поскольку две серии экспериментов с генераторами идают вкупе полный факторный эксперимент, который обеспечивает раздельное оценивание коэффициентов.

В отсутствии априорной информации о значимости взаимодействий предпочтение отдается генераторам, отвечающим взаимодействиям высокого порядка, поскольку коэффициенты регрессии при них по абсолютной величине, как правило, меньше.

К достоинствам факторных планов следует отнести их хорошие точностные свойства. Легко доказать, что они являются D-, G-, A- оптимальными. К примеру, у ПФП , используемого для оценки коэффициентов модели вида , матрица плана X и матрица значений базисных функций F имеют вид:

, .

Отсюда , а. Левая часть выражения (6.2)примет вид , поскольку. Максимумэтой формы достигается в вершинах квадрата: ,и равняется четырем. Число оцениваемых коэффициентов (k+1) также четыре. Следовательно, условие (6.2) выполняется.

  1. Многомерное шкалирование. Метрический подход.

Многомерное шкалирование. Метрический и неметрический подходы.

Кроме таблиц «объект-признак» источником данных могут служить таблицы «объект-объект», содержащие данные о связях объектов. Математический образ подобных таблиц – квадратная матрица, элемент которой на пересечении i-й строки иj-го столбца содержит сведения о попарном сходстве либо различии анализируемых объектов. Задача состоит в том, чтобы представить эти объекты в виде точек некоторого координатного пространства невысокой размерности. При этом связи объектов должны быть переданы расстояниями между точками. Такая простая геометрическая модель приводит к содержательно интерпретируемому решению: каждая ось порождаемого пространства является одномерной шкалой и соответствует некому латентному признаку. Тем самым объекты наделяются признаками, интерпретация которых связывается с расположением объектов в искомом пространстве.

Формальная постановка задачи шкалирования

Дана симметричная матрица различий между объектами .

Требуется построить пространство возможно меньшей размерности rи найти в нем координаты точек-объектов

так, чтобы матрица расстояний

между ними, вычисленная по введенной на Хметрике, была, в смысле некоторого критерия, близка к исходной матрицеGпопарных различий.

При решении поставленной задачи возможны два подхода: метрический, при котором матрица различийGизначально является искомой матрицей расстоянийD, инеметрический (монотонный, ранговый), ориентированный на сохранение того же порядка попарных расстояний, что и в исходной матрице различий: .

Неметрический этап

На этом этапе данные о различиях и стандартизированные оценки расстояний из предыдущей итерации используются для вычисления отклонений.

Этап состоит из нескольких шагов.

1. Упорядочить по возрастанию данные о различиях по исходной матрице G. Получившийся порядок пар объектов задает и порядок оценок расстояний или отклонений.

2. Серия проходов: в начале первого прохода на конкретной итерации отклонениями являются текущие оценки расстояний из предыдущей итерации или стартовой конфигурации. В начале каждого последующего прохода на той же итерации отклонения берутся из предыдущего прохода. Проход начинается с разбиения оценок отклонений на блоки равных значений. Пусть m=(1,...,M) будет индексом, обозначающим блоки от самого верхнего (m=1) до самого низкого (m=M). Начиная сm=1, элементыm-го блока сравниваются с элементами (m+1)-го блока. Если элементыm-го блока меньше элементов (m+1)-го блока, необходимо перейти к сравнению двух следующих блоков. Как только элементыm-го блока окажутся больше элементов (m+1)-го блока, то все элементыm-го и (m+1)-го блоков приравниваются среднему арифметическому обоих блоков. Эти два блока объединяют в один, который становится новымm-ым блоком. Затем опять сравниваютm-й и (m+1)-й блоки; проход заканчивается после сравнения всех соседних блоков. Результат прохода – новый набор оценок отклонений. После завершения проходов отклонения будут удовлетворять условию монотонности (12.1). Пример работы алгоритма дается в табл.27.

Таблица 27

п/п

Различие

До объединения

После 1-го

прохода

После 2-го

прохода

Откло- нение

Блок

Откло-нение

Блок

Откло-нение

Блок

1

2

3

4

5

6

7

8

1

0,19

0,11

1

0,11

1

0,11

1

2

0,22

0,12

2

0,12

2

0,12

2

3

0,23

0,16

3

0,15

3

0,15

3

4

0,25

0,14

4

0,15

3

0,15

3

Продолжение табл.27

п/п

Различие

До объединения

После 1-го

прохода

После 2-го

прохода

Откло- нение

Блок

Откло-нение

Блок

Откло- нение

Блок

5

0,26

0.21

5

0.21

4

0.21

4

6

0,27

0,23

6

0,23

5

0,23

5

7

0,28

0,25

7

0,25

6

0,24

6

8

0,29

0,23

8

0,23

7

0,24

6

9

0,32

0.27

9

0.27

8

0,27

7

В столбце 3 нет подряд идущих одинаковых чисел, так что каждая строка образует блок. Просматривая этот столбец сверху вниз, обнаруживаем, что в строках 3 и 4 имеет место инверсия (нарушение монотонности –– 0,16>0,14). Блоки 3 и 4 объединяются в один со значением (0,16+0,14)/2=0,15. Просматривая теперь столбец 5, убеждаемся в необходимости слияния блоков 6 и 7. Как видно из 7-го столбца нарушений условия монотонности не осталось, что позволяет считать элементы столбца 7 искомыми отклонениями.

Метрический этап

На этом этапе решают задачу математического программирования, в результате чего получают новые оценки координат, по которым рассчитывают новые оценки расстояний. Исходными данными являются отклонения, рассчитанные на неметрическом этапе, оценки координат и расстояний предыдущей итерации. В качестве целевой функции выступает S1(12.2).

Минимизация S1проводится одним из градиентных методов.

ЭКЗАМЕНАЦИОННЫЙ БИЛЕТ № 21

  1. D-оптимальные планы на отрезке.

Критерий D-оптимальности КритерийD-оптимальности требует такого расположения точек в области планирования, при котором определитель матрицыимеет минимальную величину. Иными словами, планD-оптимален, если .

Известно, что объем эллипсоида рассеяния пропорционален корню из величины определителя ковариационной матрицы, т.е.. С учетом (3.8)V.

Чем меньше величина определителя, тем меньше, как правило, разброс оценок коэффициентов относительно их математических ожиданий. Исключением является случай, когда эллипсоид рассеяния имеет сильно вытянутую форму.

  1. Графическое представление результатов кластерного анализа.

Графическое представление результатов кластерного анализа.

Иерархическая классификация, как уже отмечалось, допускает наглядную интерпретацию. Для того чтобы привязать граф иерархии или дендрограмму к системе прямоугольных координат, введем понятие индексации. Индексациейиерархии называется отображение:hR1, ставящее в соответствие множествуKhчисло (K)R1таким образом, что

  1.  (K) = 0 для одноэлементных множествK, т.е.K= 1;

  2.  (K´) < (K) для каждой пары (K´,K) такой, чтоK´K, K´≠  K.

Индексация иерархии позволяет алгоритмизировать процесс построения дендрограммы. Пусть (h,ν) – некоторая индексированная иерархияhна множествеО= {O1, O2, …,ON}. Вершины графа иерархии, отвечающие одноэлементным множествам {Oi},i = 1,2, …, N, обозначим черезνi, а вершины, соответствующиеК(К> 1), обозначимνК. Введем систему координат с осью абсциссхи осью ординатη.Вначале на осихчерез равные интервалыразмещаются вершины, то есть представляются в виде точек с координатами= (i, 0). Предположим далее, что вершины иуже нанесены на плоскость в виде точек с координатамии. Тогда кластерK = KiKjможет быть представлен точкой с координатамис последующим соединением ее с точкамии. Напомним, чтоη К > max(,) согласно п.2 определения индексации, так что вершинаvКрасположится выше вершини. Заметим, что построенная таким образом дендрограмма может содержать нежелательные пересечения ребер, поэтому вершины переупорядочиваются так, чтобы ребра соединялись только в вершинах. На рис.9 представлены дендрограммы иерархии с пересечением и без. Заметим также, что традиционно ребра диаграммы изображают в виде вертикальных и горизонтальных отрезков, как на дендрограмме без пересечений (рис.9,б).

а) б)

Рис.9. Дендрограммы иерархии примера из п.9.5.1:

а − с пересечением ребер; б − без пересечения ребер

Способы задания индекса νмогут быть разные. Весьма распространена индексация, ставящая в соответствие множествуKhномер шага, на котором это множество было включено в иерархию. В качестве альтернативы индексом может выступать мощность множества, точнееν=K– 1.

Информативность дендрограммы существенно возрастает, если в качестве ординаты кластера K, полученного объединением кластеровKiиKj, т.е.K = KiKj,выступает расстояние между кластерамиd(Ki, Kj). Такое изображение называютоцифрованным.

Одна из проблем иерархического кластерного анализа – определить, какие метрики позволяют провести оцифрование, удовлетворяющее условиям индексации, или иначе, найти индексацию, такую что ν(КiКj) = d(Кij). Так, для евклидовой метрики ответ на этот вопрос – отрицательный, что можно проиллюстрировать следующим примером. Пусть пять двумерных объектов, подлежащих кластеризации, образуют конфигурацию, представленную на рис.10,а.

а)

б)

Рис.10. Пример инверсии для евклидовой метрики:

а − исходная конфигурация; б − инверсия

На первом шаге агломеративной процедуры получаем кластер К1=.{О1, О2} c координатами центра тяжестиZ(К1) = (1,5;1). Для кластераК1, полученного объединениемодноэлементных кластеров {O1} и {O2}, d(О1, О2)= 1. Ближайшим кК1окажется объектО3(точнее одноэлементный кластерК2={O3}) с координатами центра тяжестиv(К2)= (1,5; ). На следующем шаге алгоритма образуется, очевидно, кластерК31К2сd(К1, К2) = (1 )2, поскольку расстояние между кластерами измеряется по центрам тяжести (квадрат евклидова расстояния). Выходит для кластераК3потенциальный индекс, равный расстоянию (1)2, оказывается меньше по сравнению с индексомК1, равным 1. Налицо инверсия, поскольку нарушено требование 2, предъявляемое к индексам:К1К3 ν(К1) < ν(К3) (см. рис.10, б).

Достаточные условия, когда оцифрование является и индексацией, содержатся в теореме Миллигана. Эта теорема опирается на рекуррентную формулу Жамбю, которая позволяет пересчитывать расстояния между имеющимся кластером Ки вновь образованнымK=KiKj (KKi, KKj), используя расстояния и индексы, полученные на предыдущих шагах:d(K, K) = a1d(K,Ki)+a2d(K,Kj)+a3d(Ki,Kj)+a4ν(K)+

+a5ν(Ki)+a6ν(Kj)+a7d(K, Ki)–d(K,Kj),

где ai– числовые коэффициенты, зависящие от метода определения расстояния между кластерами. Так, при

а12=–а7=1/2 и а3456=0

приходим к расстоянию, измеренному по принципу «ближайшего соседа», а при

а127=1/2 и а3456=0«дальнего соседа».

Теорема Миллигана.Пустьh– иерархия наО, полученная с использованием метрикиd(К12), для которой справедлива формула Жамбю. Тогда, еслиа1231, аj 0 для j=1,2,4,5,6 и а7min (а12),

то отображение , задаваемое формулой(К1К2) = =d(К12) и условиемν({Оi})=0,i=1,2, …,N, является индексацией.

В заключение отметим, что если рассечь дендрограмму горизонтальной линией на некотором уровне *, получаем ряд непересекающихся кластеров, число которых равно количеству «перерезанных» линий (ребер) дендрограммы; состав кластера определяется терминальными вершинами, связанными с данным «перерезанным» ребром.

ЭКЗАМЕНАЦИОННЫЙ БИЛЕТ № 22

  1. Симплекс-метод экспериментальной оптимизации.

Симплекс-метод экспериментальной оптимизации.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]