Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Национальный исследовательский ядерный университет (МИФИ)

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Ekzamen_bilety.doc

Скачиваний:

Добавлен:

04.06.2015

Размер:

4.05 Mб

Скачать

☆

<<< < Предыдущая 12 / 82 3 4 5 6 7 8 > Следующая >>>

Функции расстояния и сходства Неотрицательная вещественная функция называется функцией расстояния (метрикой), если:

а) для всехииз;

б) лишь для;

в) ;

г) , где− любые три точки из(так называемое “правило треугольника”).

Значение функции dдля двух заданных точекэквивалентно расстоянию междуОⁱиО^j.

В качестве примера функций расстояний приведем наиболее употребительные:

евклидово расстояние ;

2) сумма абсолютных отклонений, называемая иногда метрикой города, ;

3) расстояние Махаланобиса ,

где – матрица, обратная матрице рассеяния (см. (9.3)) .

Расстояние Махаланобиса часто называют обобщенным евклидовым расстоянием; оно инвариантно относительно невырожденного линейного преобразования Υ=BХ, то есть.

Первые две метрики представляют частный случай так называемой -метрики:

Для -метрики справедливо соотношение для любыхтогда и только тогда, когда.

Обобщением l_p-метрики является «взвешенная»l_p-метрика,

где w_i– некоторый неотрицательный «вес», пропорциональный степени важностиi-й компоненты при решении вопроса об отнесении объекта к тому или иному классу.

Расстояния между Nобъектами могут быть сведены в квадратную симметричнуюматрицу расстояний

. (9.2)

Понятием, противоположным расстоянию, является понятие сходства. Мерой сходства называют неотрицательную вещественную функцию, удовлетворяющую следующим аксиомам:

1) ;

2) ;

3) .

Значения функции сходства элементов множества Оможно объединить в матрицу сходства

Величину обычно называют коэффициентом сходства. Приведем в качестве примера функции сходства для объектов, описываемых дихотомическими признаками, т.е. такими, которые могут принимать значения нуль или единица. Для заданных точекиобозначим черезчисло совпадающих единичных (нулевых) координат, через– число координат, имеющих 1 ви 0 в, сходным образом определяется. Мерами сходства будут функции:

1) ; 2); 3).

Заметим, что подбирая подходящее преобразование, можно перейти от мер расстояния к мерам сходства.

Меры близости и расстояния могут задаваться также с помощью так называемых потенциальных функцийF(U,V) = f(d(U,V)),гдеUиV– любые две точки изЕ_n,d(U,V) – метрика. В качестве примера приведем две такие функции:F(U,V) = exp (– ad²(U,V)), a>0;F(U,V) = (1 + ad²(U,V))^-¹.

Выбор той или иной метрики (или меры близости) является ответственным этапом кластерного анализа, оказывая существенное влияние на результаты разбиения объектов на классы. В каждой конкретной задаче этот выбор должен производиться с учетом целей исследования, физической и статистической природы наблюдений, полноты априорных сведений о характере распределения наблюдений. Приведем несколько рекомендаций по выбору метрики.

1. Если известно, что наблюдения извлекаются из нормальных генеральных совокупностей с одной и той же матрицей ковариаций, то целесообразно использовать расстояние Махаланобиса.

2. Использование обычного евклидова расстояния можно признать оправданным, если:

а) компоненты вектора наблюдений взаимно независимы и имеют одну и ту же дисперсию;

б) отдельные признаки однородны по физическому смыслу и одинаково важны с точки зрения задачи классификации;

в) пространство признаков совпадает с геометрическим пространством (n= 1, 2, 3).

В некоторых задачах связи между объектами вытекают из сущности самой задачи, требуется лишь «подкорректировать» их с тем, чтобы они удовлетворяли аксиомам мер расстояния или сходства. Примером может служить задача классификации с целью агрегирования отраслей народного хозяйства, решаемая на основе матрицы межотраслевого баланса.

Рассмотрим теперь меры близости между кластерами. Введение понятия расстояния между группами объектов оказывается целесообразным при конструировании многих процедур кластеризации. ПустьК_i–i-й кластер, содержащийобъектов;– арифметическое среднее наблюдений, входящих вK_i, т.е.– выбранная метрика.

Рассмотрим наиболее употребительные расстояния между кластерами:

1) расстояние, измеряемое по принципу ближайшего соседа (nearest neighbour)

;

2) расстояние, измеряемое по принципу дальнего соседа (furthest neighbour)

;

3) статистическоерасстояние между кластерами ;

4) расстояние, измеряемое по центрам тяжестикластеров.

Легко видеть, что пропорционально, если в качестве метрики используется евклидово расстояние;

5) мера близости, основанная на потенциальной функции F(K_l,K_m) =

Иллюстрация трех приведенных мер представлена на рис. 8.

Рис.8. Примеры расстояний между кластерами

ЭКЗАМЕНАЦИОННЫЙ БИЛЕТ № 7

Совместность оценок дробного факторного эксперимента.

Совместность оценок дробного факторного эксперимента.

Дробный факторный эксперимент (ДФЭ) Из-за показательного роста числа экспериментов с увеличением размерности пространстваПФП оказываются практически неприемлемыми при больших. Однако из матрицы ПФПможет быть отобрана некоторая часть, называемаядробным факторнымпланом(ДФП), которая сохраняет свойство ортогональности. Правило построения ДФП состоит в следующем. Задается порядок дробности. Извходных переменных отбираютn-p переменных (их называют основными), и для них строят полный факторный план. Этот план затем дополняютстолбцами, соответствующими оставшимся переменным. Для определения способа образования этих столбцов вводится понятиегенератора(генерирующего соотношения) плана. Генератор представляет собой произведение граничных значений () основных переменных, определяющее граничные значения элементов каждого из дополнительныхстолбцов матрицы плана. Так, для построения линейной модели от трех переменныхможно воспользоваться ДФП типас генератором:

Чем выше размерность пространства , тем большее число генераторов плана можно предложить. Целесообразно выбирать такие из них, которые соответствуют незначимым взаимодействиям. Действительно, в состав базисных функций входят и левая и правая части генератора и, поскольку от эксперимента к эксперименту они меняются одинаковым образом, различить эффекты, соответствующие частям генератора, не представляется возможным. Так, если в качестве генератора выбрано соотношение, то получить раздельные оценки дляинельзя. Соответствующий ДФП позволяет оценить лишь суммарное воздействие линейного фактораи тройного взаимодействия. Подобные оценки называютсмешанными. Однако, если взаимодействие незначимо, т.е. , тобудет практически несмешанной оценкой. Для определения порядка смешивания вводят понятие контраста плана. Контраст – это генерирующее соотношение, задающее элементы столбца свободного члена матрицы . (Со свободным членом уравнения регрессии связывается фиктивная переменная, тождественно равная единице.) Контраст получают из генерирующего соотношения умножением на переменную, стоящую слева от знака равенства. Для ДФП с генераторомконтраст есть, так как. Чтобы определить, с какими переменными или взаимодействиями смешана оценка некоторой данной переменной, необходимо умножить обе части контраста на эту переменную. При этом получают порядок смешивания оценок коэффициентов при использовании данного плана.

Пусть, к примеру, исследуется объект из трех переменных полная модель которого есть

(В выражении (6.3) и далее случайное возмущение опускается.) В ходе исследования было решено ограничиться линейным (по переменным) описанием

, (6.4)

что дало основание воспользоваться ДФЭ с генераторомс определяющим контрастом. Порядок смешивания для переменныхследующий:,,. (6.5)

С учетом (6.5) сгруппируем подобные члены в модели (6.3): . (6.6)

Сравнивая (6.6) и (6.4) , видим, что при оценивании линейной модели (6.4) получаются не чистые оценки свободного члена и линейных эффектов а оценки комбинаций, включающих двойные и тройные (для свободного члена) эффекты: .

Таким образом, платой за сокращение числа экспериментов стала совместность оценок. Если же поставить дополнительно четыре эксперимента с генератором , то получим оценки

Восемь оценок дают возможность получить раздельные оценки эффектов. Так, есть оценка , а – оценка и так далее. Это и понятно, поскольку две серии экспериментов с генераторами идают вкупе полный факторный эксперимент, который обеспечивает раздельное оценивание коэффициентов.

В отсутствии априорной информации о значимости взаимодействий предпочтение отдается генераторам, отвечающим взаимодействиям высокого порядка, поскольку коэффициенты регрессии при них по абсолютной величине, как правило, меньше.

К достоинствам факторных планов следует отнести их хорошие точностные свойства. Легко доказать, что они являются D-, G-, A- оптимальными. К примеру, у ПФП , используемого для оценки коэффициентов модели вида , матрица плана X и матрица значений базисных функций F имеют вид:

, .

Отсюда , а. Левая часть выражения (6.2)примет вид , поскольку. Максимумэтой формы достигается в вершинах квадрата: ,и равняется четырем. Число оцениваемых коэффициентов (k+1) также четыре. Следовательно, условие (6.2) выполняется.

Алгоритм k-средних.

Метод k-средних в кластерном анализе.

Задача кластерного анализа носит комбинаторный характер. Прямой способ решения такой задачи заключается в полном переборе всех возможных разбиений на кластеры и выбора разбиения, обеспечивающего экстремальное значение функционала. Такой способ решения называют кластеризацией полным перебором. Аналогом кластерной проблемы комбинаторной математики является задача разбиения множества из nобъектов наmподмножеств. Число таких разбиений обозначается черезS(n,m) и называется числом Стирлинга второго рода. Эти числа подчиняются рекуррентному соотношению:.

При больших n.

Из этих оценок видно, что кластеризация полным перебором возможна в тех случаях, когда число объектов и кластеров невелико.

К решению задачи кластерного анализа могут быть применены методы математического программирования, в частности динамического программирования. Хотя эти методы, как и полный перебор, приводят к оптимальному решению в классе всех разбиений, для задач практической размерности они не используются, поскольку требуют значительных вычислительных ресурсов. Ниже рассматриваются алгоритмы кластеризации, которые обеспечивают получение оптимального решения в классе, меньшем класса всех возможных разбиений. Получающееся локально-оптимальное решение не обязательно будет оптимальным в классе всех разбиений.

Наиболее широкое применение получили алгоритмы последовательной кластеризации. В этих алгоритмах производится последовательный выбор точек-наблюдений и для каждой из них решается вопрос, к какому из mкластеров ее отнести. Эти алгоритмы не требуют памяти для хранения матрицы расстояний для всех пар объектов.

Остановимся на наиболее известной и изученной последовательной кластер-процедуре – методе k-средних (k-means). Особенность этого алгоритма в том, что он носит двухэтапный характер: на первом этапе в пространствеЕ_nищутся точки – центры клacтеров, а затем уже наблюдения распределяются по тем кластерам, к центрам которых они тяготеют. Алгоритм работает в предположении, что числоmкластеров известно. Первый этап начинается с отбораmобъектов, которые принимаются в качестве нулевого приближения центров кластеризации. Это могут быть первые mиз списка объектов, случайно отобранные m объектов, либоmпопарно наиболее удаленных объектов.

Каждому центру приписывается единичный вес. На первом шаге алгоритма извлекается первая из оставшихся точек (пометим ее как) и выясняется, к какому из центров она оказалась ближе всего в смысле выбранной метрикиd. Этот центр заменяется новым, определяемым как взвешенная комбинация старого центра и новой точки. Вес центра увеличивается на единицу. Обозначим черезn-мерный вектор координатi-го центра на-м шаге , а через– вес этого центра. Пересчет координат центров и весов на-м шаге при извлечении очередной точки осуществляется следующим образом:

(9.5)

(9.6)

При достаточно большом числе классифицируемых объектов имеет место сходимость векторов координат центров кластеризации к некоторому пределу, то есть, начиная с некоторого шага, пересчет координат центров практически не приводит к их изменению.

Если в конкретной задаче устойчивость не имеет места, то производят многократное повторение алгоритма, выбирая в качестве начального приближения различные комбинации из mточек.

После того как центры кластеризации найдены, производится окончательное распределение объектов по кластерам: каждую точку ,i=1,2,…,Nотносят к тому кластеру, расстояние до центра которого минимально.

Описанный алгоритм допускает обобщение на случай решения задач, для которых число кластеров заранее неизвестно. Для этого задаются двумя константами, одна из которых называется мерой грубости, а втораяΨ₀– мерой точности.

Число центров кластеризации полагается произвольным (пусть ), а за нулевое приближение центров кластеризации выбирают произвольныеточек. Затем производится огрубление центров заменой двух ближайших центров одним, если расстояние между ними окажется меньше порога. Процедура огрубления заканчивается, когда расстояние между любыми центрами будет не меньше. Для оставшихся точек отыскивается ближайший центр кластеризации, и если расстояние между очередной точкой и ближайшим центром окажется больше, чемΨ₀, то эта точка объявляется центром нового кластера. В противном случае точка приписывается существующему кластеру, координаты центра которого пересчитываются по правилам, аналогичным (9.5), (9.6).

ЭКЗАМЕНАЦИОННЫЙ БИЛЕТ № 8

D-оптимальные планы на отрезке.

Критерий D-оптимальности КритерийD-оптимальности требует такого расположения точек в области планирования, при котором определитель матрицыимеет минимальную величину. Иными словами, планD-оптимален, если .

Известно, что объем эллипсоида рассеяния пропорционален корню из величины определителя ковариационной матрицы, т.е.. С учетом (3.8)V.

Чем меньше величина определителя, тем меньше, как правило, разброс оценок коэффициентов относительно их математических ожиданий. Исключением является случай, когда эллипсоид рассеяния имеет сильно вытянутую форму.

Иерархический кластерный анализ. Проблема индексации.

Иерархический кластерный анализ. Проблема индексации.

Наряду с обычным, «раздельным», кластерным анализом широко применяется иерархический кластерный анализ, цель которого состоит в получении всей иерархии разбиений, а не отдельного разбиения. Считается, что иерархия точнее характеризует размытую структуру данных, чем отдельное разбиение. Получить конкретное разбиение в случае необходимости сравнительно легко сечением графа иерархий.

Основные определенияПустьО = {O¹, O², …,O^N} – конечное множество объектов.ИерархиейhнаОназывается система подмножеств (классов) {K: KO}такая, что

O h;
{Oⁱ} h, i=1,2,…,N;
для пересекающихся подмножества KиK´, т.е.KK´ ≠ Ø,KK´либоK´K.

Пример.ПустьО ={О¹, О²,…, О⁵}. Тогда система подмножеств

h= {{O¹}, {O²}, …,{O⁵}, {O¹,O²}, {O³,O⁴}, {O¹,O²,O⁵},O}

является иерархией на О.

Иерархия может быть представлена на языке теории графов. Графом иерархии hнаОназывается ориентированный граф (V,E),вершиныvVкоторого соответствуют множествамKh, а ребраeE – парам (K´,K), таким чтоK´K. Реброe = (K´,K) изображается стрелкой с началомK´и концомK.

Иерархической классификациейданного множества объектов

О= {O¹, O², …,O^N} называется построение иерархииhнаО, отражающей наличие однородных в определенном смысле классов.

Если использовать неориентированный граф, то его структура становится деревом. Сам процесс классификации есть построение иерархического дерева исследуемой совокупности объектов. Графическое изображение неориентированного графа иерархии на плоскости называют дендрограммой.

В иерархическом кластерном анализе используются два вида алгоритмов: дивизимные и агломеративные. В дивизимных алгоритмахмножествоОпостепенно делится на все более мелкие подмножества, вагломеративных– наоборот: точки множестваОпостепенно объединяются во все более крупные подмножества. Соответственно графы иерархий, полученные при помощи этих алгоритмов, называют дивизимными и агломеративными. Дивизимные алгоритмы называют также нисходящими (движение против стрелок на графе иерархии), агломеративные – восходящими (движение вдоль стрелок). Если на каждом шаге такого алгоритма объединяются только два кластера, то говорят обинарномагломеративном алгоритме. Далее рассматриваются лишь такие алгоритмы.

Более подробно схема работы бинарного агломеративного алгоритма выглядит следующим образом. Исходное множество О= ={O¹, O², …,O^N} рассматривается как множество одноэлементных кластеров; выбирают два из них, напримерK_iиK_j, которые наиболее близки в смысле введенной метрики друг другу и объединяют их в один кластер. Новое множество кластеров будет иметь ужеN-1 элементK₁,K₂,…,{K_i,K_j},…,K_N..

Рассматривая полученное множество в качестве исходного и повторяя процесс, получают последовательные множества кластеров, состоящие из N-2, N-3 и т.д. кластеров.

К достоинствам иерархических процедур относят полноту анализа структуры исследуемого множества наблюдений, возможность наглядной интерпретации проведенного анализа, возможность остановки процедуры при достижении априори заданного числа кластеров. К cущественным недостаткам иерархических процедур следует отнести финальную неоптимальность. Как правило, даже подчиняя каждый шаг работы процедуры некоторому критерию качества разбиения, получающееся в итоге разбиение для любого наперед заданного числа кластеров оказывается весьма далеким в смысле того же самого критерия качества.

ЭКЗАМЕНАЦИОННЫЙ БИЛЕТ № 9

Связь D- и G-оптимального планирования.

Связь D- и G-Оптимального планирования.

Критерий G-оптимальностиПланG-оптимален, если он обеспечивает наименьшую величину максимальной дисперсии оценки зависимой переменной:.

На практике желательно использовать планы, удовлетворяющие одновременно нескольким критериям. В общем случае такого сочетания свойств не наблюдается. В теории планирования эксперимента доказано, что непрерывный D-оптимальный план является такжеG-оптимальным. УсловиеD-оптимальности дискретного планаимеет следующий вид:. (6.2)

Если для дискретного D-оптимального плана имеет место, то этот план является такжеA-оптимальным. ПостроениеD-оптимальных планов является сложной вычислительной задачей. Аналитический путь здесь оказывается возможным в некоторых простейших случаях (полиномиальная модель от одной переменной, квадратичная регрессия отпеременных для стандартной области (гиперкуб)). В общем случае для построенияD-оптимальных планов используются численные методы, связанные с минимизацией определителя матрицыСлибо максимизацией определителя информационной матрицыF’F, что несомненно проще в вычислительном отношении.

Иерархический кластерный анализ. Проблема оцифрования.

Иерархический кластерный анализ. Проблема индексации.

O h;
{Oⁱ} h, i=1,2,…,N;
для пересекающихся подмножества KиK´, т.е.KK´ ≠ Ø,KK´либоK´K.

Пример.ПустьО ={О¹, О²,…, О⁵}. Тогда система подмножеств

h= {{O¹}, {O²}, …,{O⁵}, {O¹,O²}, {O³,O⁴}, {O¹,O²,O⁵},O}

является иерархией на О.

Иерархической классификациейданного множества объектов

ЭКЗАМЕНАЦИОННЫЙ БИЛЕТ № 10

Модель однофакторного дисперсионного анализа. Разложение суммы квадратов.

Разложение суммы квадратов в однофакторном ДА.

В п.4.2 рассматривался вопрос включения в регрессию качественных переменных. В случае, когда регрессорами являются только качественные переменные, общепринятым методом исследования выступает дисперсионный анализ (ДА).

В зависимости от числа регрессоров, называемых в ДА факторами, говорят об одно-, двух-, многофакторном ДА. Сами факторы полагаются неслучайными (модель с постоянными эффектами) либо случайными (модель со случайными эффектами). В модели с постоянными эффектами речь идет в основном о сравнении средних значений количественной переменной при различных значенииях факторов, тогда как в моделях со случайными эффектами интересует доля изменчивости, вносимая отдельными факторами. Ниже рассматривается первая модель, для которой ДА часто называют одно-, двух-, многофакторной классификацией.

Однофакторный дисперсионный анализ

Имеется количественная переменная у, определяемая качественной переменной, иначе фактором, принимающимрдискретных значений (уровней). Так, фактором может быть «поставщик», уровнями – определенные фирмы-поставщики, переменнойу– срок службы поставляемого товара. В качестве исходных данных выступает выборка, содержащая ряд наблюдений на каждом из уровней (по нескольку экземпляров определенного товара от каждого поставщика). Необходимо ответить на вопрос – различаются ли по сроку службы объекты от разных поставщиков.

Модель однофакторного анализа: , (5.1)

где – наблюденные значения,N_i –объем выборки для i-го уровня фактора. Параметрmобозначает некоторую точку отсчета,a_i– эффект (вклад)i-го уровня фактора,u_ij– независимые, нормально распределенные случайные возмущения, удовлетворяющие предпосылке 5 классической регрессии.

Модель (5.1) не позволяет однозначно оценить параметры, поскольку можно добавить к mи вычесть изa_iпроизвольную константу. Неоднозначность снимается условием репараметризацииN₁a₁+N₂a₂+…+N_pa_p=0. (5.2)

Оценивание параметров производится по методу наименьших квадратов (МНК). Для минимизации остаточной суммы квадратовнайдем первые производные:

;

Обозначим . Из выражений для производных с учетом (5.2) получаем:

. (5.3)

(Точка на месте индекса означает усреднение по этому индексу.)

Результаты измерений принято представлять в виде табл.11.

Таблица 11

Уровни фактора	Наблюдения	Сумма внутри уровня	Среднее по уровню
1			₁_

р			_p_.

Графическое представление результатов кластерного анализа.

Графическое представление результатов кластерного анализа.

Иерархическая классификация, как уже отмечалось, допускает наглядную интерпретацию. Для того чтобы привязать граф иерархии или дендрограмму к системе прямоугольных координат, введем понятие индексации. Индексациейиерархии называется отображение:hR¹, ставящее в соответствие множествуKhчисло (K)R¹таким образом, что

 (K) = 0 для одноэлементных множествK, т.е.K= 1;
 (K´) < (K) для каждой пары (K´,K) такой, чтоK´K, K´≠ K.

Индексация иерархии позволяет алгоритмизировать процесс построения дендрограммы. Пусть (h,ν) – некоторая индексированная иерархияhна множествеО= {O¹, O², …,O^N}. Вершины графа иерархии, отвечающие одноэлементным множествам {Oⁱ},i = 1,2, …, N, обозначим черезν_i, а вершины, соответствующиеК(К> 1), обозначимν_К. Введем систему координат с осью абсциссхи осью ординатη.Вначале на осихчерез равные интервалыразмещаются вершины, то есть представляются в виде точек с координатами= (i, 0). Предположим далее, что вершины иуже нанесены на плоскость в виде точек с координатамии. Тогда кластерK = K_iK_jможет быть представлен точкой с координатамис последующим соединением ее с точкамии. Напомним, чтоη_К > max(,) согласно п.2 определения индексации, так что вершинаv_Красположится выше вершини. Заметим, что построенная таким образом дендрограмма может содержать нежелательные пересечения ребер, поэтому вершины переупорядочиваются так, чтобы ребра соединялись только в вершинах. На рис.9 представлены дендрограммы иерархии с пересечением и без. Заметим также, что традиционно ребра диаграммы изображают в виде вертикальных и горизонтальных отрезков, как на дендрограмме без пересечений (рис.9,б).

а) б)

Рис.9. Дендрограммы иерархии примера из п.9.5.1:

а − с пересечением ребер; б − без пересечения ребер

Способы задания индекса νмогут быть разные. Весьма распространена индексация, ставящая в соответствие множествуKhномер шага, на котором это множество было включено в иерархию. В качестве альтернативы индексом может выступать мощность множества, точнееν=K– 1.

Информативность дендрограммы существенно возрастает, если в качестве ординаты кластера K, полученного объединением кластеровK_iиK_j, т.е.K = K_iK_j,выступает расстояние между кластерамиd(K_i, K_j). Такое изображение называютоцифрованным.

Одна из проблем иерархического кластерного анализа – определить, какие метрики позволяют провести оцифрование, удовлетворяющее условиям индексации, или иначе, найти индексацию, такую что ν(К_iК_j) = d(К_i,К_j). Так, для евклидовой метрики ответ на этот вопрос – отрицательный, что можно проиллюстрировать следующим примером. Пусть пять двумерных объектов, подлежащих кластеризации, образуют конфигурацию, представленную на рис.10,а.

а)

б)

Рис.10. Пример инверсии для евклидовой метрики:

а − исходная конфигурация; б − инверсия

На первом шаге агломеративной процедуры получаем кластер К₁=.{О¹,О²} c координатами центра тяжестиZ(К₁) = (1,5;1). Для кластераК₁, полученного объединениемодноэлементных кластеров {O¹} и {O²}, d(О¹, О²)= 1. Ближайшим кК₁окажется объектО³(точнее одноэлементный кластерК₂={O³}) с координатами центра тяжестиv(К₂)= (1,5; ). На следующем шаге алгоритма образуется, очевидно, кластерК₃=К₁К₂сd(К₁, К₂) = (1 – )², поскольку расстояние между кластерами измеряется по центрам тяжести (квадрат евклидова расстояния). Выходит для кластераК₃потенциальный индекс, равный расстоянию (1–)², оказывается меньше по сравнению с индексомК₁, равным 1. Налицо инверсия, поскольку нарушено требование 2, предъявляемое к индексам:К₁К₃  ν(К₁) < ν(К₃) (см. рис.10, б).

Достаточные условия, когда оцифрование является и индексацией, содержатся в теореме Миллигана. Эта теорема опирается на рекуррентную формулу Жамбю, которая позволяет пересчитывать расстояния между имеющимся кластером Ки вновь образованнымK=K_iK_j (KK_i, KK_j), используя расстояния и индексы, полученные на предыдущих шагах:d(K, K) = a₁d(K,K_i)+a₂d(K,K_j)+a₃d(K_i,K_j)+a₄ν(K)+

+a₅ν(K_i)+a₆ν(K_j)+a₇d(K, K_i)–d(K,K_j),

где a_i– числовые коэффициенты, зависящие от метода определения расстояния между кластерами. Так, при

а₁=а₂=–а₇=1/2 и а₃=а₄=а₅=а₆=0

приходим к расстоянию, измеренному по принципу «ближайшего соседа», а при

а₁=а₂=а₇=1/2 и а₃=а₄=а₅=а₆=0 – «дальнего соседа».

Теорема Миллигана.Пустьh– иерархия наО, полученная с использованием метрикиd(К₁,К₂), для которой справедлива формула Жамбю. Тогда, еслиа₁+а₂+а₃1, а_j 0 для j=1,2,4,5,6 и а₇–min (а₁,а₂),

то отображение , задаваемое формулой(К₁К₂) = =d(К₁,К₂) и условиемν({Оⁱ})=0,i=1,2, …,N, является индексацией.

В заключение отметим, что если рассечь дендрограмму горизонтальной линией на некотором уровне *, получаем ряд непересекающихся кластеров, число которых равно количеству «перерезанных» линий (ребер) дендрограммы; состав кластера определяется терминальными вершинами, связанными с данным «перерезанным» ребром.

ЭКЗАМЕНАЦИОННЫЙ БИЛЕТ № 11

Экспериментальные методы одномерного поиска.

Экспериментальные методы одномерного поиска.

Рассматривается функция одной переменной y=f(x). Предпола-гается, что функция имеет только один экстремум (унимодальна); интервал поиска ограничен: ; значения выходной переменной неслучайны. Поиск осуществляется последовательно путем сравнения значений целевой функции в двух точках, выбираемых определенным образом. ЭффективностьE поиска характеризуется степенью локализации области экстремума после N экспериментов и выражается отношением длины начального интервала к остаточному , внутри которого находится экстремум целевой функции:.

Далее для определенности будем полагать, что ищется максимум функции.

Эквидистантные планы Начальный отрезок делится на (N-1) равных частей, опыты проводятся при значениях:

. Поиск прекращается как только .

В зависимости от вида функции поиск прекращается при различных i, так что средняя эффективность составит E=(N–1)/2.

Метод деления отрезка пополам (метод последовательной дихотомии)

Эксперименты ставят парами в точках, отстоящих по обе стороны от середины отрезка. Координаты первой пары:

где  – малая величина.

Если , то максимальное значение надо ожидать на отрезке; прина отрезке. Этот новый отрезок объявляется исходным, и далее процесс повторяется. Мера эффективности равна.

Заметим, что при наличии случайного компонента значение  не должно быть малым, что иллюстрируется рис.3.

Рис. 3. Метод деления отрезка пополам

Если в точке х¹ случайная компонента окажется отрицательной, а в точке х² положительной, и значительной по величине в обеих точках, результаты сравнения значений отклика в этих точках направят поиск в противоположную сторону, Вот почему применение метода деления отрезка пополам в этих условиях становится проблематичным.

Поиск с использованием чисел Фибоначчи Числа Фибоначчи задаются по следующим правилам:

На первом шаге ставятся два эксперимента в точках x¹=a+(b-a)q и x²=b-(b-a)q при q=F_N_-₂/F_N, (6.10)

где N выбирается заранее.

При максимальное значение следует искать на отрезке, при– на отрезке. На последующих шагах ставят по одному эксперименту, меняяq по закону , гдеj – номер шага (j=2,3,…).

Легко показать, опираясь на определение чисел Фибоначчи, что одна из координат, подсчитанная по формулам, аналогичным (6.10), будет совпадать с одной из предыдущих точек. Далее происходит сравнение значений функций в этих двух точках и процесс повторяется. Мера эффективности метода составляет .

Так, при N=10 =144, а значит с помощью 11 экспериментов можно локализовать экстремум в области, не превышающей 1% размера начальной области поиска. Этот метод существенно эффективнее предыдущего. К его недостатку можно отнести необходимость заранее задавать число экспериментов.

Метод золотого сечения Этот метод базируется на методе Фибоначчи и не требует предварительного задания числа экспериментов. В методе золотого сечения вместо величины на каждом шаге используется ее предельное значение при: .

Мера эффективности метода .

Многомерное шкалирование. Метрический подход.

Многомерное шкалирование. Метрический и неметрический подходы.

Кроме таблиц «объект-признак» источником данных могут служить таблицы «объект-объект», содержащие данные о связях объектов. Математический образ подобных таблиц – квадратная матрица, элемент которой на пересечении i-й строки иj-го столбца содержит сведения о попарном сходстве либо различии анализируемых объектов. Задача состоит в том, чтобы представить эти объекты в виде точек некоторого координатного пространства невысокой размерности. При этом связи объектов должны быть переданы расстояниями между точками. Такая простая геометрическая модель приводит к содержательно интерпретируемому решению: каждая ось порождаемого пространства является одномерной шкалой и соответствует некому латентному признаку. Тем самым объекты наделяются признаками, интерпретация которых связывается с расположением объектов в искомом пространстве.

Формальная постановка задачи шкалирования

Дана симметричная матрица различий между объектами .

Требуется построить пространство возможно меньшей размерности rи найти в нем координаты точек-объектов

так, чтобы матрица расстояний

между ними, вычисленная по введенной на Хметрике, была, в смысле некоторого критерия, близка к исходной матрицеGпопарных различий.

При решении поставленной задачи возможны два подхода: метрический, при котором матрица различийGизначально является искомой матрицей расстоянийD, инеметрический (монотонный, ранговый), ориентированный на сохранение того же порядка попарных расстояний, что и в исходной матрице различий: → .

Неметрический этап

На этом этапе данные о различиях и стандартизированные оценки расстояний из предыдущей итерации используются для вычисления отклонений.

Этап состоит из нескольких шагов.

1. Упорядочить по возрастанию данные о различиях по исходной матрице G. Получившийся порядок пар объектов задает и порядок оценок расстояний или отклонений.

2. Серия проходов: в начале первого прохода на конкретной итерации отклонениями являются текущие оценки расстояний из предыдущей итерации или стартовой конфигурации. В начале каждого последующего прохода на той же итерации отклонения берутся из предыдущего прохода. Проход начинается с разбиения оценок отклонений на блоки равных значений. Пусть m=(1,...,M) будет индексом, обозначающим блоки от самого верхнего (m=1) до самого низкого (m=M). Начиная сm=1, элементыm-го блока сравниваются с элементами (m+1)-го блока. Если элементыm-го блока меньше элементов (m+1)-го блока, необходимо перейти к сравнению двух следующих блоков. Как только элементыm-го блока окажутся больше элементов (m+1)-го блока, то все элементыm-го и (m+1)-го блоков приравниваются среднему арифметическому обоих блоков. Эти два блока объединяют в один, который становится новымm-ым блоком. Затем опять сравниваютm-й и (m+1)-й блоки; проход заканчивается после сравнения всех соседних блоков. Результат прохода – новый набор оценок отклонений. После завершения проходов отклонения будут удовлетворять условию монотонности (12.1). Пример работы алгоритма дается в табл.27.

Таблица 27

№ п/п	Различие	До объединения		После 1-го прохода		После 2-го прохода
№ п/п	Различие	Откло- нение	Блок	Откло-нение	Блок	Откло-нение	Блок
1	2	3	4	5	6	7	8
1	0,19	0,11	1	0,11	1	0,11	1
2	0,22	0,12	2	0,12	2	0,12	2
3	0,23	0,16	3	0,15	3	0,15	3
4	0,25	0,14	4	0,15	3	0,15	3

Продолжение табл.27

№ п/п	Различие	До объединения		После 1-го прохода		После 2-го прохода
№ п/п	Различие	Откло- нение	Блок	Откло-нение	Блок	Откло- нение	Блок
5	0,26	0.21	5	0.21	4	0.21	4
6	0,27	0,23	6	0,23	5	0,23	5
7	0,28	0,25	7	0,25	6	0,24	6
8	0,29	0,23	8	0,23	7	0,24	6
9	0,32	0.27	9	0.27	8	0,27	7

В столбце 3 нет подряд идущих одинаковых чисел, так что каждая строка образует блок. Просматривая этот столбец сверху вниз, обнаруживаем, что в строках 3 и 4 имеет место инверсия (нарушение монотонности –– 0,16>0,14). Блоки 3 и 4 объединяются в один со значением (0,16+0,14)/2=0,15. Просматривая теперь столбец 5, убеждаемся в необходимости слияния блоков 6 и 7. Как видно из 7-го столбца нарушений условия монотонности не осталось, что позволяет считать элементы столбца 7 искомыми отклонениями.

Метрический этап

На этом этапе решают задачу математического программирования, в результате чего получают новые оценки координат, по которым рассчитывают новые оценки расстояний. Исходными данными являются отклонения, рассчитанные на неметрическом этапе, оценки координат и расстояний предыдущей итерации. В качестве целевой функции выступает S₁(12.2).

Минимизация S₁проводится одним из градиентных методов.

ЭКЗАМЕНАЦИОННЫЙ БИЛЕТ № 12

Многомерные методы экспериментальной оптимизации.

Многомерные методы экспериментальной оптимизации.

Для поиска экстремума функции многих переменных применяется ряд методов, среди которых отметим:

метод покоординатной оптимизации; метод Бокса − Уилсона; последовательный симплексный метод.

Метод покоординатной оптимизации Метод покоординатной оптимизации, называемый также методом Гаусса–Зейделя, сводит многомерную оптимизацию к последовательному применению одномерной к сечениям функции. Для этого фиксируют значения всех переменных, кроме одной, к которой применяется один из методов одномерной оптимизации. Затем начинают поиск по второй переменной, фиксируя первую на значении, обеспечившем экстремум, и т. д. После того как список переменных исчерпался, возвращаются к первой переменной, и так до тех пор, пока значение отклика возрастает (убывает). Метод отличается простотой, однако для функций овражистого типа, для которых линии равного уровня сильно вытянуты в направлении, не параллельном осям координат, поиск может продолжаться довольно долго.Метод Бокса−Уилсона На основе малой серии опытов строится линейное описание поверхности отклика в окрестности начальной точки. В центре этой локальной области определяется значение градиента, после чего начинаются опыты в направлении градиента. Бокс и Уилсон предложили использовать дробные факторные планы для поиска линейной модели. Метод состоит из последовательности циклов, каждый из которых содержит два шага.

1. Построение линейной модели в окрестности некоторой начальной точки с использованием подходящего факторного плана. Окрестность начальной точки, определяемая интервалами варьирования переменных, должна быть не слишком малой, чтобы можно было выявить линейные эффекты на фоне случайных возмущений, и не настолько большой, чтобы обеспечить адекватность линейного приближения. Соотношение между интервалами варьированияпо отдельным переменным должно быть таким, чтобы величины коэффициентов регрессии в случае их значимости имели бы одинаковый порядок. В случае адекватности линейной модели коэффициенты регрессии совпадают с компонентами градиента, т.е. , где i, j,…,k – направляющие векторы осей координат. Обычно переходят к нормированному градиенту делением его компонент на норму либо просто на. Компоненты нормированного градиента обозначим.

2. Пошаговое увеличение величины целевой функции (движение в направлении градиента). Координаты точки наблюдения на -м шаге при движении в направлении градиента определяются по формуле:, где≥1 – параметр, позволяющий управлять величиной шага, а следовательно, скоростью движения. Чем ближе исследователь подходит к стационарной области, тем меньше . Движение в направлении градиента продолжается до тех пор, пока возрастают значения выходной переменной. В противном случае вновь реализуют факторный план, находят новое линейное приближение и цикл повторяется снова. Если же модель оказывается неадекватной, то это означает, что исследователь либо достиг стационарной области, либо необходимо линейную модель дополнить взаимодействиями. В стационарной области метод Бокса−Уилсона неработоспособен, здесь необходимо переходить к квадратичным моделям.

Геометрическая интерпретация метода приведена на рис.4. Здесь поверхность отклика задается линиями уровня.

x₂
x₁
Рис. 4. Схема метода Бокса–Уилсона

Рассмотрим в качестве примера использование метода Бокса−Уилсона для поиска максимума функции

. (6.11)

Допустимая область изменения переменных: 0х₁20, 0х210, 1х₃15. Начальная точка поисках⁰==(3,2,4). Линейное приближение будем строить в окрестности начальной точки, задаваемой условиями:,i=1,2,3. Значения_i желательно подбирать такими, чтобы приращения функции по каждому из аргументов были сопоставимы, то есть

. Примем₁=1,₂=2,₃=3. В соответствии с (6.1) стандартизованная переменная, если, ипри.

Линейная модель требует для своей оценки не менее четырех экспериментов. Воспользуемся ДФЭ 2^3-1с ГС:(табл. 16).

Таблица 16

i	х_1ст	х₁	х_2ст	х₂	х_3ст	х₃	y
1	1	4	1	4	1	7	40,8
2	-1	2	1	4	-1	1	26,2
3	1	4	-1	0	-1	1	24,4
4	-1	2	-1	0	1	7	25,4

В последнем столбце табл.16 содержатся значения функции (6.11) для исходных переменных, то есть 40,8=у(4,4,7)и так далее.

МНК-оценки коэффициентов линейной модели составят:

;;.

Отнормируем полученные компоненты градиента, поделив их на максимальное значение :b₁=3,4/4,3=0,79,b₂=1,b₃=0,91. Движение в направлении градиента представлено в табл.17.

Таблица 17

Формулы для вычисления компонент вектора	Номера компонент вектора			у
Формулы для вычисления компонент вектора	1-я	2-я	3-я	у
х⁰	3	2	4	31,3
_i	1	2	3
b_i	0,79	1	0,91
b_i_i	0,79	2	2,73
x⁰+1b_i_i	3,79	4	6,73	39,9
x⁰+2b_i_i	4,58	6	9,46	46,4
x⁰+3b_i_i	5,37	8	12,19	50,6
x⁰+4b_i_i	6,16	10	14,91	52,6

Движение в направлении градиента после четвертого шага невозможно из-за ограничения на х₃. Теперь следует определить градиент в точкеx⁰+3b_i_i. Поскольку темп роста функции замедлился на последних шагах, область линейного описания следует сузить, уменьшив значения_i.

Многомерное шкалирование. Неметрический подход.