- •Функции расстояния и сходства Неотрицательная вещественная функция называется функцией расстояния (метрикой), если:
- •Функции расстояния и сходства Неотрицательная вещественная функция называется функцией расстояния (метрикой), если:
- •Метрическое шкалирование в метрическом шкалировании укажем два метода: ординация Орлочи и метод главных проекций Торгерсона.
- •Последовательный симплексный метод Этот метод требует проведения минимально возможного числа опытов при определении направления движения.
- •Функции расстояния и сходства Неотрицательная вещественная функция называется функцией расстояния (метрикой), если:
- •Последовательный симплексный метод Этот метод требует проведения минимально возможного числа опытов при определении направления движения.
- •Функции расстояния и сходства Неотрицательная вещественная функция называется функцией расстояния (метрикой), если:
- •Функции расстояния и сходства Неотрицательная вещественная функция называется функцией расстояния (метрикой), если:
Функции расстояния и сходства Неотрицательная вещественная функция называется функцией расстояния (метрикой), если:
а)
для всех
и
из
;
б)
лишь для
;
в)
;
г)
,
где
−
любые три точки из
(так называемое “правило треугольника”).
Значение функции dдля двух заданных точек
эквивалентно расстоянию междуОiиОj.
В качестве примера функций расстояний приведем наиболее употребительные:
евклидово расстояние
;
2) сумма абсолютных отклонений, называемая
иногда метрикой города,
;
3) расстояние Махаланобиса
,
где
– матрица, обратная матрице рассеяния
(см. (9.3)) .
Расстояние Махаланобиса часто называют
обобщенным евклидовым расстоянием; оно
инвариантно относительно невырожденного
линейного преобразования Υ=BХ,
то есть
.
Первые две метрики представляют частный
случай так называемой
-метрики:
.
Для
-метрики
справедливо соотношение
для любых
тогда и только тогда, когда
.
Обобщением lp-метрики
является «взвешенная»lp-метрика
,
где wi– некоторый неотрицательный «вес», пропорциональный степени важностиi-й компоненты при решении вопроса об отнесении объекта к тому или иному классу.
Расстояния между Nобъектами могут быть сведены в квадратную симметричнуюматрицу расстояний
.
(9.2)
Понятием, противоположным расстоянию, является понятие сходства. Мерой сходства называют неотрицательную вещественную функцию, удовлетворяющую следующим аксиомам:
1)
;
2)
;
3)
.
Значения функции сходства элементов множества Оможно объединить в матрицу сходства
.
Величину
обычно называют коэффициентом сходства.
Приведем в качестве примера функции
сходства для объектов, описываемых
дихотомическими признаками, т.е. такими,
которые могут принимать значения нуль
или единица. Для заданных точек
и
обозначим через
число совпадающих единичных (нулевых)
координат, через
– число координат, имеющих 1 в
и 0 в
,
сходным образом определяется
.
Мерами сходства будут функции:
1)
;
2)
;
3)
.
Заметим, что подбирая подходящее преобразование, можно перейти от мер расстояния к мерам сходства.
Меры близости и расстояния могут задаваться также с помощью так называемых потенциальных функцийF(U,V) = f(d(U,V)),гдеUиV– любые две точки изЕn,d(U,V) – метрика. В качестве примера приведем две такие функции:F(U,V) = exp (– ad2(U,V)), a>0;F(U,V) = (1 + ad2(U,V))-1.
Выбор той или иной метрики (или меры близости) является ответственным этапом кластерного анализа, оказывая существенное влияние на результаты разбиения объектов на классы. В каждой конкретной задаче этот выбор должен производиться с учетом целей исследования, физической и статистической природы наблюдений, полноты априорных сведений о характере распределения наблюдений. Приведем несколько рекомендаций по выбору метрики.
1. Если известно, что наблюдения извлекаются из нормальных генеральных совокупностей с одной и той же матрицей ковариаций, то целесообразно использовать расстояние Махаланобиса.
2. Использование обычного евклидова расстояния можно признать оправданным, если:
а) компоненты вектора наблюдений взаимно независимы и имеют одну и ту же дисперсию;
б) отдельные признаки
однородны по физическому смыслу и
одинаково важны с точки зрения задачи
классификации;
в) пространство признаков совпадает с геометрическим пространством (n= 1, 2, 3).
В некоторых задачах связи между объектами вытекают из сущности самой задачи, требуется лишь «подкорректировать» их с тем, чтобы они удовлетворяли аксиомам мер расстояния или сходства. Примером может служить задача классификации с целью агрегирования отраслей народного хозяйства, решаемая на основе матрицы межотраслевого баланса.
Рассмотрим теперь меры близости между
кластерами. Введение понятия расстояния
между группами объектов оказывается
целесообразным при конструировании
многих процедур кластеризации. ПустьКi–i-й
кластер, содержащий
объектов;
– арифметическое среднее наблюдений,
входящих вKi,
т.е.![]()
– выбранная метрика.
Рассмотрим наиболее употребительные расстояния между кластерами:
1) расстояние, измеряемое по принципу ближайшего соседа (nearest neighbour)
;
2) расстояние, измеряемое по принципу дальнего соседа (furthest neighbour)
;
3) статистическоерасстояние между кластерами
;
4) расстояние, измеряемое по
центрам тяжестикластеров
.
Легко видеть, что
пропорционально
,
если в качестве метрики используется
евклидово расстояние;
5) мера близости, основанная на потенциальной
функции F(Kl,Km)
=
![]()
Иллюстрация трех приведенных мер представлена на рис. 8.

Рис.8. Примеры расстояний между кластерами
Многомерные методы экспериментальной оптимизации.
Многомерные методы экспериментальной оптимизации.
Для поиска экстремума функции многих переменных применяется ряд методов, среди которых отметим:
метод покоординатной оптимизации; метод Бокса − Уилсона; последовательный симплексный метод.
Метод покоординатной оптимизации Метод покоординатной оптимизации, называемый также методом Гаусса–Зейделя, сводит многомерную оптимизацию к последовательному применению одномерной к сечениям функции. Для этого фиксируют значения всех переменных, кроме одной, к которой применяется один из методов одномерной оптимизации. Затем начинают поиск по второй переменной, фиксируя первую на значении, обеспечившем экстремум, и т. д. После того как список переменных исчерпался, возвращаются к первой переменной, и так до тех пор, пока значение отклика возрастает (убывает). Метод отличается простотой, однако для функций овражистого типа, для которых линии равного уровня сильно вытянуты в направлении, не параллельном осям координат, поиск может продолжаться довольно долго.Метод Бокса−Уилсона На основе малой серии опытов строится линейное описание поверхности отклика в окрестности начальной точки. В центре этой локальной области определяется значение градиента, после чего начинаются опыты в направлении градиента. Бокс и Уилсон предложили использовать дробные факторные планы для поиска линейной модели. Метод состоит из последовательности циклов, каждый из которых содержит два шага.
1. Построение
линейной модели в окрестности некоторой
начальной точки
с
использованием подходящего факторного
плана. Окрестность начальной точки,
определяемая интервалами варьирования
переменных, должна быть не слишком
малой, чтобы можно было выявить линейные
эффекты на фоне случайных возмущений,
и не настолько большой, чтобы обеспечить
адекватность линейного приближения.
Соотношение между интервалами варьирования
по отдельным переменным должно быть
таким, чтобы величины коэффициентов
регрессии в случае их значимости имели
бы одинаковый порядок. В случае
адекватности линейной модели
коэффициенты регрессии
совпадают с компонентами градиента,
т.е.
![]()
,
где i,
j,…,k
– направляющие векторы осей координат.
Обычно переходят к нормированному
градиенту делением его компонент на
норму
либо просто на
.
Компоненты нормированного градиента
обозначим
.
2. Пошаговое
увеличение величины целевой функции
(движение в направлении градиента).
Координаты точки наблюдения на
-м
шаге при движении в направлении градиента
определяются по формуле:
,
где
≥1
– параметр, позволяющий управлять
величиной шага, а следовательно, скоростью
движения. Чем ближе исследователь
подходит к стационарной области, тем
меньше
.
Движение в направлении градиента
продолжается до тех пор, пока возрастают
значения выходной переменной. В противном
случае вновь реализуют факторный план,
находят новое линейное приближение и
цикл повторяется снова. Если же модель
оказывается неадекватной, то это
означает, что исследователь либо достиг
стационарной области, либо необходимо
линейную модель дополнить взаимодействиями.
В стационарной области метод Бокса−Уилсона
неработоспособен, здесь необходимо
переходить к квадратичным моделям.
Геометрическая интерпретация метода приведена на рис.4. Здесь поверхность отклика задается линиями уровня.
x2
x1

Рис. 4. Схема метода Бокса–Уилсона
Рассмотрим в качестве примера использование метода Бокса−Уилсона для поиска максимума функции
.
(6.11)
Допустимая область изменения переменных:
0х120,
0х210,
1х315.
Начальная точка поисках0=
=(3,2,4).
Линейное приближение будем строить в
окрестности начальной точки, задаваемой
условиями:
,i=1,2,3.
Значенияi
желательно подбирать такими,
чтобы приращения функции по каждому из
аргументов были сопоставимы, то есть
![]()
.
Примем1=1,2=2,3=3.
В соответствии с (6.1) стандартизованная
переменная
,
если
,
и
при
.
Линейная модель
требует для своей оценки не менее четырех
экспериментов. Воспользуемся ДФЭ 23-1с ГС:
(табл. 16).
Таблица 16
|
i |
х1ст |
х1 |
х2ст |
х2 |
х3ст |
х3 |
y |
|
1 |
1 |
4 |
1 |
4 |
1 |
7 |
40,8 |
|
2 |
-1 |
2 |
1 |
4 |
-1 |
1 |
26,2 |
|
3 |
1 |
4 |
-1 |
0 |
-1 |
1 |
24,4 |
|
4 |
-1 |
2 |
-1 |
0 |
1 |
7 |
25,4 |
В последнем столбце табл.16 содержатся значения функции (6.11) для исходных переменных, то есть 40,8=у(4,4,7)и так далее.
МНК-оценки коэффициентов линейной модели составят:
;
;
.
Отнормируем полученные компоненты
градиента, поделив их на максимальное
значение
:
b1=3,4/4,3=0,79,b2=1,b3=0,91.
Движение в направлении градиента
представлено в табл.17.
Таблица 17
|
Формулы для вычисления компонент вектора |
Номера компонент вектора |
у | ||
|
1-я |
2-я |
3-я | ||
|
х0 |
3 |
2 |
4 |
31,3 |
|
i |
1 |
2 |
3 |
|
|
bi |
0,79 |
1 |
0,91 |
|
|
bii |
0,79 |
2 |
2,73 |
|
|
x0+1bii |
3,79 |
4 |
6,73 |
39,9 |
|
x0+2bii |
4,58 |
6 |
9,46 |
46,4 |
|
x0+3bii |
5,37 |
8 |
12,19 |
50,6 |
|
x0+4bii |
6,16 |
10 |
14,91 |
52,6 |
Движение в направлении градиента после четвертого шага невозможно из-за ограничения на х3. Теперь следует определить градиент в точкеx0+3bii. Поскольку темп роста функции замедлился на последних шагах, область линейного описания следует сузить, уменьшив значенияi.
ЭКЗАМЕНАЦИОННЫЙ БИЛЕТ № 27
1. Алгоритм k-средних.
Метод k-средних в кластерном анализе.
Задача кластерного анализа носит
комбинаторный характер. Прямой способ
решения такой задачи заключается в
полном переборе всех возможных разбиений
на кластеры и выбора разбиения,
обеспечивающего экстремальное значение
функционала. Такой способ решения
называют кластеризацией полным перебором.
Аналогом кластерной проблемы комбинаторной
математики является задача разбиения
множества из nобъектов наmподмножеств. Число таких разбиений
обозначается черезS(n,m)
и называется числом Стирлинга второго
рода. Эти числа подчиняются рекуррентному
соотношению:
.
При больших n
.
Из этих оценок видно, что кластеризация полным перебором возможна в тех случаях, когда число объектов и кластеров невелико.
К решению задачи кластерного анализа могут быть применены методы математического программирования, в частности динамического программирования. Хотя эти методы, как и полный перебор, приводят к оптимальному решению в классе всех разбиений, для задач практической размерности они не используются, поскольку требуют значительных вычислительных ресурсов. Ниже рассматриваются алгоритмы кластеризации, которые обеспечивают получение оптимального решения в классе, меньшем класса всех возможных разбиений. Получающееся локально-оптимальное решение не обязательно будет оптимальным в классе всех разбиений.
Наиболее широкое применение получили алгоритмы последовательной кластеризации. В этих алгоритмах производится последовательный выбор точек-наблюдений и для каждой из них решается вопрос, к какому из mкластеров ее отнести. Эти алгоритмы не требуют памяти для хранения матрицы расстояний для всех пар объектов.
Остановимся на наиболее известной и изученной последовательной кластер-процедуре – методе k-средних (k-means). Особенность этого алгоритма в том, что он носит двухэтапный характер: на первом этапе в пространствеЕnищутся точки – центры клacтеров, а затем уже наблюдения распределяются по тем кластерам, к центрам которых они тяготеют. Алгоритм работает в предположении, что числоmкластеров известно. Первый этап начинается с отбораmобъектов, которые принимаются в качестве нулевого приближения центров кластеризации. Это могут быть первые mиз списка объектов, случайно отобранные m объектов, либоmпопарно наиболее удаленных объектов.
Каждому центру приписывается единичный
вес. На первом шаге алгоритма извлекается
первая из оставшихся точек (пометим ее
как
)
и выясняется, к какому из центров она
оказалась ближе всего в смысле выбранной
метрикиd.
Этот центр заменяется новым, определяемым
как взвешенная комбинация старого
центра и новой точки. Вес центра
увеличивается на единицу. Обозначим
через
n-мерный
вектор координатi-го
центра на
-м
шаге , а через
– вес этого центра. Пересчет координат
центров и весов на
-м
шаге при извлечении очередной точки
осуществляется следующим образом:
(9.5)
(9.6)
При достаточно большом числе классифицируемых объектов имеет место сходимость векторов координат центров кластеризации к некоторому пределу, то есть, начиная с некоторого шага, пересчет координат центров практически не приводит к их изменению.
Если в конкретной задаче устойчивость не имеет места, то производят многократное повторение алгоритма, выбирая в качестве начального приближения различные комбинации из mточек.
После того как центры кластеризации
найдены, производится окончательное
распределение объектов по кластерам:
каждую точку
,i=1,2,…,Nотносят к тому кластеру, расстояние до
центра которого минимально.
Описанный алгоритм допускает обобщение
на случай решения задач, для которых
число кластеров заранее неизвестно.
Для этого задаются двумя константами,
одна из которых
называется мерой грубости, а втораяΨ0– мерой точности.
Число центров кластеризации полагается
произвольным (пусть
),
а за нулевое приближение центров
кластеризации выбирают произвольные
точек. Затем производится огрубление
центров заменой двух ближайших центров
одним, если расстояние между ними
окажется меньше порога
.
Процедура огрубления заканчивается,
когда расстояние между любыми центрами
будет не меньше
.
Для оставшихся точек отыскивается
ближайший центр кластеризации, и если
расстояние между очередной точкой и
ближайшим центром окажется больше, чемΨ0, то
эта точка объявляется центром нового
кластера. В противном случае точка
приписывается существующему кластеру,
координаты центра которого пересчитываются
по правилам, аналогичным (9.5), (9.6).
2. Многомерные методы экспериментальной оптимизации.
Многомерные методы экспериментальной оптимизации.
Для поиска экстремума функции многих переменных применяется ряд методов, среди которых отметим:
метод покоординатной оптимизации; метод Бокса − Уилсона; последовательный симплексный метод.
Метод покоординатной оптимизации Метод покоординатной оптимизации, называемый также методом Гаусса–Зейделя, сводит многомерную оптимизацию к последовательному применению одномерной к сечениям функции. Для этого фиксируют значения всех переменных, кроме одной, к которой применяется один из методов одномерной оптимизации. Затем начинают поиск по второй переменной, фиксируя первую на значении, обеспечившем экстремум, и т. д. После того как список переменных исчерпался, возвращаются к первой переменной, и так до тех пор, пока значение отклика возрастает (убывает). Метод отличается простотой, однако для функций овражистого типа, для которых линии равного уровня сильно вытянуты в направлении, не параллельном осям координат, поиск может продолжаться довольно долго.Метод Бокса−Уилсона На основе малой серии опытов строится линейное описание поверхности отклика в окрестности начальной точки. В центре этой локальной области определяется значение градиента, после чего начинаются опыты в направлении градиента. Бокс и Уилсон предложили использовать дробные факторные планы для поиска линейной модели. Метод состоит из последовательности циклов, каждый из которых содержит два шага.
1. Построение
линейной модели в окрестности некоторой
начальной точки
с
использованием подходящего факторного
плана. Окрестность начальной точки,
определяемая интервалами варьирования
переменных, должна быть не слишком
малой, чтобы можно было выявить линейные
эффекты на фоне случайных возмущений,
и не настолько большой, чтобы обеспечить
адекватность линейного приближения.
Соотношение между интервалами варьирования
по отдельным переменным должно быть
таким, чтобы величины коэффициентов
регрессии в случае их значимости имели
бы одинаковый порядок. В случае
адекватности линейной модели
коэффициенты регрессии
совпадают с компонентами градиента,
т.е.
![]()
,
где i,
j,…,k
– направляющие векторы осей координат.
Обычно переходят к нормированному
градиенту делением его компонент на
норму
либо просто на
.
Компоненты нормированного градиента
обозначим
.
2. Пошаговое
увеличение величины целевой функции
(движение в направлении градиента).
Координаты точки наблюдения на
-м
шаге при движении в направлении градиента
определяются по формуле:
,
где
≥1
– параметр, позволяющий управлять
величиной шага, а следовательно, скоростью
движения. Чем ближе исследователь
подходит к стационарной области, тем
меньше
.
Движение в направлении градиента
продолжается до тех пор, пока возрастают
значения выходной переменной. В противном
случае вновь реализуют факторный план,
находят новое линейное приближение и
цикл повторяется снова. Если же модель
оказывается неадекватной, то это
означает, что исследователь либо достиг
стационарной области, либо необходимо
линейную модель дополнить взаимодействиями.
В стационарной области метод Бокса−Уилсона
неработоспособен, здесь необходимо
переходить к квадратичным моделям.
Геометрическая интерпретация метода приведена на рис.4. Здесь поверхность отклика задается линиями уровня.
x2
x1

Рис. 4. Схема метода Бокса–Уилсона
Рассмотрим в качестве примера использование метода Бокса−Уилсона для поиска максимума функции
.
(6.11)
Допустимая область изменения переменных:
0х120,
0х210,
1х315.
Начальная точка поисках0=
=(3,2,4).
Линейное приближение будем строить в
окрестности начальной точки, задаваемой
условиями:
,i=1,2,3.
Значенияi
желательно подбирать такими,
чтобы приращения функции по каждому из
аргументов были сопоставимы, то есть
![]()
.
Примем1=1,2=2,3=3.
В соответствии с (6.1) стандартизованная
переменная
,
если
,
и
при
.
Линейная модель
требует для своей оценки не менее четырех
экспериментов. Воспользуемся ДФЭ 23-1с ГС:
(табл. 16).
Таблица 16
|
i |
х1ст |
х1 |
х2ст |
х2 |
х3ст |
х3 |
y |
|
1 |
1 |
4 |
1 |
4 |
1 |
7 |
40,8 |
|
2 |
-1 |
2 |
1 |
4 |
-1 |
1 |
26,2 |
|
3 |
1 |
4 |
-1 |
0 |
-1 |
1 |
24,4 |
|
4 |
-1 |
2 |
-1 |
0 |
1 |
7 |
25,4 |
В последнем столбце табл.16 содержатся значения функции (6.11) для исходных переменных, то есть 40,8=у(4,4,7)и так далее.
МНК-оценки коэффициентов линейной модели составят:
;
;
.
Отнормируем полученные компоненты
градиента, поделив их на максимальное
значение
:
b1=3,4/4,3=0,79,b2=1,b3=0,91.
Движение в направлении градиента
представлено в табл.17.
Таблица 17
|
Формулы для вычисления компонент вектора |
Номера компонент вектора |
у | ||
|
1-я |
2-я |
3-я | ||
|
х0 |
3 |
2 |
4 |
31,3 |
|
i |
1 |
2 |
3 |
|
|
bi |
0,79 |
1 |
0,91 |
|
|
bii |
0,79 |
2 |
2,73 |
|
|
x0+1bii |
3,79 |
4 |
6,73 |
39,9 |
|
x0+2bii |
4,58 |
6 |
9,46 |
46,4 |
|
x0+3bii |
5,37 |
8 |
12,19 |
50,6 |
|
x0+4bii |
6,16 |
10 |
14,91 |
52,6 |
Движение в направлении градиента после четвертого шага невозможно из-за ограничения на х3. Теперь следует определить градиент в точкеx0+3bii. Поскольку темп роста функции замедлился на последних шагах, область линейного описания следует сузить, уменьшив значенияi.
