Скачиваний:
110
Добавлен:
01.05.2014
Размер:
10.78 Mб
Скачать

6.8. Функции критериев для группировки

Предположим, что мы имеем множество X из п выборок xi, ... ,хn которые хотим разделить на точно с непересекающихся подмножеств X1, . . ., Xc - Каждое подмножество должно представлять группу, причем выборки из одной группы более подобны между собой, чем выборки из разных групп. Чтобы хорошо поставить задачу, единственный путь — это определить функцию критерия, которая измеряет качество группировки любой части данных. Тогда задача заключается в определении такого разделения, которое максимизирует функцию критерия. В этом разделе мы рассмотрим характеристики некоторых в основном подобных функций критериев, отложив временно вопрос о нахождении оптимального разделения.

6.8.1. Критерий суммы квадратов ошибок

Самая простая и наиболее используемая функция критерия — это сумма квадратов ошибок. Пусть ni—число выборок в Xi и пусть mi — среднее этих выборок:

Тогда сумма квадратов ошибок определяется как

Эта функция имеет простую интерпретацию. Для данной группыXi средний вектор mi лучше всего представляет выборки в Xi так как он минимизирует сумму квадратов длин векторов «ошибок» хmi. Таким образом, Je измеряет общую квадратичную ошибку, вносимую при представлении п выборок x1, . . ., xc центрами с групп m1, . . ., mc. Значение Je зависит от того, как выборки сгруппированы в группы, и оптимальным разделением считается то, которое минимизирует Je. Группировки такого типа называют разделением с минимальной дисперсией.

Какого типа задачи группировки подходят для критерия в виде суммы квадратов ошибок? В основном Je подходящий крите­рий в случае, когда выборки образуют облака, которые достаточно хорошо отделены друг от друга. Он хорошо будет работать для двух или трех групп рис. 6.11, но для данных на рис. 6.12 не даст удовлетворительных результатов5. Менее явные проблемы возникают,

Рис. 6.11.Двумерное представление данных Андерсона об ирисах

Рис. 6.12.Диаграмма Герцшпрунга – Рассела

когда имеется большое различие между числом выборок из разных групп. В этом случае может случиться, что группировка, которая разделяет большую группу, имеет преимущество перед группировкой, сохраняющей единство группы, только потому, что достигнутое уменьшение квадратичной ошибки умножается на число членов этой суммы (рис. 6.13). Такая ситуация часто вызывается наличием случайных, далеко отстоящих выборок, и возникает проблема интерпретации и оценки результатов группировок. Так как об этом трудно что-либо сказать, мы просто отметим, что если дополнительные условия приводят к тому, что результат минимизации Je неудовлетворителен, то эти условия должны быть использованы для формулировки лучшей функции критерия.

6.8.2. Родственные критерии минимума дисперсии

Рис. 6.13.Задача рсщепления больших групп: сумма квадратов ошибок меньше для а, чем для б

Простыми алгебраическими преобразованиями мы можем избавиться от средних векторов в выраженииJe и получить эквивалентное выражение

В уравнении (28) si (со штрихом) интерпретируется как среднеквадратичное расстояние между точками i-й группы и подчеркивает тот факт, что критерий по сумме квадратов ошибок использует как меру подобия евклидово расстояние. Оно также подсказывает очевидный путь получения других функций критериев. Например, можно заменить si (со штрихом) cредним значением, медианой или, может быть, максимальным расстоянием между точками в группе. В более общем случае можно ввести соответствующую функцию подобия s(x, х') и заменить si (со штрихом) такими функциями, как

или

Как и раньше, мы считаем оптимальным такое разделение, ко­торое дает экстремум критерия. Это приводит к корректно постав­ленной задаче, и есть надежда, что ее решение вскроет внутрен­нюю структуру данных.

Соседние файлы в папке Анализ и интерпретация данных