Добавил:

arhimagist Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Анализ и интерпретация данных

Файл:

конспект_АИД_полный_2017.doc

Скачиваний:

Добавлен:

08.07.2017

Размер:

4.26 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 1415 / 2515 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

4.3. Критерии качества разбиения на классы

Критерий суммы квадратов ошибок: n_i –элементов в X_i;

Мы можем ввести функцию разброса:

Здесь можно минимизировать только положение m_i .

Этот критерий хорошо работает, когда предполагается, что кластеры хорошо разнесены.

Есть критерий, основанный на матрице рассеивания: матрица рассеивания определяется следующим образом:

Где S_i -матрица рассеяния внутри группы, S_w – суммарная матрица рассеяния внутри группы.

Есть понятия расстояния между группами:

Где -общее среднее,S_T – общее рассеивание

На данной базе рассматривают следующие критерии:

Еще один критерий основан на минимизации определителя матрицы рассеивания (данный критерий эквивалентен линейным преобразованиям):

4.4. Основные типы кластерных процедур. Основные задачи кластерного анализа

Задачи могут быть классифицированы по объему выборки .

1) Малые выборки (10-100 объектов)

2) Больщие выборки (100-1000 и больше объектов)

Задачи кластеризации с точки зрения априорной информации:

Число кластеров априорно задано
Число кластеров априорно не задано и их нужно определить
Число кластеров априорно не задано, но не требуется их точно определять в процессе обработки информации

Имеются следующие виды процедур:

Иерархические. Они отличаются большим объемом вычислений.
Параллельные процедуры. На каждом шагу анализируется вся выборка.
Процедуры последовательного типа: на каждом шагу анализируется один элемент выборки. Цель-минимизация некоторого функционала разбиения.

Все задачи сводятся к минимизации следующего функционала:

Пусть мы делаем все переборы

N-количество элементов

Пример: N=500 c=5, тогда полных переборов: М

4.4.1. Построение последовательной процедуры итеративной оптимизации

Пусть есть 2 кластера х_iи х_j

передвигаем эту выборку вx_j (физически она остается на месте в пространстве, но относится уже к х_j)

Критерий качества:

Теперь передвигаем из IJ. Что поменяется в этом случае?

(1)

Когда передвинули ij , то

(2)

(старые х)

После преобразования результат получился следующим:

Нам надо, а это будет тогда, когда

Хорошо, когда каждая пара перестановки дает такое

4.4.2. Базовая процедура кластеризации (базовая минимальная квадратичная ошибка)

1) выбирается некоторое первоначальное разделение по группам .

x₁,x₂,…x_c Пусть с известно.

Вычисляем I и средние m₁,m₂,…m_c .

Цикл:

2) выбрать следующую выборкукандидата на передвижение

3) если N_i =1 , то перейти к

следующему, иначе вычислить:

Передвинуть в Х_К ,если для всехI
Вновь вычислить I =

если I не изменилось после N попыток – остановка;

иначе перейти к Цикл

N- число выборок

Это типичная последовательная процедура.

4.4.3. Параллельная процедура. Базовые изоданные

Основан на классификации данных по принципу min d , можно задать любое расстояние, Евклидово, Махланобиуса и т.д.

Каждый группа описывается средним:

Отличия к группе определяются как:

4.4.3.1. Описание процедуры: Базовые изоданные

1. Выбираем некоторые начальные значения для средних

Классифицируем n-выборок, разбивая их на классы по ближайшим соседям
Вновь вычисляем среднее как среднее значение выборок в своем классе.
Если какое-либо среднее изменило значение, переходим в Цикл, иначе остановка
остановка.

4.4.3.2. Алгоритм К - внутригрупповых средних (это базовые и заданные)

Этот алгоритм минимизирует сумму квадратов расстояний всех точек, входящих в кластерную область, до центра кластера структура алгоритма состоит из к-шагов.

Шаг 1. Выбираем К исходных центров кластеров

Этот выбор производится произвольно и обычно в качестве исходных центров кластеров используем первые к- результатов выборки из заданного множества образов.

Шаг 2. На к-том шаге итерации заданное множество образов {x} распределяется по

к- кластерам по правилу мин расстояния:

для всех i=1,2… к: ,S_j(k) - множество образов, входящих в кластер с центром z_j(k)

В случае равенства решения принимается произвольным образом

Шаг 3. На основе результатов шага 2 принимаются новые центры кластеров

z_j(k+1), j=1,2,…k. Исходя из условия , что сумма квадратов расстояний между всеми образами принадлежит множеству S_j(k) и новым центрам кластера д.б. минимально,

таким образом новый центр кластера выбирается так, чтобы минимизировать показатель качества

центр z_j(k+1), обеспечивающий минимизацию показателя качества, является, в сущности, выборочным средним , определенным по множеству S_j(k). Как

N_j- число выборочных образов, входящих в множество S_j(k)

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 1415 / 2515 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете Анализ и интерпретация данных

#
08.07.201728.67 Кб5вопросы2017.doc
#
08.07.201769.12 Кб11Задачи.doc
#
08.07.20174.26 Mб41конспект_АИД_полный_2017.doc