
- •Компьютерный анализ данных
- •Введение
- •1. Способы измерения информации и представления данных.
- •1.1. Многомерные статистические данные. Наблюдения, объекты и признаки. Математическое и табличное представление многомерных данных
- •1.2. Виды измерительных шкал
- •2. Простейшие способы моделирования данных
- •2.1. Зачем нужно моделировать данные
- •2.2. Моделирование данных с помощью функции слчис()
- •2.3. Моделирование данных равномерного распределения
- •2.4. Простейший способ моделирования нормальной случайной величины
- •2.5. Моделирование законов распределения случайных величин средствами excel
- •3. Предварительный анализ данных одномерных признаков
- •3.1. Расчет средних значений и дисперсии одномерного признака
- •3.2. Диапазон значений признака
- •3.3. Расчет частотного ряда признака
- •3.4. Графическое представление данных. Гистограмма.
- •3.5. Предварительный анализ многомерных данных. Диаграмма рассеивания
- •4. Моделирование данных в более сложных случаях
- •4.1. Метод неравномерной рулетки
- •4.2. Метод отбраковки
- •4.3. Моделирование многомерного нормального распределения.
- •5. Методы преобразования данных
- •5.1. Нормировка значений признака
- •5.2. Преобразование измерительных шкал
- •6. Проверка статистических гипотез
- •6.1. Принцип решения задач проверки статистических гипотез
- •6.2. Сглаживание эмпирических данных теоретической функцией плотности ( )
- •6.3. Непараметрический критерий оценки зависимости признаков ( )
- •6.4. Проверка гипотезы равенства средних двух выборок (t - критерий)
- •6.5. Дисперсионный анализ –классификация по одному признаку (f - критерий)
- •6.6. Проверка гипотезы однородности двух выборок (критерий Вилксона)
- •7. Методы многомерной Классификации
- •7.1. Постановка задачи
- •7.2. Меры сходства объектов многомерной выборки
- •7.3. Меры сходства групп объектов (классов)
- •7.3. Иерархический метод классификации
- •7.4. Классификация многомерных наблюдений методом k - средних
- •Практическое № 2 Предварительный анализ - одномерных признаков
- •Практическое № 3 Предварительный анализ - многомерных данных
- •Практическое № 4 Метод неравномерной рулетки
- •Практическое № 5 Метод отбраковки
- •Практическое № 6
- •Практическое № 7 Методы преобразования данных
- •Практическое № 8 Проверка гипотезы о согласии эмпирических данных теоретическому закону распределения.
- •Практическое № 9 Непараметрический критерий оценки зависимости признаков
- •Практическое № 10 Проверка гипотезы равенства средних двух выборок (t - критерий)
- •Практическое № 11 Дисперсионный анализ – классификация по одному признаку (f - критерий)
- •Практическое № 12 Проверка гипотезы однородности двух выборок (критерий Вилксона)
- •Практическое № 13 Расчет матриц сходства объектов выборки
- •Практическое № 14 Иерархический метод классификации
- •Практическое № 15 Классификация выборки методом k - средних
- •Список рекомендуемой литературы
- •Содержание
7. Методы многомерной Классификации
7.1. Постановка задачи
Кластерный анализ это совокупность методов, позволяющих классифицировать многомерные наблюдения, каждое из которых описывается набором исходных переменных . Целью кластерного анализа является образование групп сходных между собой объектов, которые принято называть кластерами.
Группы необходимо выделять затем чтобы принимать управленческие решения, учитывающие специфику каждой отдельной группы. Есть такой условный пример: “зачем лечить больных, если средняя температура по больнице 36 и 6?”.
Словами синонима для термина кластер являются кластер и таксон. Поэтому задачу классификации еще называют таксономией (разбиением). Иначе задача классификации может называться классификацией без обучения, чем подчеркивается характер решения задач при котором не используется никакая дополнительная (априорная) информация кроме выборки.
Задачу классификации нужно отличать от задачи группировки. Задача группировки состоит в том, что данные разбиваются сначала по уровням одного признака, затем по уровням другого признака и т.д. Такой результат можно получить при составлении сводных таблиц. В отличии от задачи группировки в кластерном формирование групп объектов (классов) производится с учетом всех группировочных признаков одновременно.
7.2. Меры сходства объектов многомерной выборки
Для решения задачи классификации необходимо ввести понятие сходства объектов по наблюдаемым признакам. В каждый класс должны попасть объекты, обладающие определенной степенью сходства.
В кластерном анализе для количественной оценки сходства вводится понятие метрики. Сходство между объектами будет определяться в зависимости от расстояния в выбранном метрическом пространстве. Если объект, описываемый m признаками представить точкой в k – мерном пространстве, то сходство объектов друг с другом будет определяться как расстояние в данном метрическом пространстве.
В кластерном анализе используется большое разнообразие способов измерения расстояний (метрик). Рассмотрим наиболее распространенными метриками сходства.
1. Евклидово расстояние:
(7.1)
2. Взвешенное евклидово расстояние
(7.2)
3. Расстояние Хемминга (citi-block или Манхеттенское):
(7.3)
4. Расстояние Минковского:
(7.4)
5. Расстояние Махаланобиса:
, (7.5)
где
- расстояние между i –м и j –
м объектами;
- значение r
– го признака соответственно у i
– го и j – го объекта;
- вектора значений
признаков у i – го и j – го
объекта;
- матрица обратная
ковариационной матрице, рассчитанной
по всей выборке;
- вес, присваиваемый
k – ой переменной.
В принятых
обозначениях не надо путать названия
признаков
,
присвоенные столбцам таблицы данных и
описание отдельного объекта в признаковом
пространстве (строки таблицы данных)
, где n – объем выборки.
Для решения задачи классификации необходимо рассматривать расстояния между каждой парой объектов. Расстояния между парами объектов сводятся в матрицу сходства. Это симметричная матрица. По диагонали матрицы располагаются нулевые значения. Рассмотрим расчет матриц сходства для различных метрик на примере.
Сформируем таблицу данных (с помощью программы генерация многомерных нормальных смесей).
Описание данных:
- количество классов 1, число признаков -3, число наблюдений – 20.
- вектор математических
ожиданий
,
вектор дисперсий D, ковариационная
матрица Cov.
Таблица данных
(признаки
)
представлена на рис. 7.1. В той же таблице
произведены расчеты евклидова расстояния
(
),расстояния
Хемминга (
),
расстояния Махаланобиса (
).
На рис. 7.1 приведены формулы для расчета
расстояний от первого объекта до всех
остальных, то есть расчет первых столбцов
матриц расстояний тремя различными
способами.
Расчет расстояний Махаланобиса выполнен по этапам:
- расчет ковариационной матрицы выборки с помощью программы Ковариация пакета анализа EXCEL (рис. 7.2);
- расчет матрицы обратной ковариационной с помощью функции МОБР (пример использования функции МОБР приведен в приложении "Операции над матрицами");
- расчет разности
векторов
;
- расчет произведения,
полученных векторов на матрицу обратную
ковариационной
;
- окончательный расчет расстояния Махаланобиса с учетом промежуточных вычислений:
.
Для расчета матриц расстояний была разработана специальная программа (макрос EXCEL). Для установки программы необходимо скопировать файл EXCEL, содержащий макрос. После установки макроса обращение к программе производится по команде Ctrl+q. Перед обращением программе должен быть выделен диапазон для которого рассчитывается матрица расстояний. Интерфейс программы приведен на рис.7.3. Программа рассчитывает матрицу расстояний по указанному методу и размещает ее в указанном месте. Фрагмент матрицы расстояний приведен на рис. 7.4.
Сравнение результатов, рассчитанных по формулам в таблице EXCEL и рассчитанных с помощью программы, показывает полное совпадение результатов. В дальнейшем для расчета матриц расстояний студенты могут использовать специальную программу.
Рис. 7.1. Расчет первого столбца матриц расстояний (евклидова, Хемминга, Махаланобиса)
Рис. 7.2. Расчет ковариационной и обратной к ней матриц
Рис. 7.3. Интерфейс макроса расчета матриц сходства
Рис. 7.4. Фрагмент матрицы расстояний
Оценивать сходство объектов с помощью мер расстояния удобно при использовании числовых признаков. Но часто встречаются признаки, измеренные в других шкалах (например, в ранговой, или, вообще, в номинальной). В этом случае все признаки, используемые для классификации приводятся к представлению в бинарном (двоичном) коде. Предположим, что такое преобразование было выполнено. То есть каждый объект описывается вектором , каждая из компонент которого принимает значения 0 или 1.
Для измерения сходства i-го и j – го объектов введем следующие обозначения частот:
-
число совпадающих единичных признаков
у обоих пар объектов (пар (1,1));
- число совпадающих
нулевых признаков у обоих пар объектов
(пар (0,0));
.-
число совпадающих единичных признаков
у i-го и нулевых признаков у j –
го объектов (пар (1,0));
.-
число совпадающих нулевых признаков у
i-го и единичных признаков у j –
го объектов (пар (0,1));
,
- число единичных признаков у i-го и
единичных признаков у j – го объектов
соответственно;
,
- число нулевых признаков у i-го и
нулевых признаков у j – го объектов
соответственно;
- общее число
совпадающих признаков;
- общее число
несовпадающих признаков;
- общее число
признаков, по которым осуществляется
сравнение.
Рассмотрим ряд наиболее распространенных мер подобия.
1. Не имеет общепринятого названия:
(7.6)
2. Коэффициент Рао:
(7.7)
3. Коэффициент Хаммана:
(7.8)
4. Коэффициент Роджерса и Танимото:
(7.9)
5. Коэффициент Джекарда
(7.10)
6. Коэффициент Дейка:
(7.11)
7. Не имеет общепринятого названия:
(7.12)
8. Коэффициент композиционного сходства:
(7.13)
Все перечисленные коэффициенты подобия могут быть рассчитаны с помощью одного макроса (рис. 7.3).