Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции 20 апреля.doc
Скачиваний:
1
Добавлен:
01.05.2025
Размер:
4.06 Mб
Скачать

7.4. Классификация многомерных наблюдений методом k - средних

Методом k - средних был предложен Мак-Куином. Этот метод классификации относится к группе итеративных методов классификации. Этот метод является одним из самых простых. Существует множество модификаций этого метода. Рассмотрим алгоритм классификации в его первоначальном виде.

Пусть имеется n объектов (наблюдений), каждый из которых характеризуется m признаками . Необходимо разбить наблюдения на заданное число классов - k.

Шаг ноль. Из n точек исследуемой совокупности случайным образом отбирается k точек. Эти точки принимаются как центры классов.

Итерация. Множество точек разбивается на k классов по минимуму расстояния до центров классов. Для расчета расстояния можно использовать любую метрику. Чаще всего используется евклидово расстояние. Производится пересчет центров классов, как центров тяжести точек, присоединенных к классам.

Проверка. Если центры классов при выполнении очередной итерации не изменились, то процесс классификации завершается, иначе переходим к пункту ”Итерация”.

Рассмотрим работу алгоритма на примере. Таблица данных представлена на рис. 7.13. Для формирования таблицы мы смоделировали выборку из трех классов. Объемы выборок по классам равны соответственно =10, =15, =20. Всего объектов в выборке =45.

Рис. 7.13. Таблица данных

Классы в таблице располагаются один под другим. Исходная выборка представлена на диаграмме рассеивания рис. 7.14. Теперь забудем о том, что наша выборка разделена на классы и попытаемся выполнить классификацию объектов с помощью алгоритма.

Рис. 7.14 Диаграмма рассеивания исходной выборки

Первоначальный выбор центров классов производим с помощью случайных чисел. Координаты центров классов по итерациям заносим в таблицу (рис. 7.15).

Рис. 7.15. Таблица центров классов по шагам

На каждом шаге рассчитывается пять столбцов таблицы. Первые три – это расстояния до центров классов (“Расстояние 1”, “Расстояние 2”, “Расстояние 3”). Четвертый столбец содержит минимум из трех расстояний. На основании информации четырех столбцов определяется номер класса объекта (столбец ”Класс”) по расстоянию до ближайшего центра (рис. 7.16). Итерация завершается пересчетом центров классов. Расчет новых центров классов производится с применением функций СУММЕСЛИ и СЧЕТЕСЛИ (рис. 7.15). Расчет повторяется до тех пор, пока центры классов перестают изменяться. В нашем случае результат получен за шесть шагов.

Результаты классификации на первом и третьем шаге прдставлены на диаграммах рассеивания рис. 7.-17-7.18.

Рис.7.16. Расчет номеров класса на одном шаге итерационного процесса

Рис. 7.17. Классификация объектов на шаге 1

Рис. 7.18. Классификация объектов на шаге 3

Смещение центров классов по итерациям представлено на рис. 7.19. Применение алгоритма к данным примера дало безошибочный результат. На практике алгоритм далеко не всегда дает такой хороший результат. В нашем примере, сформированные классы, очень хорошо различимы.

Р ис. 7.19. Смещение центров классов по итерациям ( - начальное расположения центра класса

конечное расположение центра класса)

7.6. Классификация многомерных наблюдений методм – KRAB

7.7. Критерии качества разбиения выборки на классы

Задания к практическим занятиям

Практическое № 1

Анкетный опрос

1. Заполнить анкету «Изучение структуры свободного времени студентов» по организации свободного времени (приложение 1).

2. Скопировать файл с базой данных Access и файл с таблицей “Эксперт”

3. Переименовать файл с базой данных, указав в названии файла свою фамилию.

2. Ввести данные анкеты в базу данных (приложение 2).

3. Экспортировать данные из базы данных Access в файл EXCEL. Указать в названии файла EXCEL свою фамилию.

4. Заполнить таблицу экспертных оценок “Эксперт”. Изменить название файла “Эксперт” на “Эксперт - ФАМИЛИЯ”.

5. Разместить три файла в единую папку, отведенную для студентов всей группы.