
- •Компьютерный анализ данных
- •Введение
- •1. Способы измерения информации и представления данных.
- •1.1. Многомерные статистические данные. Наблюдения, объекты и признаки. Математическое и табличное представление многомерных данных
- •1.2. Виды измерительных шкал
- •2. Простейшие способы моделирования данных
- •2.1. Зачем нужно моделировать данные
- •2.2. Моделирование данных с помощью функции слчис()
- •2.3. Моделирование данных равномерного распределения
- •2.4. Простейший способ моделирования нормальной случайной величины
- •2.5. Моделирование законов распределения случайных величин средствами excel
- •3. Предварительный анализ данных одномерных признаков
- •3.1. Расчет средних значений и дисперсии одномерного признака
- •3.2. Диапазон значений признака
- •3.3. Расчет частотного ряда признака
- •3.4. Графическое представление данных. Гистограмма.
- •3.5. Предварительный анализ многомерных данных. Диаграмма рассеивания
- •4. Моделирование данных в более сложных случаях
- •4.1. Метод неравномерной рулетки
- •4.2. Метод отбраковки
- •4.3. Моделирование многомерного нормального распределения.
- •5. Методы преобразования данных
- •5.1. Нормировка значений признака
- •5.2. Преобразование измерительных шкал
- •6. Проверка статистических гипотез
- •6.1. Принцип решения задач проверки статистических гипотез
- •6.2. Сглаживание эмпирических данных теоретической функцией плотности ( )
- •6.3. Непараметрический критерий оценки зависимости признаков ( )
- •6.4. Проверка гипотезы равенства средних двух выборок (t - критерий)
- •6.5. Дисперсионный анализ –классификация по одному признаку (f - критерий)
- •6.6. Проверка гипотезы однородности двух выборок (критерий Вилксона)
- •7. Методы многомерной Классификации
- •7.1. Постановка задачи
- •7.2. Меры сходства объектов многомерной выборки
- •7.3. Меры сходства групп объектов (классов)
- •7.3. Иерархический метод классификации
- •7.4. Классификация многомерных наблюдений методом k - средних
- •Практическое № 2 Предварительный анализ - одномерных признаков
- •Практическое № 3 Предварительный анализ - многомерных данных
- •Практическое № 4 Метод неравномерной рулетки
- •Практическое № 5 Метод отбраковки
- •Практическое № 6
- •Практическое № 7 Методы преобразования данных
- •Практическое № 8 Проверка гипотезы о согласии эмпирических данных теоретическому закону распределения.
- •Практическое № 9 Непараметрический критерий оценки зависимости признаков
- •Практическое № 10 Проверка гипотезы равенства средних двух выборок (t - критерий)
- •Практическое № 11 Дисперсионный анализ – классификация по одному признаку (f - критерий)
- •Практическое № 12 Проверка гипотезы однородности двух выборок (критерий Вилксона)
- •Практическое № 13 Расчет матриц сходства объектов выборки
- •Практическое № 14 Иерархический метод классификации
- •Практическое № 15 Классификация выборки методом k - средних
- •Список рекомендуемой литературы
- •Содержание
7.4. Классификация многомерных наблюдений методом k - средних
Методом k - средних был предложен Мак-Куином. Этот метод классификации относится к группе итеративных методов классификации. Этот метод является одним из самых простых. Существует множество модификаций этого метода. Рассмотрим алгоритм классификации в его первоначальном виде.
Пусть имеется n объектов (наблюдений), каждый из которых характеризуется m признаками . Необходимо разбить наблюдения на заданное число классов - k.
Шаг ноль. Из n точек исследуемой совокупности случайным образом отбирается k точек. Эти точки принимаются как центры классов.
Итерация. Множество точек разбивается на k классов по минимуму расстояния до центров классов. Для расчета расстояния можно использовать любую метрику. Чаще всего используется евклидово расстояние. Производится пересчет центров классов, как центров тяжести точек, присоединенных к классам.
Проверка. Если центры классов при выполнении очередной итерации не изменились, то процесс классификации завершается, иначе переходим к пункту ”Итерация”.
Рассмотрим работу
алгоритма на примере. Таблица данных
представлена на рис. 7.13. Для формирования
таблицы мы смоделировали выборку из
трех классов. Объемы выборок по классам
равны соответственно
=10,
=15,
=20.
Всего объектов в выборке
=45.
Рис. 7.13. Таблица данных
Классы в таблице располагаются один под другим. Исходная выборка представлена на диаграмме рассеивания рис. 7.14. Теперь забудем о том, что наша выборка разделена на классы и попытаемся выполнить классификацию объектов с помощью алгоритма.
Рис. 7.14 Диаграмма рассеивания исходной выборки
Первоначальный выбор центров классов производим с помощью случайных чисел. Координаты центров классов по итерациям заносим в таблицу (рис. 7.15).
Рис. 7.15. Таблица центров классов по шагам
На каждом шаге рассчитывается пять столбцов таблицы. Первые три – это расстояния до центров классов (“Расстояние 1”, “Расстояние 2”, “Расстояние 3”). Четвертый столбец содержит минимум из трех расстояний. На основании информации четырех столбцов определяется номер класса объекта (столбец ”Класс”) по расстоянию до ближайшего центра (рис. 7.16). Итерация завершается пересчетом центров классов. Расчет новых центров классов производится с применением функций СУММЕСЛИ и СЧЕТЕСЛИ (рис. 7.15). Расчет повторяется до тех пор, пока центры классов перестают изменяться. В нашем случае результат получен за шесть шагов.
Результаты классификации на первом и третьем шаге прдставлены на диаграммах рассеивания рис. 7.-17-7.18.
Рис.7.16. Расчет номеров класса на одном шаге итерационного процесса
Рис. 7.17. Классификация объектов на шаге 1
Рис. 7.18. Классификация объектов на шаге 3
Смещение центров классов по итерациям представлено на рис. 7.19. Применение алгоритма к данным примера дало безошибочный результат. На практике алгоритм далеко не всегда дает такой хороший результат. В нашем примере, сформированные классы, очень хорошо различимы.
Р
ис.
7.19. Смещение центров классов по итерациям
( - начальное расположения центра
класса
–
конечное расположение
центра класса)
7.6. Классификация многомерных наблюдений методм – KRAB
7.7. Критерии качества разбиения выборки на классы
Задания к практическим занятиям
Практическое № 1
Анкетный опрос
1. Заполнить анкету «Изучение структуры свободного времени студентов» по организации свободного времени (приложение 1).
2. Скопировать файл с базой данных Access и файл с таблицей “Эксперт”
3. Переименовать файл с базой данных, указав в названии файла свою фамилию.
2. Ввести данные анкеты в базу данных (приложение 2).
3. Экспортировать данные из базы данных Access в файл EXCEL. Указать в названии файла EXCEL свою фамилию.
4. Заполнить таблицу экспертных оценок “Эксперт”. Изменить название файла “Эксперт” на “Эксперт - ФАМИЛИЯ”.
5. Разместить три файла в единую папку, отведенную для студентов всей группы.