- •1 Несколько основных понятий математической статистики
- •2 Гистограмма
- •3 Закон (плотность) распределения случайной величины
- •4 Нормальный закон распределения
- •5 Функция Лапласа
- •6 Основные числовые характеристики выборки
- •7 Расчет необходимого объема выборки для получения достоверных суждений о генеральной совокупности
- •8 Оценка различия двух выборок
- •9 Проверка нормальности закона распределения случайной величины
- •10 Выявление грубых ошибок
- •11 Анализ степени взаимовлияния двух случайных величин
- •12 Простая регрессия
- •13 Множественная регрессия
- •14 Выделение наиболее значимых независимых переменных и их комплексов
- •15 Кластеризация множества объектов
- •Литература
15 Кластеризация множества объектов
Кластеризация – это разбиение множества объектов, между которыми установлено отношение близости (расстояние), на группы наиболее близких между собой объектов. В каждой группе выделяется объект – центр кластера. Максимальное из расстояний от объектов, входящих в кластер, до его центра называется радиусом кластера. Максимальный радиус всех кластеров, на которые разбито множество объектов, называется радиусом кластеризации этого множества.
Оптимальной называется кластеризация, которая при заданном радиусе кластеризации множества разбивает его на минимальное число кластеров. Оптимальную кластеризацию можно осуществить, используя надстройку «Поиск решения» Excellна основе следующей математической модели целочисленного линейного программирования.
Пусть
- количество объектов множества,
- номера объектов,,
- мера близости (расстояние) между объектами с номерами,
- радиус кластеризации множества.
Рассчитывается признак возможности включения объекта с номеромв кластер, центром которого является объект с номером
.
Вводятся неопределенные двоичные переменные - признаки того, является ли объект с номеромцентром кластера. Тогда условия
гарантируют, что каждый объект будет включен хотя бы в один кластер с радиусом . При выполнении этих условий оптимальные значения переменныхопределяются из требования минимума общего числа кластеров:
.
Иногда бывает, что небольшое число объектов слишком отличается от остальных объектов множества, что заставляет неоправданно увеличивать радиус кластеризации, с тем, чтобы «охватить» их наряду с прочими объектами. Можно расширить предыдущую модель, дав исследователю возможность оптимально исключать из кластеризации некоторое число заранее неизвестно каких объектов с тем, чтобы сделать кластеризацию остальных объектов более компактной.
Для этого вводятся дополнительные двоичные переменные - признаки того, что-й объект исключается из кластеризации (в этом случае). Пусть- количество объектов, которое может быть исключено из кластеризации. Тогда оптимизационная модель имеет вид
,
,
.
Литература
Новиков Д.А., Новочадов В.В. Статистические методы в медико-биологическом эксперименте. Волгоград: Изд-во ВолГМУ, 2005. – 84 с. Электронный ресурс http://window.edu.ru/window/library?p_rid=47751
Учебное пособие по теории вероятностей. Электронный ресурс http://vm.psati.ru/online-tv/index.html