
- •1. Анализ пропущенных значений. Методы заполнения пропусков.
- •2. Непараметрические критерии различий двух выборок.
- •3. Графические и аналитические методы анализа.
- •4.Нормальный закон распределения и его значение для прикладной статистики.
- •5. Статистические гипотезы в задачах регрессии.
- •6.Непараметрические критерии однородности двух выборок.
- •9. Непараметрические критерии изменений.
- •8.Проверка гипотез о коэфицентах регрессии и коэфицентах корреляции.
- •7.Множественный дисперсионный анализ
- •10. Стандартизация исходных данных
- •11. Основные понятия и алгоритмы кластерного анализа
- •12. Проверка гипотез о коэффициентах регрессии и коэффициентах корреляции
- •Дисперсионный анализ при оценке качества регрессии.
- •Основные возможности пакета Excel для анализа статистических данных.
- •Однофакторный дисперсионный анализ.
- •16.История развития программного обеспечения по математической статистике.
- •18.Основные возможности пакета Statistica for Windows.
- •17.Корреляционный анализ. Диаграмма рассеяния.
- •19. Корреляционный анализ. Парный коэффициент корреляции.
- •20.Основные задачи математической статистики
- •1. Задача определения закона распределения случайной величины (или системы случайных величин) по статистическим данным
- •2. Задача проверки правдоподобия гипотез
- •3. Задача нахождения неизвестных параметров распределения
- •21. Критерий согласия распределения.
- •22. Основные понятия и алгоритмы кластерного анализа
- •23. Основные проверки статистических гипотез
- •24) Критерий Стьюдента (t-критерий) (проверка гипотез о равенстве средних).
- •25. Построение и трактовка главных факторов.
- •26. Многомерное шкалирование.
- •27. Метод кластеризации данных.
- •28. Параметрические и непараметрические методы.
11. Основные понятия и алгоритмы кластерного анализа
Кластерный анализ –
совокупность математических методов, предназначенных для формирования относительно "отдаленных" друг от друга групп "близких" между собой объектов по информации о расстояниях или связях между ними
это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы (кластеры)
Основная цель кластерного анализа
Разбиение исходной совокупности объектов (ситуаций) на подмножества, на группы схожих, близких между собой объектов, называемых кластерами (таксонами), так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались.
Сжатие данных - если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.
Обнаружение новизны - выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.
Основные задачи кластерного анализа
Разработка типологии или классификации.
Исследование полезных концептуальных схем группирования объектов.
Порождение гипотез на основе исследования данных.
Проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных
Фактически, кластерный анализ является не столько обычным статистическим методом, сколько "набором" различных алгоритмов "распределения объектов по кластерам".
Метод кластерного анализа используется в большинстве случаев тогда, когда нет каких-либо априорных гипотез относительно классов, а исследование находится в описательной стадии.
Кластерный анализ определяет "наиболее возможно значимое решение«,поэтому проверка статистической значимости в действительности здесь неприменима.
Этапы кластерного анализа:
Отбор выборки для кластеризации.
Определение множества переменных, по которым будут оцениваться объекты в выборке.
Вычисление значений той или иной меры сходства между объектами.
Применение метода кластерного анализа для создания групп сходных объектов.
Проверка достоверности результатов кластерного решения
Методы кластеризации:
К-средних
Графовые алгоритмы кластеризации
Статистические алгоритмы кластеризации
Алгоритмы семейства FOREL
Иерархическая кластеризация или таксономия
Нейронная сеть Кохенена
Ансамбль кластеризаторов
Алгоритмы семейства KRAB
EM – алгоритм
Алгоритм, основанный на методе просеивания
Под кластером обычно понимают группу объектов, обладающую свойством плотности (плотность объектов внутри кластера выше, чем вне его), дисперсией, отделимостью от других кластеров, формой, размером
Плотность - это свойство, которое позволяет определить кластер, как скопление точек в пространстве данных, относительно плотное по сравнению с другими областями пространства, содержащими либо мало точек, либо не содержащих их вовсе.
Дисперсия характеризует степень рассеяния точек в пространстве относительно центра кластера. Лучше всего рассматривать дисперсию как характеристику того, насколько близко друг к другу расположены в пространстве точки кластера.
Кластер можно назвать «плотным», если все точки находятся вблизи его центра тяжести, и «неплотным», если они разбросаны вокруг центра.
Свойство кластеров - размер - тесно связано с дисперсией. Если кластер можно идентифицировать, то можно и измерить его «радиус». Это свойство полезно лишь в том случае, если рассматриваемые кластеры имеют круглую форму в многомерном пространстве, описываемом признаками.
Форма - это расположение точек в пространстве. Несмотря на то, что обычно кластеры изображают в форме окружностей, возможны кластеры и другой формы, например удлиненные кластеры. В последнем случае понятие радиуса или диаметра перестает быть полезным. Вместо этого можно вычислить «связность» точек в кластере - относительную меру расстояния между ними. Если же кластеры имеют другие, более причудливые формы, то понятие связности становится менее полезным, а ценность относительных оценок диаметра и плотности, следовательно, уменьшается.
Отделимость характеризует степень перекрытия кластеров и насколько далеко друг от друга они расположены в пространстве.
Так, кластеры могут быть относительно близки друг к другу и не иметь четких границ, или же они могут быть разделены широкими участками пустого пространства.
С помощью этих терминов можно описать кластеры любого вида.