- •1. Анализ пропущенных значений. Методы заполнения пропусков.
- •2. Непараметрические критерии различий двух выборок.
- •3. Графические и аналитические методы анализа.
- •4.Нормальный закон распределения и его значение для прикладной статистики.
- •6.Непараметрические критерии однородности двух выборок.
- •9. Метод кластеризации данных.
- •8.Проверка гипотез о коэфицентах регрессии и коэфицентах корреляции.
- •7.Множественный дисперсионный анализ
- •10. Стандартизация исходных данных
- •11. Основные понятия и алгоритмы кластерного анализа
- •12. Проверка гипотез о коэффициентах регрессии и коэффициентах корреляции
- •Дисперсионный анализ при оценке качества регрессии.
- •Основные возможности пакета Excel для анализа статистических данных.
- •Однофакторный дисперсионный анализ.
- •19. Корреляционный анализ. Парный коэффициент корреляции.
- •20.Основные задачи математической статистики
- •1. Задача определения закона распределения случайной величины (или системы случайных величин) по статистическим данным
- •2. Задача проверки правдоподобия гипотез
- •3. Задача нахождения неизвестных параметров распределения
- •21. Критерий согласия распределения.
- •22. Основные понятия и алгоритмы кластерного анализа
- •23. Основные проверки статистических гипотез
- •24) Критерий Стьюдента (t-критерий) (проверка гипотез о равенстве средних).
- •27)Методы кластеризации данных
- •28. Параметрические и непараметрические методы.
9. Метод кластеризации данных.
Кластерный анализ – совокупность математических методов, предназначенных для формирования относительно "отдаленных" друг от друга групп "близких" между собой объектов по информации о расстояниях или связях между ними
Методы кластерного анализа в пакете STATISTIKA.
В модуле Cluster Analysis пакета Statistika реализуются следующие методы классификации:
Соединение ( древовидная кластеризация)
Назначение этого алгоритма состоит в объединении объектов в достаточно большие кластеры, используя некоторую меру сходства или расстояние между объектами. Типичным результатом такой кластеризации является иерархическое дерево.
Метод К – средних
Метод К – средних относится к группе так называемых эталонных методов кластерного анализа. Число кластеров задается пользователем.
На первом шаге определяют К- кластеров – эталонов. Далее каждый объект присоединяется к ближайшему эталону. Как только объект включается в кластер, среднее пересчитывается. После пересчета эталона объекты снова распределяются по ближайшим кластерам. Процедура заканчивается при стабилизации процессат.е при стабилизации центров тяжести.
Двухвходное объединение
Кластеризация проводится одновременно как по переменным, так и по результатам наблюдений. Процедура двухвходового объединения используется в тех случаях, когда можно ожидать, что одновременная кластеризация по переменным(столбцам) и наблюдениям (строкам) дает возможность получить осмысленные кластеры.
Описательные статистики по переменным и наблюдениям, а также двумерная цветная диаграмма, на которой цветом отмечаются значения данных. По распределению цвета можно составить представление об однородных группах.
Результаты кластеризации имеют следующий вид:
Строится горизонтальная или вертикальная дендрограмма – график, на котором определены расстояния между объектами и кластерами при их последовательном объединении. Древовидная структура графика позволяет определить кластеры в зависимости от выбранного порога – заданного расстояния между кластерами.
Выводится матрица расстояний между исходными объектами
Выводятся средние и среднеквадратичные отклонения для каждого исходного объекта.
Для реализации любого метода кластеризации из группы иерархических процедур необходимо сделать следующие установки:
- Определить вид входных данных: можно вводить таблицу с координатами Выбрать переменные для анализа
- объектов либо наблюдения (строки). В последнем случае каждая строка таблицы исходных данных есть объект
- Выбрать метрику, определяющую расстояние между кластерами
- Выбрать метрику, определяющую расстояние между объектами.
8.Проверка гипотез о коэфицентах регрессии и коэфицентах корреляции.
Наибольшей популярностью при проверке гипотез о равенстве генеральных средних (математических ожиданий) пользуется t-критерий Стьюдента.
Рассмотрим подробнее особенности использования t-критерия Стьюдента. Наиболее часто t -критерий используется в двух случаях. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух независимых, несвязанных выборок (так называемый двухвыборочный t-критерий). В этом случае есть контрольная группа и опытная группа, состоящая из разных пациентов, количество которых в группах может быть различно. Во втором же случае используется так называемый парный t-критерий, когда одна и та же группа объектов порождает числовой материал для проверки гипотез о средних. Поэтому эти выборки называют зависимыми, связанными.
t-критерий является наиболее часто используемым методом обнаружения различия между средними двух выборок. Например, t-критерий можно использовать для сравнения средних показателей группы пациентов, принимавших определенное лекарство, с контрольной группой, где принималось безвредное лекарство. Теоретически, t-критерий может применяться, даже если размеры выборок очень небольшие (например, 10; некоторые исследователи утверждают, что можно исследовать выборки меньшего размера), и если переменные нормально распределены (внутри групп), а дисперсии наблюдений в группах не слишком различны (см. также Элементарные понятия статистики). Предположение о нормальности можно проверить, исследуя распределение (например, визуально с помощью гистограммы) или применяя какой-либо критерий нормальности. Равенство дисперсий в двух группах можно проверить с помощью F критерия или использовать более устойчивый критерий Левена. Если условия применимости t-критерия не выполнены, следует использовать непараметрические альтернативы t-критерия (см. Непараметрическая статистика и подгонка распределения).
Чтобы применить t-критерий для независимых выборок, требуется, по крайней мере, одна независимая (группирующая) переменная (например, Пол: мужчина/женщина) и одна зависимая переменная (например, тестовое значение некоторого показателя, кровяное давление, число лейкоцитов и т.д.). С помощью специальных значений независимой переменной (эти значения называются кодами, например, мужчина и женщина) данные разбиваются на две группы. Можно произвести анализ следующих данных с помощью t-критерия, сравнивающего среднее WCC для мужчин и женщин.