Основные понятия математической статистики
.pdfvk.com/club152685050 | vk.com/id446425943
10. Методы многопараметрического анализа. Задача дискриминантного анализа (ДА). Ограничения на исходные данные. Применение функции Фишера и расстояния Махаланобиса в ДА.
Дискриминантный анализ (ДА) является статистическим методом, кото-
рый позволяет изучать различия между двумя и более группами объектов по нескольким переменным одновременно. ДА помогает выявлять различия между
группами и дает возможность классифицировать объекты
по принципу максимального сходства.
Задачи дискриминантного анализа можно разделить на три типа. Задачи первого типа часто встречаются в медицинской практике. Допустим, что мы располагаем информацией о некотором числе индивидуумов, болезнь каждого из которых относится к одному из двух или более диагнозов. На основе этой информации нужно найти функцию, позволяющую поставить в соответствие новым индивидуумам характерные для них диагнозы. Построение такой функции и составляет задачу дискриминации.
Второй тип задачи относится к ситуации, когда признаки принадлежности объекта к той или иной группе потеряны, и их нужно восстановить. Примером может служить определение пола давно умершего человека по его останкам, найденным при археологических раскопках.
Задачи третьего типа связаны с предсказанием будущих событий на основании имеющихся данных. Такие задачи возникают при прогнозе отдаленных результатов лечения, например, прогноз выживаемости оперированных больных.
Ограничения:
Ни одна переменная не может быть линейной комбинацией других переменных.
Закон распределения для каждой переменной имеет нормальное распределение при фиксированных значениях остальных переменных.
Вматематической статистике расстояние Махалано́биса —
мера расстояния между векторами случайных величин, обобщающая понятие
евклидова расстояния. Формально, расстояние Махаланобиса от многомерного вектора
до множества со средним
vk.com/club152685050 | vk.com/id446425943
значением
и матрицей ковариации
определяется следующим образом:
[2]
Расстояние Махаланобиса также можно определить как меру несходства между двумя случайными векторами
и
из одного распределения вероятностей с матрицей ковариации
:
Линейный дискриминант Фишера в первоначальном значении - метод, определяющий расстояние между распределениями двух разных классов объектов или событий.
Предположим, что два наблюдаемых класса имеют
средние
и ковариационные
матрицы
.Тогда для линейной комбинации
признаков
средними будут
, а ковариационные матрицы
будут иметь вид для .
Фишер взял за расстояние между этими распределениями величину, равную отношению межклассовой дисперсии к внутриклассовой:
Эта величина в некотором смысле характеризует соотношение сигнал-шум для разметки классов. Можно показать, что наилучшим образом классы разделимы при
.
Если выполняются предположения нормальности и равенства дисперсий, то полученное выше равенство эквивалентно ЛДА.
vk.com/club152685050 | vk.com/id446425943
11.Методы многопараметрического анализа. Модели дискриминантного анализа (ДА): стандартная, пошаговый ДА с включением и исключением, форма представления результатов, критерий Уилкса.
Стандартная: одновременное введение всех переменных, в этом случае учитывается каждая независимая переменная, при этом ее дискриминирующая сила не учитывается. Пошаговый дискриминантный анализ - анализ, при котором переменные вводятся последовательно, исходя из их способности различить
(дискриминировать) группы.
При пошаговом анализе «с включением» на каждом шаге просматриваются все переменные, и находится та из них, которая вносит наибольший вклад в различие между совокупностями. Эта переменная должна быть включена в модель на данном шаге, и происходит переход к следующему шагу.
При пошаговом анализе «с исключением» движутся в обратном направлении, в
этом случае все переменные сначала будут включены в модель, а затем на каждом шаге будут устраняться переменные, вносящие малый вклад в различение. Тогда в качестве результата успешного анализа можно сохранить только «важные» переменные в модели, т.е. те переменные, чей вклад в дискриминацию больше остальных. Пошаговый дискриминантный анализ основан на использовании уровня значимости F-статистики.
Прежде чем интерпретировать дискриминантную функцию следует убедиться в ее статистической значимости. Для этого проверяют нулевую гипотезу о равенстве центроидов во всех группах (чтобы дискриминантная функция была статистически значимой, эта гипотеза должна быть отвергнута). Эта гипотеза проверяется с помощью коэффициента лямбда Уилкса.
Лямбда Уилкса – отношение внутригрупповой суммы квадратов к общей сумме квадратов. Данный коэффициент характеризует долю дисперсии оценок дискриминантной функции, которая не обусловлена различиями между группами,
принимает значение 1 в случае, если средние значения для всех груп оказываются
vk.com/club152685050 | vk.com/id446425943
равными, и уменьшается с ростом разностей средних значений. Уровень значимости характеризует вероятность того, что различия между группами являются случайными.
Значения статистики лямбда Уилкса лежат в ин статистики
Уилкса, лежащая около 0, свидетельствуют о хорошей дискриминации; а значения
статистики Уилкса, лежащие около 1, свидетельствуют о плохой дискриминации. По данным показателя Wilks’ Lambda (значение лямбды Уилкса) и по значению F-критерия,
можно сделать вывод, что данная классификация корректная.
vk.com/club152685050 | vk.com/id446425943
12.Методы многопараметрического анализа. Модель факторного анализа. Факторные нагрузки, общности и общий вклад фактора.
Главными целями факторного анализа (ФА) являются: сокращение числа переменных
(редукция данных) и определение структуры взаимосвязей между переменными, т.е.
классификация переменных. Поэтому факторный анализ используется или как метод сокращения данных или как метод классификации.
Факторный анализ — это выявление и обоснование действия различных признаков и их комбинаций на исследуемый процесс путем снижения их размерности.
Задача состоит в выявлении общих факторов (обобщенных признаков) и определении их как существенных характеристик анализируемых данных. Для проведения факторного анализа получил развитие метод, основанный на матричных преобразованиях. В
качестве исходных данных для него служат результаты корреляционного анализа признаков, представленных в виде матрицы ихвыборочных попарных коэффициентов корреляции, обозначаемой как R.
Модель факторного анализа имеет вид:
vk.com/club152685050 | vk.com/id446425943
vk.com/club152685050 | vk.com/id446425943
13.Методы многопараметрического анализа. Модель факторного анализа. Задача о выборе числа факторов, критерии Кайзера и «каменистой осыпи».
Факторный анализ — это выявление и обоснование действия различных признаков и их комбинаций на исследуемый процесс путем снижения их размерности.
Задача состоит в выявлении общих факторов (обобщенных признаков) и определении их как существенных характеристик анализируемых данных. Для проведения факторного анализа получил развитие метод, основанный на матричных преобразованиях. В
качестве исходных данных для него служат результаты корреляционного анализа признаков, представленных в виде матрицы ихвыборочных попарных коэффициентов корреляции, обозначаемой как R.
Модель факторного анализа имеет вид:
Как только получена информация о том, сколько дисперсии выделил каждый фактор,
необходимо определить количество факторов. По своей природе это решение произвольно. Однако имеются некоторые общеупотребительные рекомендации, и на практике следование им дает наилучшие результаты.
vk.com/club152685050 | vk.com/id446425943
Критерий Кайзера или критерий собственных чисел. Отбираются только факторы с собственными значениями равными или большими 1. Это означает, что если фактор не выделяет дисперсию, эквивалентную, по крайней мере, дисперсии одной переменной, то он опускается[1].
Критерий каменистой осыпи или критерий отсеивания. Он является графическим методом, впервые предложенным психологом Кэттелом. Собственные значения возможно изобразить в виде простого графика. Кэттел предложил найти такое место на графике, где убывание собственных значений слева направо максимально замедляется. Предполагается, что справа от этой точки находится только «факториальная осыпь» — «осыпь» является геологическим термином, обозначающим обломки горных пород, скапливающиеся в нижней части скалистого склона[1]. Однако этот критерий отличается высокой субъективностью и, в отличие от предыдущего критерия, статистически необоснован. Недостатки обоих критериев заключаются в том, что первый иногда сохраняет слишком много факторов, в то время как второй, напротив, может сохранить слишком мало факторов; однако оба критерия вполне хороши при нормальных условиях, когда имеется относительно небольшое число факторов и много переменных. На практике возникает важный вопрос: когда полученное решение может быть содержательно интерпретировано. В этой связи предлагается использовать ещѐ несколько критериев.
.
vk.com/club152685050 | vk.com/id446425943
14.Методы многопараметрического анализа. Модель факторного анализа.
Вращение факторной структуры, остаточные корреляции.
Факторный анализ — это выявление и обоснование действия различных признаков и их комбинаций на исследуемый процесс путем снижения их размерности.
Задача состоит в выявлении общих факторов (обобщенных признаков) и определении их как существенных характеристик анализируемых данных. Для проведения факторного анализа получил развитие метод, основанный на матричных преобразованиях. В
качестве исходных данных для него служат результаты корреляционного анализа признаков, представленных в виде матрицы ихвыборочных попарных коэффициентов корреляции, обозначаемой как R.
Модель факторного анализа имеет вид:
Вращение факторной структуры
Задача вращения общих факторов решается с целью улучшения их интерпретируемости.
Факторные нагрузки могут быть изображены в виде диаграммы рассеяния, на которой каждая переменная представлена точкой. Можно повернуть оси в любом направлении без изменения относительного положения точек. При этом действительные координаты точек, то есть факторные нагрузки, изменяются.
vk.com/club152685050 | vk.com/id446425943
Методы вращения. Существуют различные методы вращения факторов. Целью этих методов является получение понятной (интерпретируемой) матрицы нагрузок, то есть факторов, которые ясно отмечены высокими нагрузками для некоторых переменных и низкими - для других. Эту общую модель иногда называют простой структурой Типичными методами вращения являются стратегии варимакс, квартимакс, и эквимакс.
Дисперсия квадратов факторных нагрузок переменной есть мера факторной сложности этой переменной:
где r - число столбцов факторной матрицы; bij - факторная нагрузка j-го фактора на i-ую переменную; bij - среднее значение квадратов факторных нагрузок в i-ой строке, n – число переменных.
Использование критерия кваримакс основано на вращении осей таким образом, чтобы результирующие факторные нагрузки максимизировали q.
Вращение по методу варимакс использует другой критерий. Вместо дисперсии квадратов нагрузок переменной рассматривается дисперсия квадратов нагрузок фактора.
Метод эквимакс представляет собой комбинацию методов варимакс и квартимакс.
Задачу факторного анализа можно сформулировать следующим образом: определить минимальное число k таких факторов F1 , F2 , …, Fk после учета которых исходная корреляционная матрица “исчерпается”, внедиагональные элементы ее станут близкими к нулю. Другими словами, это значит, что после учета k факторов все остаточные корреляции между исходными признаками должны стать незначимыми.
