Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Курс Ст ФА ДА.doc
Скачиваний:
8
Добавлен:
17.09.2019
Размер:
2.19 Mб
Скачать

Курс … 2 семестр Раздел: дискриминантный и факторный анализ.

Введение

Общее и различия в постановке задач кластерного, факторного,

регрессионного и дискриминантного анализа

Общее: задачи каждой из перечисленных дисциплин опираются на анализ матрицы данных – матрицы наблюдений.

Ее часто обозначают Х

Это матрица значений (по столбцам) - регрессоров или признаков х1 х2xm.

Но в этой матрице, наравне с столбцами х - признаки, участвуют строки d - объекты, - пэтому мы должны бы считать ее не только матрицей признаков х характеризующих объекты d но и матрицей объектов d содержащих в себе определенные значения признаков х.

То есть в “матрице признаков” Х

признаки х характеризуют объекты d

признак х1 на объект d1 принимает значение х11,

признак х1 на объект d2 принимает значение х12

…………………………………………………..

признак хm на объект dn принимает значение хnm

И рассматривая ее же как “матрицу объектов” D

- здесь объекты d характеризуют признаки х

- объект d1 на признаке х1 принимает значение d11,

- объект d1 на признаке х2 принимает значение d12

………………………………………………..

объект dn на признаке хm принимает значение dnm.

Поэтому надо бы ее обозначать нейтральной буквой, не Х, не D а например Z.

Ну пусть будет Х – мы так привыкли, но имеем в виду, что эта матрица Х состоит равноправно из

столбцов - признаков х и строк – объектов d и анализировать Х возможно, исходя из пространства столбцов х – признаков и

исходя из пространства строк d – объектов.

Напомню, что мы уже применяли такой подход в регрессионном анализе получая интерпретации решений и в пространстве переменных и в пространстве точек.

Если это все что нам дано - то есть мы не имеем значения вектора У, который мы в РА трактовали как выход, то

* анализ тесноты связей в Х естественно может сводится к

анализу тесноты связей в 1. строках - объектах

2. столбцах – признаках.

вопросы о структуре (направлении) связей, – более сложные вопросы - решаем в рамках статистичемкого причинно-следственного анализа И так (различия)

1 . первый анализ -степени близости строк (объектов d) проводится в пространстве признаков и это будут группы объектов Di – и вы сразу узнали тему кластерного анализа которым только что занимались.

Именно этот аппарат позволяет выделять естественные группировки объектов которые могут реально соответствовать каким-то интерпретируемым классам.

2. второй тип анализа -степени близости признаков – проводится в пространстве объектов и результатом будут группировки (по тесноте связи) признаков. Тесноту связи определяют высокие значения парной корреляции

В пространстве объектов такие близкие связанные признаки будут образовывать пучки с не сильно отличающимися направляющими

косинусами между ними.

Обычно у каждой такой группы признаков существует общая причина влияющая на их вариации причем, латентная, то есть не присутстующая в нашем наборе признаков.

Ее, эту причину, и называют фактором.

Предметом ФА является поиск и попытки восстановления этих общих, для найденных групп признаков, и до сих пор нам неизвестных, переменных - факторов.

Интересно что в факторном анализе существуют несколько техники – одна из них R-техника,основанная на анализе и выявлении общности признаков и нахождении факторов , другая Q-техника - аналогичные подходы и алгоритмы только относительно объектов.

Получается, что Q-техника, по сути, – это методы факторного анализа, примененные в целях кластеризации. Вот такая трактовка для методов ФА как инструмента Кл. анализа. Верно и обратное – специальные методы КлАнализа могут быть рассмотрены для анализа переменных и с этой точки зрения оценены для механизмов ФА.

-------

Если в добавок к нашей матрице Х задан выходной вектор У

в виде значений относительной, абсолютной, интервальной переменных - то это предмет регрессионного (индуктивного) анализа и моделирования. Об этом мы уже говорили в 1 семестре.

А вот если если выходной вектор – назовем его здесь d, задан в виде значений категориальной (порядковая или номинальная или дискретная фиктивная) переменной, группирующих объекты матрицы Х в классы - то на лицо постановка задачи классификации с учителем.

То есть, задача классификации с учителем возникает, когда нам заданы группы или классы перечнем объектов подряд по классам:

- ,

,….,.

)

Вот тогда вознакает классическая задача обучени с учителем которой занимается дисциплина

Классификация с “Учителем” или “Распознавание образов”

Дисциплина занимается построением классификаторов У по заданной обучающей выборке Х для использования, затем, при определении класса новых объектов.

------------------

К слову – на практике мы проведем исследовательскую последовательную работу с выданным вам по вариантам матрицам наблюдений пациентов. Матрица данных по 75 признакам и характеризует состояние пациентов которым делали оперции протезирования клапанов сердца и операции аортокоронарного шунтирования.и фиксирует осложнения (норма, развитие серд недостаточности, наруш мозгового кровообращения, комби)

Вы должны убедится насколько естественные группировки (по рез. кластерного анализа) соответствуют выделенным нами классам осложнений, и должны найти подклассы если они есть.

Далее протащим нашу матрицу через дискриминантный анализ и факторный анализ.

Но начинаем работу с того чтобы выяснить не группируются ли в нашей матрице данные еще как нибудь, кроме как по выделенным нами классам. Именно в существовании подклассов часто возникают проблемы РО.

Пример

Основная гипотеза методов РО исходит того что пространство признаков подобрано целесообразно и поэтому концентрпрует в себе различия классов – а значит и отличия их средних. Поэтому основная гипотеза РО – гипотеза компактности классов в Х.

Но что же происходит при наличии подклассов – см самый неприятный вариант.

Здесь средние классов совпадают и применяемый алгоритм должен строить сложную нелинейную границу. Если же выделить подклассы то задачу можно решить линейными границами.

Поэтому ваш кластерный анализ проводится сначала в полной матрице (важно – совпадут группировки по кластерам с нашими известными классами – если нет, то какие будут отличия и насколько значимы будут они) а затем проанализировать тоже самое но в каждом классе отдельно – не наблюдаются ли у нас явные подклассы

Затем прогоним данные через ЛР и получите бинарные классификаторы

Затем тоже дискриминантным анализом,

И завершим все поверкой как группируются наши признаки в этой задаче – то есть проведем факторный анализ. (логичнее было бы это сделатьв начале - до ЛГ и ДА но …..не играет особой роли)

Особо любопытные попробуют провести клиссификацию уже не в исходном пространстве а в пространстве факторов (и канонических ДФ построенных на факторах)

Это наша программа максимум на практических занятиях – и в сумме эта работа будет Вашей иллюстрацией к вопросам на экзамене.

Начнем теперь с Этапа постановки задачи.

Постановка задачи классификации (с учителем)

1. Задан факт существования некоторого множества классов , представляющих собой конечные или бесконечные множества объектов : ….. .

2. известен факт, что множества Æ при (*) !

3. Нам классы задаются как их приближения через усеченные множества объектов, им принадлежащих , ,…, или , ,…, (**)

где ,….,

Очевидно что ввиду (*) для любых подмножеств удовлетворяющих (**) должно выполнятся Æ при (***) !

4 . Предполагается что данные объекты, описываются в конечномерном пространстве вектором признаков что образует в пространстве соответствующие множества .

Н еобходимо на основании обучающих подмножеств построить наилучшее правило классификации произвольного объекта из исходных множеств .

Многообразие алгоритмов сводится к следующему

– как сформировать понимание наилучшести в конкретных условиях информативности Х, свойств распределений Х, ущерба от неправильной классификации.

Если с иформативностью все в порядке – то будет оправдыватся основная гипотеза лежащая в основе практически всех методов анализа матриц данных = гипотеза о компактности классов:

– в целесообразно подобранном признаковом пространвтве Х элементы классов чем-то похожи и образуют компактные сгущения. Если данная гипотеза нарушается – возникают проблемы для распознающих алгоритмов.

Особенности условий вероятностной и детерминированных

постановок задачи классификации с учителем

В зависимости от свойств распределений объектов в пространстве Х применяют или детерминированные (в том числе логические) или вероятностные подходы

- детерминмрованные: лин/нелин разделяющие границы, алгоритмы по близости к центрам классов …

- вероятностные – то же самое, но с учетом вероятностей нахождения объектов в классах.

- Логические (F(if,then(x,a)) – если доминирует логика в расположении классов а не компактность:

Когда же целесообразно применять первые а когда вторые. Рассмотрим общие и различающиеся предпосылки для применения дет. и вероятн. подходов.

Детерминированная постановка

Вероятностная постановка

Общие условия

1. Задается пространство признаков х1 х2 …..хm в котором характеризуются объекты

2. Количество классов задано (К) и каждый класс задается соответствующим перечнем объектов. Перечень представлен матрицей значений признаков.

3.!!!! По определению, каждый предъявляемый объект может принадлежать исключительно одному из К классов (важно – так как дальнейшие ньюансы двух постановок именно в этой части формализации задачи)

то есть

пересечения множеств Æ при

* Необходимо найтии правило, наилучшим образом решающее задачу классфикации

Различные условия

А. Детерминированная постановка

Б. Вероятностная постановка

1.Пространство признаков признается полным – то есть достаточным для однозначного определения принадлежности к классу

, , Æ при

2. Шум в данных допускается, но он недостаточен для нарушения механизма однозначности классификации в имеющемся пространстве признаков

( гармония с п.3. общих условий)

1.При справедливости Æ

признается возможность неполноты пространства признаков Х – то есть наличия информационной недостаточности для однозначного определения принадлежности к классу ( отсюда необходимость вероятностного механизма классификации). Это означает пересечения областей классов в Х (при этом см п.3 общих условий) – и необходимо принимать решение о классе по вероятности

то есть разные объекты (имена разные) с равными значениями признаков могут сидеть в разных классах

2.Пусть пространство признаков есть исходно полным то есть достаточным для однозначной классификации – однако реальные условия наблюдения, измерения признаков в условиях шумов искажают их значения в той степени что области “заселения” классов в данном пространстве признаков все равно пересекаются

То есть, для двух различных (по имени) объектов находящихся в одной точке признакового пространства возможна принадлежность к разным классам.(при этом см п.3 общих условий).

НО в результате мы будем находить непересекающиеся по вероятности области классов в Х , приводя их, все равно к Æ

Однако даже при выбранном варианте постановки – детерм. или вероятн. применяют различные схемы к решению задач классификации.

Что имеется в виду. Упрощенно возможно рассмотреть 3 варианта схемы.

Схемы решения задач классификации

Одну и ту же многоклассовую задачу возможно решать

1. Непосредственно, как многоклассовую, - одним решающим правилом

2. Как ряд независимых задач с разделением классов на подгруппы:

наиболее известный способ – “один против всех”,группировки по 2” и т.д.

3. с помощью систем связанных решающих правил

Расмотрим их последовательно