Добавил:

Studfiles2 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Анализ и интерпретация данных

Файл:

Методы анализа больших массивов данных / bmd3.doc

Скачиваний:

Добавлен:

01.05.2014

Размер:

988.67 Кб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 67 / 77

3.8. Экстремальная группировка признаков (параметров)

Итак, мы пришли к выводу, что необходимость содержательной интерпретации факторного решения приводит к необходимости вращения факторов с целью получения простой структуры матрицы факторных нагрузок. Основные требования к простой структуре были сформулированы Терстоуном, основателем метода факторного анализа. Как уже было показано, идея простой структуры Терстоуна хорошо согласуется с представлением о интерпретации фактора как скрытого, но существенного признака, поведение которого определяет поведение некоторой своей группы наблюдаемых признаков, в то время, как поведение других признаков определяется поведением других скрытых признаков.

Если в данном случае обратиться к корреляционной матрице, то можно непосредственно увидеть, что она должна обладать так называемой блочно-диагональной структурой. Это означает, что путем одновременной перестановки строк и столбцов можно так перегруппировать элементы корреляционной матрицы, что все большие значения будут сосредоточены в квадратных блоках разного размера, число которых равно числу групп сильно связанных признаков. Такие блоки будут расположены вдоль главной диагонали матрицы. Тогда для каждой из выделенных групп сильно связанных признаков можно построить только один фактор с наибольшим вкладом в их общности. Естественно ожидать, что содержательная интерпретация такого фактора окажется простой.

Для решения данной задачи в работах Э.М.Бравермана в 1970 г. были предложены полностью формализованные, так называемые методы экстремальной группировки признаков. В данных методах коррелированность признаков внутри групп объективно оценивается при данном разбиении с помощью специального функционала, зависящего одновременно как от разбиения признаков на группы, так и от построенных для каждой группы факторов группы. В данных методах в едином процессе экстремизации такого функционала одновременно с группировкой признаков строятся отдельные факторы для каждой формируемой группы.

Глубокая связь методов экстремальной группировки признаков с методами факторного анализа состоит в том, что факторы отдельных групп строятся как главные или центроидные факторы при анализе редуцированной корреляционной матрицы и как главные или центроидные компоненты при анализе исходной корреляционной матрицы. Тем самым, факторное решение, полученное методами экстремальной группировки, оказывается полученным в результате одновременного решения в едином процессе следующих задач: построения mобщих факторов, их косоугольного (неортогонального) вращения с целью получения простой структуры, вычисления значений общих факторов.

3.9. Алгоритмы экстремальной группировки

Пусть множество признаков разбито наLгрупп. Разбиение признаковX_jозначает разбиение матрицы данныхXнаLгрупп столбцов. Рассмотрим редуцированную корреляционную матрицу. Разбиение признаков наLгрупп означает разбиение матрицыодновременно на группы строк и соответствующие группы столбцов. Тогда вдоль главной диагонали будут выделены подматрицы, элементами которых являются корреляции признаков, входящих в одну группу.

Пусть каждой группе признаков , то есть каждой матрицегруппыпоставлен в соответствие некоторый нормированный фактор. Рассмотрим для некоторой группывклад ее факторав общности признаков данной группы, где- факторная нагрузка признакаX_jиз группыфактором группы.

Очевидно, что фактор группы является наиболее важным среди всех возможных факторов и, следовательно, обеспечивает наибольший вклад в общности признаков. Так как вклад , то его максимизация означает, что вектор факторных нагрузок, гдеn_k- число признаков в группеG_k, пропорционален первому собственному вектору матрицы, соответствующему ее максимальному собственному числу. Следовательно, фактор группыG_kявляется ее первым главным фактором, поэтому значения факторных нагрузок вычисляются как величины

, где

- диагональная матрица собственных чисел матрицы ,

- 1-й собственный вектор матрицы.

Совокупность вкладов факторов всех групп составляет величину

Следовательно, максимизация функционала I₁при фиксированных группахозначает построение факторов, сильно коррелирующих со своей группой признаков. С другой стороны, чем сильнее коррелируют признаки в группе, тем сильнее коррелирует с ними их фактор, тем выше значение функционалаI₁. Поэтому при фиксированных факторах следует перегруппировать признаки с целью образования более компактных групп.

Для этого следует просмотреть все признаки X_jи для каждого из них найти такую группуG_l, с фактором которой данный признак коррелирует сильнее всего

Признак X_jследует перенести в группуG_l, или одну из них, если таких групп несколько, или оставить на месте, если среди них встретилась группа, к которой ранее принадлежал данный признак. Далее вновь надо найти факторы новых групп. Вычисления следует прекратить, когда ни один из признаков нельзя перенести в другую группу.

Заметим, что при фиксированном разбиении на группы для признакаX_jизвестна только его корреляция с фактором своей группы, а корреляции с факторами других групп неизвестны. Но для их вычисления, не обязательно вычислять значения факторов остальных групп, так как

где - матрица вычисленных значений для признаковX_jв группеG_k,

- вектор-столбец, составляющий частьj столбца исходной редуцированной корреляционной матрицы,для признаков из группыG_k.

В качестве начального можно взять любое разбиение признаков, но лучше взять разбиение, полученное каким-либо более простым алгоритмом для сокращения числа шагов работы данного алгоритма. Это необходимо, так как на каждом шаге алгоритма экстремальной группировки приходится определять собственные векторы соответствующих подматриц.

Второй алгоритм экстремальной группировки основан на алгоритме построения центроидных факторов. При этом для каждой группы сильно связанных признаков строится первый центроидный фактор группы. Очевидным достоинством такого алгоритма является его простота и меньшая трудоемкость вычислений, так как все они связаны только с определением знаков +1 и -1 целочисленных коэффициентов, как при вычислении факторных нагрузок признаков группы, так и при переносе признаков между группами с целью максимизации квадратичных форм для групп, где- векторы коэффициентов, принимающих значения +1 и -1,. Именно поэтому второй алгоритм экстремальной группировки удобно использовать для получения начального решения для первого алгоритма. Недостатком второго алгоритма является локальность найденного им решения.

Оба данных алгоритма приводят, вообще говоря, к разным разбиениям признаков на группы и, тем более, к разным факторам. Но часто оба алгоритма приводят к весьма близким и даже совпадающим разбиениям и близким факторам.

<<< < Предыдущая 1 2 3 4 5 67 / 77

Соседние файлы в папке Методы анализа больших массивов данных

#
01.05.201460.93 Кб93BMD.DOC
#
01.05.2014731.14 Кб103BMD1.DOC
#
01.05.20141.19 Mб110bmd2.doc
#
01.05.2014988.67 Кб84bmd3.doc
#
01.05.20141.77 Mб94bmd4.doc