Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекция 7-8.doc
Скачиваний:
9
Добавлен:
25.08.2019
Размер:
1.52 Mб
Скачать

Критерии качества классификации

После завершения процедуры классификации необходимо оценить полученные результаты. Для этой цели используется мера качества классификации, которою принято называть функционалом или критерием качества. Наилучшим считается такое разбиение на классы, при котором достигается экстремальное значение целевой функции – функционала качества.

Наиболее распространенные функционалы качества:

  • Сумма квадратов расстояний до центров классов. Разбиение оптимально, если значение этого функционала будет минимальным

  • Суммарная внутриклассовая дисперсия , где - дисперсия j-ой переменной в кластере SL. Разбиение оптимально, если значение этого функционала будет минимальным. Существует несколько алгоритмов кластеризации, обеспечивающих оптимальное разбиение с точки зрения этого функционала. К ним относится метод k-средних.

Судить о качестве разбиения позволяют некоторые приемы: сравнение средних значений признаков в отдельных кластерах со средними значениями признаков во всей совокупности объектов. Если отличие существенно, то можно говорить о хорошем разбиении.

Факторный анализ

Социологический смысл модели факторного анализа состоит в том, что измеряемые нами эмпирические показатели, переменные являются следствием некоторых других, глубинных, скрытых от непосредственного измерения характеристик – латентных переменных. Действительно, если мы фиксируем, степень доверия респондента к различным государственным институтам, то вполне логично предположить, что нет каких отдельных «доверий» к Государственной Думе, Совету Федерации, Счетной Палате и т.п. Скорее у респондента есть некоторое общее отношение к институтам центральной власти, которое и определяет то, как респондент отвечает на отдельные вопросы по доверию к каждому отдельному институту.

Существенно при этом, что это общее, единое отношение к государственным институтам, формируя отношение к каждому из них, не определяет отношения к отдельному институту на 100%. Таким образом, ответ респондента на вопрос о том, насколько он доверяет какому-то конкретному государственному институту, находится под влиянием двух составляющих: общего фактора отношения к государственным институтам и отдельного отношения именно к данному конкретному институту.

Идея метода состоит в сжатии матрицы признаков в матрицу с меньшим числом переменных, сохраняющую почти ту же самую информацию, что и исходная матрица. В основе моделей факторного анализа лежит гипотеза, что наблюдаемые переменные являются косвенными проявлениями небольшого числа скрытых (латентных) факторов. Хотя такую идею можно приписать многим методам анализа данных, обычно под моделью факторного анализа понимают представление исходных переменных в виде линейной комбинации факторов. Схематично такой взгляд на формирование ответов респондентов на вопросы анкеты показан на рисунке 5.1.

Рисунок 5.1

Условное представление модели факторного анализа

На рисунке 5.1 F1, F2, F3 – факторы, каждый из которых влияет на определенную совокупность переменных; x1, x2,.. ,x7 – переменные, формируемые на основании ответов опрашиваемых; U1, U2,...,U7 – уникальные факторы, влияющие на соответствующие переменные.

Факторы F построены так, чтобы наилучшим способом (с минимальной погрешностью) представить Х. В этой модели "скрытые" переменные Fk называются общими факторами, а переменные Ui специфическими факторами ("специфический" -это лишь один из переводов применяемого в англоязычной литературе слова Unique, в отечественной литературе в качестве определения Ui встречаются также слова "характерный", "уникальный"). Значения aik называются факторными нагрузками.

Обычно (хотя и не всегда) предполагается, что Xi стандартизованы ( =1, Xi=0), а факторы F1,F2,…,Fm независимы и не связаны со специфическими факторами Ui (хотя существуют модели, выполненные в других предположениях). Предполагается также, что факторы Fi стандартизованы.

В этих условиях факторные нагрузки aik совпадают с коэффициентами корреляции между общими факторами и переменными Xi. Дисперсия Xi раскладывается на сумму квадратов факторных нагрузок и дисперсию специфического фактора:

, где

Величина называется общностью, - специфичностью. Другими словами, общность представляет собой часть дисперсии переменных, объясненную факторами, специфичность - часть не объясненной факторами дисперсии.

В соответствии с постановкой задачи, необходимо искать такие факторы, при которых суммарная общность максимальна, а специфичность - минимальна.