Критерии качества классификации

После завершения процедуры классификации необходимо оценить полученные результаты. Для этой цели используется мера качества классификации, которою принято называть функционалом или критерием качества. Наилучшим считается такое разбиение на классы, при котором достигается экстремальное значение целевой функции – функционала качества.

Наиболее распространенные функционалы качества:

Сумма квадратов расстояний до центров классов. Разбиение оптимально, если значение этого функционала будет минимальным
Суммарная внутриклассовая дисперсия , где - дисперсия j-ой переменной в кластере S_L. Разбиение оптимально, если значение этого функционала будет минимальным. Существует несколько алгоритмов кластеризации, обеспечивающих оптимальное разбиение с точки зрения этого функционала. К ним относится метод k-средних.

Судить о качестве разбиения позволяют некоторые приемы: сравнение средних значений признаков в отдельных кластерах со средними значениями признаков во всей совокупности объектов. Если отличие существенно, то можно говорить о хорошем разбиении.

Факторный анализ

Социологический смысл модели факторного анализа состоит в том, что измеряемые нами эмпирические показатели, переменные являются следствием некоторых других, глубинных, скрытых от непосредственного измерения характеристик – латентных переменных. Действительно, если мы фиксируем, степень доверия респондента к различным государственным институтам, то вполне логично предположить, что нет каких отдельных «доверий» к Государственной Думе, Совету Федерации, Счетной Палате и т.п. Скорее у респондента есть некоторое общее отношение к институтам центральной власти, которое и определяет то, как респондент отвечает на отдельные вопросы по доверию к каждому отдельному институту.

Существенно при этом, что это общее, единое отношение к государственным институтам, формируя отношение к каждому из них, не определяет отношения к отдельному институту на 100%. Таким образом, ответ респондента на вопрос о том, насколько он доверяет какому-то конкретному государственному институту, находится под влиянием двух составляющих: общего фактора отношения к государственным институтам и отдельного отношения именно к данному конкретному институту.

Идея метода состоит в сжатии матрицы признаков в матрицу с меньшим числом переменных, сохраняющую почти ту же самую информацию, что и исходная матрица. В основе моделей факторного анализа лежит гипотеза, что наблюдаемые переменные являются косвенными проявлениями небольшого числа скрытых (латентных) факторов. Хотя такую идею можно приписать многим методам анализа данных, обычно под моделью факторного анализа понимают представление исходных переменных в виде линейной комбинации факторов. Схематично такой взгляд на формирование ответов респондентов на вопросы анкеты показан на рисунке 5.1.

Рисунок 5.1

Условное представление модели факторного анализа

На рисунке 5.1 F₁, F₂, F₃ – факторы, каждый из которых влияет на определенную совокупность переменных; x₁, x₂,.. ,x₇– переменные, формируемые на основании ответов опрашиваемых; U₁, U₂,...,U₇ – уникальные факторы, влияющие на соответствующие переменные.

Факторы F построены так, чтобы наилучшим способом (с минимальной погрешностью) представить Х. В этой модели "скрытые" переменные F_k называются общими факторами, а переменные U_i специфическими факторами ("специфический" -это лишь один из переводов применяемого в англоязычной литературе слова Unique, в отечественной литературе в качестве определения U_i встречаются также слова "характерный", "уникальный"). Значения a_ik называются факторными нагрузками.

Обычно (хотя и не всегда) предполагается, что X_i стандартизованы ( =1, X_i=0), а факторы F₁,F₂,…,F_m независимы и не связаны со специфическими факторами U_i (хотя существуют модели, выполненные в других предположениях). Предполагается также, что факторы F_i стандартизованы.

В этих условиях факторные нагрузки a_ik совпадают с коэффициентами корреляции между общими факторами и переменными X_i. Дисперсия X_i раскладывается на сумму квадратов факторных нагрузок и дисперсию специфического фактора:

, где

Величина называется общностью, - специфичностью. Другими словами, общность представляет собой часть дисперсии переменных, объясненную факторами, специфичность - часть не объясненной факторами дисперсии.

В соответствии с постановкой задачи, необходимо искать такие факторы, при которых суммарная общность максимальна, а специфичность - минимальна.

<<< < Предыдущая 1 2 34 / 84 5 6 7 8 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
29.08.201981.41 Кб9Лекция 4 Персонал и производительность труда.doc
#
02.06.20154.47 Mб53Лекция 4. Модели валютных курсов.pdf
#
28.10.2018457.22 Кб10лекция 5 принятие УР в усл неопр и опред.новый....doc
#
26.03.2016751.54 Кб18ЛЕКЦИЯ 5.pdf
#
26.03.20161.66 Mб14ЛЕКЦИЯ 6.pdf
#
25.08.20191.52 Mб9Лекция 7-8.doc
#
26.03.20161.84 Mб13ЛЕКЦИЯ 7.pdf
#
14.08.201955.56 Кб2Лекция 8 (2011).docx
#
06.08.2019308.14 Кб2Лекция 8 (геом.вект.).docx
#
11.07.201993.18 Кб4Лекция 8.doc
#
26.03.20161.03 Mб27ЛЕКЦИЯ 8.pdf