Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
готовая_работа_621696.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
167.39 Кб
Скачать
  1. Дискриминантный анализ

Вероятностное обоснование результатов кластеризации можно получить методом дискриминантного анализа. Дискриминантный анализ позволяет проверить гипотезу о воз­можности классификации заданного множества объектов п, харак­теризуемых некоторым числом т переменных X, на некоторое чис­ло классов или кластеров к. Он позволяет объективно классифици­ровать новые объекты по этим переменным.

При выполнении анализа ищется набор дискриминирующих функций dl обеспечивающих классификацию объектов на задан­ное число классов:

dl= bl0+ b11 · Xl + ... + blm- Xm, l= 1,...k.

Исходные данные представляются в виде матрицы размером  + 1) х п, причем п строк характеризуют п объектов. Первые т столбцов - это значения т переменных для п объектов, а т + 1-й столбец для каждого объекта - это номер его класса. Классы нуме­руются натуральными числами от 1 до к, где к - число классов. Объекты, характеризуемые строками в матрице, могут располагаться произвольно относительно номеров классов.

Если кроме вычисления дискриминирующей функции нужно с ее помощью классифицировать ряд новых объектов, то такие объекты также исходно включаются в матрицу данных с номером класса 0.

Результаты анализа представляют собой следующие оценки:

  • суммарное межкластерное расстояние Махаланобиса D2 (Mahalanobis) между классами с уровнем значимости Р для нуле­вой гипотезы "D2 = 0", то есть гипотезы о невозможности разбие­ния совокупности объектов на заданное число классов;

  • коэффициенты дискриминирующей функции, обеспечивающей отнесение объектов к данному классу, отдельно для каждого класса;

  • данные для каждого объекта j, в том числе номер его класса r, расстояние Махаланобиса Dj2 от объекта до центра класса, уровень значимости Р нулевой гипотезы "Dj2 = 0", то есть гипотезы о том, что объект может быть отнесен к данному классу, а также вероят­ность Рjr отнесения объекта к этому классу.

Если Р > 0,05, соответствующая нулевая гипотеза может быть принята.

Если начальное разбиение на классы нельзя произвести с доста­точной степенью уверенности, можно предварительно выполнить кластерный анализ с использованием дивизивной стратегии разби­ения и испробовать несколько вариантов числа группировок.

  1. Факторный анализ

Переменные, значения которых представляют данные статистики или которые можно измерять в эксперименте, имеют для исследуемого объекта или явления нередко достаточно условный характер. Они могут лишь опосредованно отражать его внутреннюю структуру, движущие силы или факторы.

Исследователь рынка, аналитик органа планирования ограничен набором показателей, традиционно используемых в официальной статистике, в анкетах для опросов. Когда неизвестный фактор проявляется в изменении нескольких переменных, в процессе анализа можно наблюдать существенную корреляцию или связь между переменными. Тем самым число независимых, первоначально скрытых факторов может быть существенно меньше, чем число традиционно используемых показателей, которые выбирают достаточно субъективно.

Степень влияния фактора на некоторый показатель статистически характеризуется величиной дисперсии, то есть разбросом значения этого показателя при изменении значений фактора. Если расположить оси исходных переменных ортогонально друг к другу, то можно обнаружить, что в этом пространстве объекты группируются своим расположением, определенным координатами точек, в виде некоторого облака или эллипса рассеяния, более вытянутого в одних направлениях и почти плоского в других.

Если провести новые оси соответственно осям эллипса рассеяния, то можно говорить о выделении факторов, более субстанциальных по сравнению с исходными переменными, и оценивать сравнительную значимость этих факторов в терминах дисперсии. При этом обычно оказывается, что толщина такого облака рассеяния по некоторым осям настолько мала, что эти оси можно в дальнейшем вовсе исключить из рассмотрения.

Метод факторного анализа первоначально был разработан в психологии с целью выделения отдельных компонентов человеческого интеллекта из многомерных данных по измерению различных проявлений умственных способностей. Однако очень быстро этот метод завоевал популярность в экономических исследованиях, прогнозировании и планировании. Наиболее широко используется метод главных компонент.

Как правило, основной задачей факторного анализа является нахождение сокращенной системы существенных факторов в пространстве регистрируемых переменных