Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
15.docx
Скачиваний:
79
Добавлен:
20.02.2016
Размер:
93.78 Кб
Скачать
  1. Этапы выполнения дискриминантного анализы. Формулирование проблемы

Выполнение дискриминантного анализа включает следующие стадии: формулирование проблемы, вычисление коэффициентов дискриминантной функции, определение значимости, интерпретация и проверка достоверности.

Первый шаг дискриминантного анализа — формулирование проблемы путем определения целей, зависимой переменой и независимых переменных. Зависимая переменная должна состоять из двух или больше взаимоисключающих и взаимно исчерпывающих категорий.

Если зависимая переменная измерена с помощью интервальной или относительной шкалы, то ее следует, в первую очередь, перевести в статус категориальной. Например, отношение к торговой марке, измеренное по семибалльной шкале, можно категоризировать как неблагоприятное (1, 2, 3), нейтральное (4) и благоприятное (5, 6, 7). Можно поступить иначе. Для этого следует построить график распределения значений зависимой переменной и сформировать группы равного размера с помощью точек отсечения. Предикторы следует выбирать, исходя из теоретической модели или ранее проведенного исследования, или, в случае поискового исследования, из интуиции и опыта исследователя. Следующий шаг — разделение выборки на две части. Одна из них — анализируемая выборка (analysis sample) — используется для вычисления дискриминантной функции. Другая часть — проверочная выборка (validation sample) — предназначена для проверки дискриминантной функции. Это называется двойной перекрестной проверкой.

Часто распределение количества случаев в анализируемой и проверочной выборки явствует из распределения в обшей выборке. Например, если общая выборка содержит 50% лояльно и 50% нелояльно настроенных покупателей, то анализируемая и проверочная выборки должны каждая содержать 50% лояльных и 50% нелояльных покупателей. В другом случае, если выборка содержит 25% лояльных и 75% нелояльных покупателей, следует выбрать анализируемую и проверочную выборки таким образом, чтобы их распределения отражали аналогичную картину (25% против 75%).

И наконец, проверку достоверности дискриминантной функции предлагают выполнять неоднократно. Каждый раз выборку следует разбивать на две части: для анализа и проверки. Вычисляют дискриминантную функцию и выполняют анализ достверности модели. Таким образом, оценка достоверности основана на ряде испытаний. Предлагаются также более точные методы.

  1. Определение коэффициентов дискриминантной функции

После определения анализируемой выборки мы можем вычислить коэффициенты дискриминантной функции, используя два метода. Прямой метод (direct method) — вычисление дискриминантной функции при одновременном введении всех предикторов.

В этом случае учитывается каждая независимая переменная. При этом ее дискриминирующая сила не принимается во внимание. Этот метод больше подходит к ситуации, когда аналитик, исходя из результатов предыдущего исследования или теоретической модели, хочет, чтобы в основе различения лежали все предикторы.

Альтернативным методом является пошаговый метод. При пошаговом дискриминантом анализе (stepwise discriminant analysis) предикторы вводят последовательно, исходя из их способности различить (дискриминировать) группы. Этот метод лучше применять в ситуации, когда исследователь хочет отобрать подмножество предикторов для включения их в дискриминатную функцию. Некоторые результаты можно получить, изучив групповые средние и стандартные отклонения.

Пошаговый анализ с включением. В пошаговом анализе дискриминантных функций модель дискриминации строится по шагам. Точнее, на каждом шаге просматриваются все переменные и находится та из них, которая вносит наибольший вклад в различие между совокупностями. Эта переменная должна быть включена в модель на данном шаге, и происходит переход к следующему шагу.

Пошаговый анализ с исключением. Можно также двигаться в обратном направлении, в этом случае все переменные будут сначала включены в модель, а затем на каждом шаге будут устраняться переменные, вносящие малый вклад в предсказания. Тогда в качестве результата успешного анализа можно сохранить только "важные" переменные в модели, то есть те переменные, чей вклад в дискриминацию больше остальных.

F для включения, F для исключения. Эта пошаговая процедура "руководствуется" соответствующим значением F для включения и соответствующим значением F для исключения. Значение F статистики для переменной указывает на ее статистическую значимость при дискриминации между совокупностями, то есть, она является мерой вклада переменной в предсказание членства в совокупности. Если вы знакомы с пошаговой процедурой множественной регрессии, то вы можете интерпретировать значение F для включения/исключения в том же самом смысле, что и в пошаговой регрессии.

Коэффициенты дискриминантной функции  определяются таким образом, чтобы (x) и (x) как можно больше различались между собой, т.е. чтобы для двух множеств (классов) было максимальным выражение   (4) Тогда можно записать следующее:

(5) где k- номер группы; p – число переменных, характеризующих каждое наблюдение.  Обозначим дискриминантную функцию (x) как (k- номер группы, t - номер наблюдения в группе). Внутригрупповая вариация может быть измерена суммой квадратов отклонений:

 (6) По обеим группам это будет выглядеть следующим образом: 

 (7) В матричной форме это выражение может быть записано так: 

 (8) где А - вектор коэффициентов дискриминантной функции;

 - транспонированная матрица отклонений наблюдаемых значений исходных переменных от их средних величин в первой группе  (9)  - аналогичная матрица для второй группы.

Объединенная ковариационная матрица  определяется так:

(10) Следовательно выражение (8) дает оценку внутригрупповой вариации и его можно записать в виде:

(11) Межгрупповая вариация может быть измерена как   (12) При нахождении коэффициентов дискриминантной функции  следует исходить из того, что для рассматриваемых объектов внутригрупповая вариация должна быть минимальной, а межгрупповая вариация - максимальной. В этом случае мы достигнем наилучшего разделения двух групп, т.е. необходимо, чтобы величина F была максимальной:

 (13) В точке, где функция F достигает максимума, частные производные по  будут равны нулю.

Если вычислить частные производные

 (14) и приравнять их нулю, то после преобразований получим выражение: 

 (15) Из этой формулы и определяется вектор коэффициентов дискриминантной функции (А) Полученные значения коэффициентов подставляют в формулу (1) и для каждого объекта в обеих группах (множествах) вычисляют дискриминантные функции, затем находят среднее значение для каждой группы. Таким образом, каждому i -му наблюдению, будет соответствовать одно значение дискриминантной функции, следовательно, размерность признакового пространства снижается.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]