
- •1. Основы дискриминантного анализа
- •2. Модель дискриминантного анализа
- •2.1. Определение коэффициентов дискриминантной функции
- •3. Статистики, связанные с дискриминантным анализом
- •4. Выполнение дискриминантного анализа
- •4.1. Формулирование проблемы
- •4.2. Определение коэффициентов дискриминантной функции
- •4.3. Определение значимости дискриминантной функции
- •4.4. Интерпретация результатов
- •4.5. Оценка достоверности дискриминантного анализа
- •5. Использование в специализированных программах
- •6. Резюме
- •7. Пример использования метода
- •Заключение
- •Список литературы
4.5. Оценка достоверности дискриминантного анализа
Как уже говорилось, данные разбивают случайным образом на две подвыборки. Анализируемую часть выборки используют для вычисления дискриминантной функции, а проверочную – для построения классификационной матрицы. Дискриминантные веса, определенные анализируемой выборкой, умножают на значения независимых переменных в проверочной выборке, чтобы получить дискриминантные показатели для случаев в этой выборке. Затем случаи распределяют по группам, исходя из дискриминантных оказателей и соответствующего правила принятия решения. Например, при дискриминантном анализе двух групп случай может быть отнесен к группе с самым близким по значению центроидом. Затем, сложив элементы, лежащие на диагонали матрицы, и разделив полученную сумму на общее количество случаев, можно определить коэффициент результативности (hit ratio) или процент верно классифицированных случаев.
Полезно сравнить процент случаев, верно классифицированных с помощью дискриминантного анализа, с процентом случаев, который можно получить случайным образом. Для равных по размеру групп процент случайной классификации равен частному от деления единицы на количество групп. Превысит ли и насколько количество верно классифицированных случаев их случайное количество? Здесь нет общепринятого подхода, хотя некоторые авторы считают, что точность классификации, достигнутая с помощью дискриминантного анализа, должна быть, по крайней мере, на 25% выше, чем точность, которую можно достичь случайным образом.
Большинство программ для выполнения дискриминантного анализа также определяют
классификационную матрицу, исходя из анализируемой выборки. Поскольку программы учитывают даже случайные вариации в данных, то полученные результаты всегда точнее, чем классификация данных на основе проверочной выборки.
5. Использование в специализированных программах
В SPSS процедуру DISCRIMINANT используют для выполнения дискриминантного анализа. Это общая программа для дискриминантного анализа для двух групп или множественного дискриминантного анализа. Кроме того, с ее помощью можно выполнить прямой или пошаговый метод.
В программе SAS для выполнения дискриминантного анализа для двух групп или множественного дискриминантного анализа можно использовать процедуру DISCRIM. Если допущение о многомерном нормальном распределении не выполняется, то можно использоватьпроцедуру NEIGHBOR. В этой процедуре для классификации наблюдений используют непараметрическое правило "ближайших соседей".
Программа CANDISC выполняет канонический дискриминантный анализ и связана с анализом основных компонентов и канонической корреляцией. Процедуру STEPDISC можно использовать для выполнения пошагового дискриминантного анализа.
В программном пакете BMDP для выполнения пошагового дискриминантного анализа можно использовать программу Р7М. Но она не дает нормированные коэффициенты дискриминантной функции.
В Minitab дискриминантный анализ можно выполнить с помощью функции Stats -> Multivariate -> Discrimmate Analysis. Она позволяет вычислить как линейный, так и квадратный дискриминантный анализ при разбиении (классификации) наблюдений на две или больше групп. Дискриминантный анализ недоступен в Excel (версия 7.0).