Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
вопросы на госы.docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
306.7 Кб
Скачать

10. Дискриминантный анализ. Математическая модель.

Дискриминантный анализ является разделом многомерного статистического анализа, который позволяет изучать различия между двумя и более группами объектов по нескольким переменным одновременно. Дискриминантный анализ — это общий термин, относящийся к нескольким тесно связанным статистическим процедурам. Эти процедуры можно разделить на методы интерпретации межгрупповых различий — дискриминации и методы классификации наблюдений по группам.

Методы классификации связаны с получением одной или нескольких функций, обеспечивающих возможность отнесения данного объекта к одной из групп. Эти функции называются классифицирующими и зависят от значений переменных таким образом, что появляется возможность отнести каждый объект к одной из групп.

Задачи дискриминантного анализа можно разделить на три типа.

Задачи первого типа часто встречаются в медицинской практике. Медик может регистрировать различные переменные, относящиеся к состоянию больного, чтобы выяснить, какие переменные лучше показывают, что пациент, вероятно, выздоровел полностью, частично или совсем не выздоровел.

Второй тип задачи относится к ситуации, когда признаки принадлежности объекта к той или иной группе потеряны, и их нужно восстановить. (Пример: определение пола умершего человека по его останкам).

Задачи третьего типа связаны с предсказанием будущих событий на основании имеющихся данных (например прогноз выживаемости оперированных больных).

Дискриминация

Основной целью дискриминации является нахождение такой линейной комбинации переменных (в дальнейшем эти переменные будем называть дискриминантными переменными), которая бы оптимально разделила рассматриваемые группы. Линейная функция

 (1)

называется канонической дискриминантной функцией с неизвестными коэффициентами  . Здесь  значение дискриминантной функции для m–го объекта в группе k;  значение дискриминантной переменной   для m–го объекта в группе k. С геометрической точки зрения дискриминантные функции определяют гиперповерхности в p-мерном пространстве. В частном случае при p=2 она является прямой, а при p=3 — плоскостью.

Введем следующие обозначения:

 — число классов;

число дискриминантных переменных;

 — число наблюдений в k–й группе;

 — общее число наблюдений по всем группам;

В модели дискриминации должны соблюдаться следующие условия:

  1. число групп:  ;

  2. число объектов в каждой группе:  ;

  3. число дискриминантных переменных:  ;

  4. дискриминантные переменные измеряются в интервальной шкале;

  5. дискриминантные переменные линейно независимы;

  6. ковариационные матрицы групп примерно равны;

  7. дискриминантные переменные в каждой группе подчиняются многомерному нормальному закону распределения.

Математическая модель

Ограничимся рассмотрением классической модели дискриминантного анализа, не затрагивая вопросов статистического оценивания его результатов.

Пусть результатом наблюдения над объектом является реализация m-мерного случайного вектора . Известно, что этот объект относится к одной из l генеральных совокупностей, к одному из l классов, относительно которых предполагается:

— каждый класс имеет m-мерное нормальное распределение, , где X (j) — обозначение вектора X для j-го класса, j=MX (j), - ковариационная матрица вектора X, общая для всех l классов;

— каждый класс j представлен nj — выборкой (эти выборки называют обучающими).

Требуется построить правило дискриминации — правило распознавания класса, к которому относится не попавший в выборки объект x (0).

На рис. 3 изображены графики функций нормальных плотностей f1(x) и f2(x), различающихся только математическими ожиданиями a1 и a2.

Рис. 3

Пусть d — некоторая точка на оси Ox и правило дискриминации такое: классифицируемый объект относят к первому классу тогда и только тогда, когда , где x значения CB X у объекта, и ко второму — во всех остальных случаях.

Точку d найдем как решение следующей экстремальной задачи: при условии равенства вероятностей , что равносильно условию

, (41)

требуется минимизировать вероятность

. (42)

Используя метод множителей Лагранжа, нетрудно убедиться в том, что задача (41) ~ (42) равносильна системе, включающей уравнение (41) — требование равенства вероятностей ошибок и уравнение , которое с учетом нормальности распределений и равенства дисперсий, равносильно уравнению

, (43)

где С — некоторая постоянная величина.

В рассматриваемом тривиальном случае из (41) следует, что . Поставив x=d в (43), получим С = 0. И сформулированное выше классификационное правило эквивалентно следующему: объект относят к первому классу тогда и только тогда, когда

, (44)

во всех остальных случаях — по второму.

Для m- мерного случайного вектора X классификационное правило в терминах выборки звучит так: объект с координатами относят к первому классу тогда и только тогда, когда

, (45)

и ко второму — во всех остальных случаях. В соотношении (45): - вектор средних значений случайных величин X1,…, Xm в n1-выборке из первого класса, — вектор средних значений этих величин в n2-выборке из второго класса, - рассчитанная по обучающим выборкам оценка ковариационной матрицы вектора X, общей для двух классов. Будем считать, что в n1-выборку попали объекты с номерами 1, 2,…, n1, в n2-выборку — объекты с номерами 1*, 2*,…, n2*, а xij — это значения CB Xj, j=1,…, m, для i-го объекта. Тогда

, j=1,…, m (46)

, (47)

где , (48)

. (49)

Соотношением (45) задается вид дискриминантной функции для двух нормально распределенных совокупностей.

Методы оптимизации