Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Дискриминантный, кластерный и факторный анализ.DOC
Скачиваний:
7
Добавлен:
26.09.2019
Размер:
85.5 Кб
Скачать

Основы работы с пакетом статистического анализа stadia: многомерные методы системного анализа медико-биологических данных

Существует специализированные программы для статистического анализа (STADIA, STATGRAPHICS, STATISTICA и др), в которых представлены большинство из известных и широко применяющихся методов статистики. Основными задачами пользователя таких программ являются правильный выбор метода, наиболее подходящего для решения конкретной задачи, и грамотная (с точки зрения статистической методологии) интерпретация результатов расчета.

  • Запустите программу STADIA, используя значок на рабочем столе. (Запускается демонстрационная версия программы, поэтому некоторые функции, такие как справка, запись файлов, недоступны) В окне программы имеются два основных листа: для ввода исходных данных Dat и для вывода результатов анализа Rez, переключение между которыми выполняется с помощью соответствующих закладок в нижней части окна. Впоследствии к этим листам будут добавляться листы с графиками Gr1, Gr2 и т.д., которые можно будет по мере необходимости удалять.

  1. Выполнение дискриминантного анализа.

Дискриминантный анализ применяется для решения задачи классификации объектов наблюдения, описываемых некоторой совокупностью количественных признаков. Например, для установки диагноза по результатам измерения клинических и биохимических показателей.

Правило классификации можно построить на основе обучающей выборки, состоящей из совокупности объектов, для которых известна принадлежность каждого к одному из рассматриваемых классов и известны численные значения их признаков.

Пусть обучающая выборка состоит из 9 объектов, относящихся к 3-м разным классам и описываемых двумя признаками Х1 и Х2.

  • Введите на листе Dat в ячейки столбцов Х1, Х2 и Х3 следующие числовые данные:

Номер объекта

Х1

Х2

Х3

Ввод данных следует производить по столбцам, начиная с первой строки. Переход на следующую строку – клавишей [Стрелка вниз]. Если какое-либо число введено неправильно, следует повторить его ввод в ту же ячейку. Если число пропущено, то можно в нужном месте вставить пустую ячейку клавишей [INSERT]. Если введено лишнее число, то его можно удалить клавишей [DELETE].

1

1.4

2.1

1

2

2.8

2.2

1

3

10.3

3.7

2

4

13.2

4.2

2

5

3.5

3.1

1

6

12.8

8.899

2

7

11.9

3.3

0

8

3.8

11.7

3

9

6.1

13.1

3

10

7.3

9.399

3

При выполнении дискриминантного анализа в последнем столбце таблицы (в данном случае Х3) должны вводиться номера классов, к которым относятся объекты. Можно включать в таблицу и объекты, принадлежность которых к какому-либо классу неизвестна, в этом случае номер класса для объекта указывается равным 0 (в нашей таблице таким объектом является объект под номером 7).

  • Постройте график распределения объектов по координатам Х1 и Х2. Для этого с помощью меню «График» или клавишей F6 откройте окно «Графики данных». Выберите в этом окне «Многомерные»-«Диаграмма рассеяния». В следующем окне нажмите кнопку [Все], чтобы отобразить на графике все три переменные, затем нажмите кнопку [Утвердить].

На полученном графике объекты 1-го класса отображаются вертикальными отрезками высотой в 1 единицу, объекты 2 класса – соответственно отрезками высотой в 2 единицы и объекты 3 класса – отрезками высотой в 3 единицы.

Хорошо видно, что объекты разных классов группируются в разных областях плоскости координат Х1 и Х2, то есть классы хорошо разделяются в пространстве признаков. Также хорошо видно, что объект номер 7 (нулевой высоты) расположен в области, где располагаются объекты, принадлежащие ко 2-му классу, следовательно, логично предположить, что объект номер 7 также относится к 2-му классу.

Однако такое наглядное графическое представление возможно, если только число признаков не больше двух. В общем случае необходимо выполнение вычислений и нахождение количественных оценок, на основании которых принимается решение о принадлежности объекта к одному из классов.

  • С помощью меню «Статист» или клавишей F9 откройте окно «Статистические методы». Выберите в этом окне «Многомерные методы»-«Дискриминантный». Все результаты расчета появляются на листе Rez.

Интерпретация результатов расчета.

Расстояние Махаланобиса характеризует среднее расстояние между центрами классов в пространстве признаков. Чем оно больше, тем лучше разделены классы, тем надежнее может быть выполнена классификация новых объектов. Значимость для выборочной оценки этого расстояния равна 0<0,05, значит может быть принята альтернативная гипотеза, то есть среднее расстояние между классами достоверно отлично от нуля. (В противном случае задача классификации не имела бы надежного решения вследствие сильного сближения классов в пространстве признаков)

Численные коэффициенты a[0], a[1] и т.д. позволяют записать выражения для трех дискриминантных функций, каждая их которых соответствует номеру класса:

D1 = a[0]+ a[1]*X1 + a[2]*X2 , где - вместо a[0], a[1], a[2] надо подставить числа из первой строки результатов

D2 = b[0]+ b[1]*X1 + b[2]*X2 , где - вместо b[0], b[1], b[2] надо подставить числа из второй строки результатов

D3 = c[0]+ c[1]*X1 + c[2]*X2 , где - вместо c[0], c[1], c[2] надо подставить числа из третьей строки результатов

Запишите выражения для дискриминантных функций с конкретными числовыми коэффициентами в рабочие тетради.

Далее на листе результатов указаны все объекты и номера классов, к которым они принадлежат. Для объекта номер 7 , как и предполагалось из анализа графического представления, вычислена его принадлежность к 2-му классу.

Далее для каждого объекта вычислена выборочная оценка его расстояния D^2 от центра класса, к которому он принадлежит, и значимость этой оценки. Видно, что для всех объектов значимость >0,05, то есть справедливы нулевые гипотезы: отклонения объектов от центров соответствующих им классов статистически незначимы. Вследствие этого и вероятности правильного отнесения объектов к соответствующим классам очень высоки (практически максимальны).

При других исходных данных может получиться, что классы расположены близко друг к другу и частично перекрываются. В таких случаях может оказаться, что для некоторых объектов вероятность их правильного отнесения к одному из классов значительно меньше 1, то есть их классификация ненадежна.

  • Рассчитайте для каждого объекта значения дискриминантных функций и проверьте правильность классификации, выполненной программой. Для этого:

  • Выделите с помощью мыши первые 10 ячеек в столбце Х3 и очистите их клавишей [DELETE]. С помощью меню «Преобр» или клавишей F8 откройте окно «Преобразования». Нажмите в этом окне кнопку [Задаваемая функция]. Удалите в строках следующего окна введенные туда ранее формулы. Переключитесь в строку номер 1 и нажмите кнопку [Редактор]. Введите в поле «Формула» правую часть выражения для дискриминантной функции D1, набирая числовые коэффициенты и знаки операций с помощью калькулятора, а обозначения переменных выделяя в списке слева и перенося в формулу кнопкой [Стрелка вправо]. После набора формулы нажмите кнопку [Утвердить]. В окне «Преобразования» также нажмите кнопку[Утвердить]. В столбце Х3 появятся вычисленные значения дискриминантной функции D1.

  • Выделите с помощью мыши первые 10 ячеек в столбце Х4. С помощью меню «Преобр» или клавишей F8 откройте окно «Преобразования». Нажмите в этом окне кнопку [Задаваемая функция]. Переключитесь в строку номер 2 и нажмите кнопку [Редактор]. Введите в поле «Формула» правую часть выражения для дискриминантной функции D2. После набора формулы нажмите кнопку [Утвердить]. В окне «Преобразования» также нажмите кнопку[Утвердить]. В столбце Х4 появятся вычисленные значения дискриминантной функции D2.

  • Выделите с помощью мыши первые 10 ячеек в столбце Х5. С помощью меню «Преобр» или клавишей F8 откройте окно «Преобразования». Нажмите в этом окне кнопку [Задаваемая функция]. Переключитесь в строку номер 3 и нажмите кнопку [Редактор]. Введите в поле «Формула» правую часть выражения для дискриминантной функции D3. После набора формулы нажмите кнопку [Утвердить]. В окне «Преобразования» также нажмите кнопку[Утвердить]. В столбце Х5 появятся вычисленные значения дискриминантной функции D3.

  • Сравнивая значения трех дискриминантных функций в каждой строке, в столбце Х6 проставьте номера классов объектов, пользуясь следующим правилом: Объект относится к тому классу, для которого дискриминантная функция имеет наибольшее значение.

Запишите результаты проверки классификации объектов в рабочие тетради.