Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Гомельский государственный университет им. Франциска Скорины

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Информационные технологии. Учебное пособие.doc

Скачиваний:

Добавлен:

24.04.2019

Размер:

2.58 Mб

Скачать

☆

<<< < Предыдущая 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 5354 / 5854 55 56 57 58 > Следующая >>>

52.2Предположения и ограничения

Дискриминантный анализ «работает» при выполнении ряда предположений.

Предположение о том, что наблюдаемые величины – измеряемые характеристики объекта – имеют нормальное распределение. Это предположение следует проверять. Следует заметить, что умеренные отклонения от этого предположения не являются фатальными.

Предположение об однородности дисперсий наблюдаемых переменных в разных классах (отличие между классами имеется только в средних). Умеренные отклонения от этого предположения также допустимы.

Методы, реализуемые в практических расчетах, являются линейными. Функции классификации и дискриминантные функции являются линейными комбинациями наблюдаемых величин.

Необхлдимо сделать важное замечание о проверке предположений анализа. Дискриминантный анализ может быть проведен и когда основные предположения не выполняются (предположение о нормальности и однородности дисперсий). Задача состоит в интерпретации результатов. В конечном счете, наиболее важным критерием правильности построенного классификатора является практика. И если окажется, что в результате построен классификатор, «работающий» на практике, то это будет достижением.

52.3Алгоритм дискриминантного анализа

Решение задач дискриминации (дискриминантный анализ) состоит в разбиении всего выборочного пространства (множества реализации всех рассматриваемых многомерных случайных величин) на некоторое число областей.

Пусть имеются две генеральные совокупности X и Y, имеющие многомерный (трехмерный) нормальный закон распределения с неизвестными, но равными ковариационными матрицами.

Из этих совокупностей взяты обучающие выборки объемами n₁ и n₂ соответственно:

; (16.1)

Целью дискриминантного анализа в этом случае является отнесение нового наблюдения (строки) из матрицы:

(16.2)

либо к X, либо к Y.

Для решения задачи по обучающим выборкам проводятся оценки векторов средних и ковариационных матриц

; (16.3)

Затем определяется граница дискриминации – константа С.

Оценку дискриминантной функции U_i для i–й строки матрицы Z, которая характеризует i-e наблюдение, подлежащее дискриминации, получается из уравнения:

(16.4)

Если U_i ≥ C, то i–e наблюдение следует отнести к совокупности X, если же U_i < C, то i–e наблюдение относится к совокупности Y.

Дискриминантный анализ допускает наличие более двух обучающих выборок, однако в этом случае задача существенно усложняется и не всегда приводит к однозначной дискриминации, т.е. не все объекты удается отнести к какому-либо классу.

53Кластерный анализ

Кластерный анализ объединяет различные процедуры, используемые для проведения классификации. В результате применения этих процедур исходная совокупность объектов разделяется на кластеры или группы (классы) схожих между собой объектов. Под кластером обычно понимают группу объектов, обладающую свойством плотности (плотность объектов внутри кластера выше, чем вне его), дисперсией, отделимостью от других кластеров, формой (например, кластер может иметь очертания гиперсферы или эллипсоида), размером. Конечно, данное определение не является строгим (строгого определения не существует вообще). Если вы взглянете на географическую карту и увидите на ней горы или созвездия на звездном небе, то поймете, что такое кластеры.

Наиболее часто методы кластерного анализа используются в социологии, маркетинговых исследованиях, экономике, биологии, медицине, археологии.

Сложность задач кластерного анализа состоит в том, что реальные объекты являются многомерными, то есть описываются не одним, а несколькими параметрами (представьте, что объекты – это персональные компьютеры), и объединение объектов в группы проводится в пространстве многих измерений, что весьма нетривиально. Кроме того, данные могут носить нечисловой характер.

В целом методы кластеризации делятся на агломеративные (от слова агломерат – скопление) и итеративные дивизивные (от слова division –деление, разделение).

В агломеративных, или объединительных методах происходит последовательное объединение наиболее близких объектов в один кластер. Процесс такого последовательного объединения можно показать на графике в виде дендрограммы, или дерева объединения. Это удобное представление позволяет наглядно представить кластеризацию агломеративными алгоритмами.

Исходными данными для анализа могут быть собственно объекты и их параметры. Данные для анализа могут быть также представлены матрицей расстояний между объектами, в которой на пересечении строки с номером i и столбца с номером j записано расстояние между i-м и j-м объектом.

Если расстояния не даны сразу, то агломеративные алгоритмы начинаются с вычисления расстояний между объектами.

Переход от объектов к расстояниям между объектами – важный момент.

Расстояние между объектами – одна из мер сходства. Интуитивно понятно, что, чем меньше расстояние между объектами, тем они более схожи. Но как выбрать естественную метрику, то есть, как естественно для данной задачи измерить расстояние между объектами?

Часто используют обычную евклидову метрику, например, если объект описывается двумя параметрами, то он может быть изображен точкой на плоскости, а расстояние между объектами – это расстояние между точками, вычисленное по теореме Пифагора. Вы просто возводите в квадрат расстояния по каждой координате, суммируете их и из полученной суммы извлекаете квадратный корень. Если вы не будете возводить в квадрат покоординатные расстояния, а просто возьмете их абсолютные значения и просуммируете, то получите так называемое манхэттенское расстояние, или «расстояние городских кварталов». Такое расстояние связано с перемещением человека по улицам города, а не с движением по ровной местности.

Представьте, что вы находитесь в городе. Здесь существуют определенные правила перемещения и, соответственно, правила вычисления пройденного расстояния. Перемещаться можно только по улицам (нельзя, например, пересечь квартал или дом по диагонали). Аналогия в декартовой плоскости приводит к перемещениям только по линиям, параллельным осям координат, и, соответственно, к манхэттенскому расстоянию.

<<< < Предыдущая 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 5354 / 5854 55 56 57 58 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
25.03.2015144.9 Кб57ИНТЕРФЕРЕНЦИОННЫЕ МЕТОДЫ ИЗМЕРЕНИЯ.doc
#
26.09.201973.22 Кб31Инф. и параз. болезни.doc
#
16.08.201995.03 Кб4Инфаркт миокарда.docx
#
10.11.201975.28 Кб2Инфаркт миокарда.docx
#
25.03.201571.36 Кб12Информатика.docx
#
24.04.20192.58 Mб39Информационные технологии. Учебное пособие.doc
#
31.07.20191.05 Mб72ИПО.rtf
#
25.03.201596.87 Кб24ИРИН КУРСАЧ.docx
#
25.03.2015170.34 Кб43Исаенко М. Юридическая помощь.docx
#
16.08.20193.11 Mб4ИСПЫТАНИЕ НА МИКРОТВЕРДОСТЬ.doc
#
25.03.2015171.64 Кб28ИстБел.docx