Пункт 3. Задачи классификации

Перейдем и зададим классификацию объектов и классификацию признаков. В случае, когда разница между этими задачами несущественна ( например, при описании некоторых алгоритмов) мы будем пользоваться только термином «объект».

В общей (нестрогой) постановке проблемы классификации объектов заключается в том, чтобы всю анализируемую совокупность объектов { О₁, О₂,…, О_n }, статистически представленную в виде матриц (2.2) и (2.4) разбить на сравнительно небольшое число ( заранее известное или нет) в определенном смысле групп или классов.

Эта задача всегда имеет решение.

Вторая задача типизации сводится к поискам естественного расслоения исходных наблюдений на четко выраженные классы, лежащие на некотором расстоянии друг от друга. При этом может оказаться , что множество наблюдений не обнаруживает естественного расслоения, т.е. само образует единый класс.

Для формализации проблемы классификации анализируемые объекты О₁, О₂,…, О_n удобно интерпретировать как точки в соответствующем признаковом пространстве.

Если исходные данные представлены в виде матрицы (2.2), то имеем непосредственные геометрические изображения многомерных наблюдений Х₁, Х₂,…, Х_n в некотором р- мерном пространстве.

Если исходные данные представлены в форме матрицы парных сравнений (2.4), то исследователю не известны непосредственно координаты этих точек, но зато известна структура парных расстояний (близостей) между объектами.

Естественно предположить, что геометрическая близость двух или нескольких объектов в этом пространстве означает близость «физических» состояний соответствующих объектов, их однородность.

Тогда проблема классификации состоит в разбиении анализируемой совокупности точек – наблюдений на сравнительно небольшое число (заранее известное или нет) классов таким образом, чтобы объекты находились на сравнительно небольшом расстоянии друг от друга.

Полученные в результате разбиения классы часто называют кластерами (таксонами, образами), а методы их нахождения - кластер-анализом, численной таксономией, распознаванием образов.

CLUSTER – гроздь, пучок, скопление, группа элементов, характеризующихся каким-либо свойством.

TAXON − систематизированная группа одной категории.(термин из биологии)

Необходимость анализа и формализации задач, связанных со сравнением и классификацией объектов, осознавали ученые далекого прошлого.( Аристотель ввел способ классификации, основанный на сходстве и различии).

Известна классификация в биологии, классификация химических элементов (таблица Д.И. Менделеева).

До недавних времен все методы классификации сводились к методу комбинационной группировки, когда все характеризующие объект признаки носят дискретный характер или сводится к таковым (пол или мотив миграции индивидуума, уровень жилищных условий, число детей в семье) и два объекта относились к одному классу только при таком совпадении всех зарегистрированных на них градации одновременно ко всем характеризующим их признакам.( одинаковые пол или мотив миграции и т.д.)

Однако по мере роста объем исследования информации (числа классифицированных объектов и характеристик их признаков) реализация подобной мысли исследователей становилась все менее реальной.

Электронно-вычислительная техника стала главным инструментом, который позволил конструктивно воспользоваться разработанным к тому времени мощным аппаратом многомерного статистического анализа.

В зависимости от наличия и характера априорных сведений о природе искомых классов и от конечной цели исследования в задаче классификации приходится обращаться либо к методам дискриминантного анализа (классификация с помощью «обучающих» выборок) либо собственно кластер-анализа (классификация при отсутствии «обучающих» выборок) .

Пусть на «входе» задачи исследователь имеет только n классифицируемых объектов О₁,…,O_n в виде данных (2.2). (Тогда каждая i-ая строка матрицы (2) содержит значение р характеризующих объект О_i признаков ) или в виде данных (2.4) (Тогда каждая i-ая строка задает попарные отношения j_i₁,…,j_in i-того объекта со всеми остальными. Тогда говорят, что решается задача классификации без обучения.

Пусть, кроме того, на «входе» исследователь располагает обучающими выборками , каждая j-ая из которых определяет значения анализируемых признаков на n_j объектах. Об этих n_j объектах априори известно, что все они принадлежат j-му классу, причем значение к различных выборок равно общему числу всех возможных классов (так что каждый класс представлен своей порцией выборочных данных). Это называется задачей классификации с обучением.

На «входе» задачи исследователь должен иметь результат в одной из двух форм:

если число классов и их смысл известны заранее, то каждый из n классифицируемых наблюдений каждого из n классифицируемых объектов должен быть снабжен «номером» («адресом») класса, которому он принадлежит.
если число классов и (или) их смысл выявляется в процессе классификации, то результатом классификации должно быть разделено множества {O₁,…,O_n} на определенное число однородных в некотором смысле групп, каждая из которых объявляется классом.

Выделим также три различных подхода к проблеме кластер-анализа:

эвристический подход характеризуется отсутствием формальной модели явления и критерия для сравнений различных решений. Его основой является алгоритм, построенный исходя из интуитивных соображений.
При экстремальном подходе также не формулируется исходная модель, но задается критерий, определяющий качество разбиения на кластеры. Такой подход особенно полезен, если цель исследования четко определена. В этом случае качество разбиения может определяться эффективно достижения цели
Основой вероятностно-статисического является вероятностная модель исследуемого процесса. Удобен для теоретического проблем, связанных с кластерным анализом. Он дает возможность ставить задачи, связанные с воспроизводимостью результата кластерного анализа.

Первые два похода - логико-алгебраические, третий – вероятностно-статистический.

<<< < Предыдущая 12 / 82 3 4 5 6 7 8 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
13.11.2018320 Кб2Часть С. Энциклопедия аргументов..doc
#
24.09.201942.04 Кб0Часть+вопросов.docx
#
22.11.2019857.09 Кб0часть1.doc
#
23.11.2019252.42 Кб1Часть1.doc
#
26.09.20195.2 Mб2Часть3(Оптика.Элементы кв. механиеи.).doc
#
27.09.2019721.41 Кб0ЧастьI.doc
#
27.09.20191.01 Mб1ЧастьII.doc
#
24.11.2018115.71 Кб1Часть_2_007_013_Коробкова.doc
#
11.07.2019106.46 Кб0ЧАЭС.docx
#
27.09.201925.86 Кб0ЧЕЛОВЕК В СИСТЕМЕ СОЦИАЛЬНЫХ СВЯЗЕЙ.docx
#
17.11.2019103.42 Кб2человек ЕГЭ.doc