Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Класс_Кт.doc
Скачиваний:
25
Добавлен:
08.12.2018
Размер:
2.29 Mб
Скачать

49

Кластерный анализ

2.1. Введение

В различных областях науки и техники в последнее время все чаще используются такие термины, как «идентификация», «классификация», «анализ» и «обработка данных». Это связано с развитием средств коммуникаций, созданием и широким использование глобальных информационных систем, которое сопровождается резким увеличением объемов, разнообразием и сложностью информации во всех областях науки, техники и культуры. Эту информацию необходимо формализовать, накапливать, обрабатывать, передавать и регистрировать.

Решение этих задач требует выполнения, по меньшей мере, двух условий:

  1. Увеличения быстродействия и объемов памяти ЭВМ;

  2. Разработки высокоэффективного прикладного программного обеспечения для автоматизации процессов обработки, классификации и идентификации информации.

Если первое условие выполняется благодаря прогрессу вычислительной техники, то в отношении второго условия имеет место серьезное отставание, причиной которого является незавершенность теории распознавания образов, составляющей основу реализации указанных процедур.

Теория распознавания образов имеет весьма обширную область практического применения. В радиоэлектронике и технике связи проблема распознавания образов является ключевой при обнаружении и классификации сигналов на фоне помех с неизвестными априорными характеристиками, при автоматическом контроле функционирования систем и т.д.

Теория распознавания образов и классификации лежит в основе управления автоматами, автоматизации информационно-поисковых и информационно-справочных служб, банков и хранилищ данных и т.д. В современной медицине распознавание образов составляет основу экспресс диагностики различных заболеваний и некоторых видов опухолей на ранней стадии их развития.

Методы теории классификации и распознавания образов занимают одно из ведущих мест в современных информационных технологиях. Сейчас, когда наблюдается стремительное развитие информационных технологий, а глобальные информационные системы все шире используются даже не специалистами, возникает необходимость разработки специализированного программного обеспечения и автоматизированные систем призванных решать практические задачи классификации и распознавания образов. Наиболее важными задачами, в смысле практического использования, является создание системы автоматического распознавания текстов и разговорной речи.

Задачи распознавания тесно связаны с понятием образа объекта. В современной теории распознавания и, особенно, в системах искусственного интеллекта это понятие употребляют в самом широком смысле, подразумевая под образом некоторое структурированное, приближенное описание изучаемого объекта, явления или процесса.

Следует отметить, что это понятие заимствовано из англоязычных работ по теории распознавания, в которых употребляется термин «pattern recognition». Термин «pattern», кроме значения «образ», имеет еще и такие значения: модель, стиль, режим, закономерность и образ действия.

Основное назначение образов - это их использование в процессе установления соответствия между объектами, то есть при доказательстве их идентичности, аналогичности, подобия, сходства и т.п., которое осуществляется путем их сравнения или сопоставления. Два образа считаются подобными, если между ними удается установить определенное соответствие. Сопоставление образов представляет собой основную задачу распознавания и классификации объектов.

В различных задачах распознавания понятию образ придается различный смысл. Это определяется в основном тем, какие характеристики объекта входят в описание его образа, какой способ используется для представления этих характеристик. Поскольку для описания объекта используются только некоторая часть выделенных или отобранных его свойств (их называют существенными), то под образом будем понимать следующее: образ - это отображение объекта на множество его существенных характеристик.

Из этого определения следует, что образ является приближенным описанием объекта. Чем большее число свойств и качеств объекта отражено в образе рассматриваемого объекта, тем полнее это описание, тем полнее этот образ характеризует описываемый объект. При этом, любой образ все равно представляется некоторым ограниченным набором существенных признаков. В связи с этим вполне допустимо наряду с выражением «распознавание образов» применять выражение «отождествление некоторых наборов объектов по их описанию с помощью специальным образом подобранных признаков».

В общем случае, распознавание представляет собой отнесение исследуемого объекта, который описывается совокупностью измеримых признаков, к одному из взаимоисключающих классов. Это возможно при условии, что существует однозначное отображение совокупности наблюдений свойств объектов, которое является конечным числовым множеством , на множество классов , количество которых задано. Имена совокупности -классов можно заменить их номерами . Тогда распознавание – это отображение множества на ко­нечное множество натуральных чисел.

В большинстве практических задач распознавания множество признаков представляет собой совокупность числовых значений признаков - . Поэтому можно сказать, что распознавание сводится к анализу функции от переменных вида , где множество значений признаков объекта . Функцию называют решающей функцией, на основе ее анализа принимается решение - к какому из классов следует отнести исследуемый объект .

Важнейшей особенностью реальных задач распознавания является то, что измерение свойств объекта сопровождается случай­ными возмущениями. Вероятностный характер этих возмущений сказывается на всех стадиях распознавания. Они проявляются как на стадии процесса получения самих измерений, так и на этапе вычислений значений функции . Эти стохастические факторы выступают в распознавании как погрешности измерительных приборов, неточности регистрации и шумы в каналах связи при передаче данных измерений, как ошибки округления при вычислениях, являющиеся следствием ограниченности разрядности ЭВМ, и аппаратурные шумы. Взаимодействуя между собой, указанные возмущения приводят к тому, что значения являются случайными величинами, функция становится случайной функцией, в результате и номер класса также оказывается случайной величиной. Отсюда следует, что разработка теории распознавания, в том числе, неизбежно связана с исследованием случайных процессов с привлечением методов математической статистики.

В общем случае, решение задачи распознавания образов техническими средствами может быть осуществлено путем моделирования операций, выполняемых живыми организмами в процессе коммуникации (общения и обмена информацией) и восприятия окружающего мира. Эти способности достаточно хорошо изучены на различных животных (киты, дельфины, летучие мыши, некоторые приматы). Однако наиболее естественно положить в основу модели распознавания способности человека.

Системы распознавания – это автоматические устройства и специализированное программное обеспечение. Такие системы должны быть наделены способностью, самостоятельно принимать решения на основе восприятия и анализа информации поступающей из окружающей среды.

Это особенно актуально в тех случаях, когда при использовании устройств, управляемых оператором, может возникнуть недопустимая задержка во времени между передачей и приемом управляющих команд, вызванная либо большим удалением объекта, либо необходимостью принимать решения в течении очень коротких промежутков времени.

Теория распознавания и классификации образов, как научное направление, включает в себя большое число различных дисциплин и использует методы, характерные для каждой из них. Наряду с информатикой и информационными технологиями среди них можно выделить прикладную физику, необходимую при разработке эффективных датчиков, а также различные разделы математики, лежащие в основе методов обработки данных.

Для того чтобы свести воедино отдельные составные части, представляющие различные дисциплины, установим, что следует понимать под распознаванием образов.

Будем считать, что распознавание образов - это совокупность методов и средств, позволяющих, программно или на аппаратном уровне, моделировать или воспроизводить естественные средства восприятия и анализа окружающего мира живыми существами.