3.13. Фрагмент сформированного отчета по поставкам деталей

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Национальный минерально-сырьевой университет «Горный»

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Базы_данных_29.09.05.doc

Скачиваний:

Добавлен:

01.04.2025

Размер:

3.29 Mб

Скачать

☆

<<< < Предыдущая 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2122 / 2722 23 24 25 26 27 > Следующая >>>

3.13. Фрагмент сформированного отчета по поставкам деталей

С помощью классификации выявляются признаки, характеризующие однотипные группы объектов – классы, для того чтобы по известным значениям этих характеристик можно было отнести новый объект к тому или иному классу. Ключевым моментом выполнения этой задачи является анализ множества классифицированных объектов. Типичный пример использования классификации – исследование характерных признаков мошенничества с кредитными карточками в банковском деле. Путем анализа прошлых транзакций, которые впоследствии оказались мошенническими, банк выявляет некоторые стереотипы такого мошенничества.

Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации самостоятельно выделяются различные однородные группы данных. Так, например, можно выделить родственные группы клиентов с тем, чтобы определить характеристики неустойчивых клиентов («группы риска») – клиентов, готовых уйти к другому поставщику. При этом необходимо найти оптимальную стратегию их удержания (например, посредством предоставления скидок, льгот или даже с помощью индивидуальной работы с представителями «группы риска»).

Основой для систем прогнозирования служит историческая информация, хранящаяся в виде временных рядов. Если удается построить шаблоны, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать поведение системы в будущем. Например, создание прогнозирующих моделей дает возможность торговым предприятиям узнавать характер потребностей различных категорий клиентов с определенным поведением (покупающих товары известных дизайнеров или посещающих распродажи). Эти знания нужны для разработки точно направленных, экономичных мероприятий по продвижению товаров.

В общем случае процесс ИАД состоит из трёх стадий:

выявления закономерностей;
использования выявленных закономерностей для предсказания неизвестных значений;
анализа исключений, предназначенного для выявления и толкования аномалий в найденных закономерностях.

Data Mining является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных и др. Отсюда обилие методов и алгоритмов, реализованных в различных действующих системах Data Mining.

Традиционные методы прикладной статистики

Статистическое исследование структуры и характера взаимосвязей, существующих между анализируемыми количественными переменными. Сюда относят корреляционный, факторный, регрессионный анализ, анализ временных рядов. Необходимо отметить, что проблема статистического исследования зависимостей по своему значению заметно превосходит две другие.
Методы классификации объектов и признаков. В данной группе выделяют, в частности, дискриминантный и кластерный анализ.
Снижение размерности исследуемого признакового пространства в целях лаконичного объяснения природы анализируемых данных. К данному разделу относят метод главных компонент, многомерное шкалирование и латентно структурный анализ.

В качестве примеров наиболее мощных и распространенных статистических пакетов, реализующих указанные методы, можно назвать SAS, SPSS, STATGRAPHICS, STATISTICA и др.

Нейронные сети

Искусственные нейронные сети (ИНС) представляют парадигму обработки информации, базирующуюся на той или иной упрощенной математической модели биологических нейронных систем. ИНС организует свою работу путем распределения процесса обработки информации между нейроэлементами, связанными между собой посредством синаптических связей. Выявление закономерностей в данных осуществляется путем обучения ИНС, в процессе которого происходит корректировка величин синаптических связей. Круг задач, решаемых при помощи данных методов, также довольно широк: распознавание образов, адаптивное управление, прогнозирование, построение экспертных систем и др. Основными недостатками нейросетевой парадигмы являются: необходимость большого объема обучающей выборки, отсутствие универсальных топологий и настроек сети. Другой существенный недостаток заключается в том, что ИНС представляет собой «черный ящик», не поддающийся интерпретации человеком. Примеры нейросетевых систем – BrainMAker, NeuroShell, OWL, Neural Analyzer в программном комплексе Deductor (BaseGroup).

Методы обнаружения логических закономерностей в данных

Данные методы апеллируют к информации, заключенной не только в отдельных признаках, но и в сочетаниях значений признаков. Они вычисляют частоты комбинаций простых логических событий в подгруппах данных. На основании анализа вычисленных частот делается заключение о полезности той или иной комбинации для установления ассоциаций в данных, для классификации, прогнозирования. Результаты работы данных методов оформляются в виде деревьев решений или правил типа «ЕСЛИ…, ТО…». Популярность данного подхода связана с наглядностью и понятностью полученных результатов анализа. Проблемой логических методов обнаружения закономерностей является необходимость перебора вариантов за приемлемое время и поиск оптимальной композиции предложенных правил. Представителями систем, реализующих данные методы, являются системы See5/C5.0, WizWhy, Tree Analyzer (BaseGroup).

Методы рассуждения на основе аналогичных случаев

Идея методов CBR (case based reasoning) довольно проста. Для того чтобы сделать прогноз на будущее или выбрать правильное решение, эти системы находят в прошлом близкие аналоги наличной ситуации и

выбирают тот же ответ, который был для них правильным. Главным минусом такого подхода считают то, что данные системы вообще не создают каких-либо моделей или правил, обобщающих предыдущий опыт. В выборе решения они основываются на всем массиве доступных исторических данных. Поэтому существует проблема выбора объема множества прецедентов, которые необходимо хранить для достижения удовлетворительной классификации или прогноза. Примеры систем, использующих CBR – KATE tools, Pattern Recognition Workbench.

Эволюционные и генетические алгоритмы

Данные методы предназначены в основном для оптимизации в задачах поиска зависимости целевой переменной от других переменных. Примером может служить обучение нейронной сети, то есть подбор таких оптимальных значений весов, при которых достигается минимальная ошибка. В основе указанных методов лежит метод случайного поиска, модифицированный за счет использования ряда биологических принципов, открытых при изучении эволюции и происхождения видов, для отбора наилучшего решения. В частности, используются процедуры репродукции (скрещивания), изменчивости (мутаций), генетической композиции, конкурирования в рамках естественного отбора наилучшего решения. В силу своей специфики данные методы часто используются в качестве дополнительного инструментария к какому-либо другому методу. Пример реализации эволюционного алгоритма – отечественная система PolyAnalist. GeneHanter – пример системы, использующей генетические алгоритмы.

Методы визуализации многомерных данных

Эти методы позволяют ассоциировать с анализируемыми данными различные параметры диаграмм рассеивания: цвет, форму, ориентацию относительно собственной оси, размеры и другие свойства графических элементов. При этом они не выполняют автоматического поиска закономерностей, но реализуемые на их основе выводы чрезвычайно удобны для интерпретации и объяснения. В той или иной мере средства для графического отображения данных поддерживаются абсолютным большинством систем Data Mining, однако внушительную долю рынка занимают системы, специализирующиеся исключительно на этой функции. Примером может служить программа DataMiner 3D.

Следует отметить, что использование автономных инструментов Data mining менее предпочтительно по сравнению с их внедрением в среду OLAP или СУБД.

3.2.3. Геоинформационные системы

Геоинформационная система (ГИС) – это программно-аппаратный комплекс, осуществляющий сбор, отображение, обработку, анализ и распространение информации о пространственно распределенных объектах и явлениях на основе электронных карт и связанных с ними баз данных. ГИС – это особый случай автоматизированной информационной системы, где база данных состоит из наблюдений за пространственно распределенными явлениями, процессами и событиями, которые могут быть определены как точки, линии или контуры.

Функции ГИС:

создание высококачественной картографической продукции; процесс преобразования данных с бумажных карт в компьютерные файлы называется оцифровкой;
геокодирование – процесс установления пространственной привязки объектов с атрибутивной информацией;
манипулирование и визуализация информации;
пространственный анализ и моделирование;
интеграция информации различных источников.

Существует два подхода к представлению пространственных объектов:

растровый (ячейки или клетки на карте);
векторный (точки, линии, полигоны).

Вся карта представлена набором слоев. Каждый слой соответствует определенному информационному объекту базы данных. Слои могут быть точечными, площадными и полигонными. Кроме этого, выделяются надписи. Объекты разных слоев могут иметь пространственную связь между собой. Связь такого рода называется топологией. Несколько связанных слоев могут образовывать покрытие.

Пространственный анализ включает в себя следующие методы: навигацию, поиск информации, моделирование.

Навигация включает в себя:

изменение масштаба;
перемещение по карте;
выдачу необходимого набора слоев;
задание атрибутов слоя;
порядок прорисовки слоев.

Поиск информации включает:

поиск конкретного объекта по карте по атрибутивным данным (например, поиск улицы по названию);
поиск атрибутивной информации об объекте на карте;
построение буферных зон, анализ близости;
поиск по геометрическим признакам (например, нахождение одного объект или его части внутри другого, нахождение смежных объектов).

Моделирование используется при построении, например, моделей инженерных сетей (тепловых, электрических).

Приведем примеры пространственных запросов. Сколько домов находится в 100 метрах от заданного водоема? (пример анализа близости); Сколько покупателей живет не далее 1 км от данного магазина?; Какие почвы встречаются в заданной охраняемой территории? (выполняется наложение почвенной карты на карту охраняемых объектов).

Наиболее распространенными представителями ГИС являются продукты MapInfo, ArcInfo.

<<< < Предыдущая 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2122 / 2722 23 24 25 26 27 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
15.08.20196.61 Mб17Арчегов-лаб геол задачник.doc
#
01.05.2025605.18 Кб1АрчКонспект _Горное дело-2сем.doc
#
02.04.20151.42 Mб60Атомная спектроскопия.pdf
#
23.11.2019241.15 Кб72Ацэнка вынікаў Беларуская мова.doc
#
09.11.20186.58 Mб10б.у..doc
#
01.04.20253.29 Mб0Базы_данных_29.09.05.doc
#
21.08.2019266.75 Кб16БАНКОВСКИЙ КРЕДИТ.doc
#
14.03.2016736.91 Кб16БАРАБАН.pdf
#
02.04.20154.15 Mб168Баракова. Первый Курс.doc
#
01.05.2025406.53 Кб0Баталов АА курсовая БА-10-2 Организация произво...doc
#
14.03.201620.9 Кб139Батыево нашествие на Русь.docx