
- •Предисловие
- •1. Модели данных
- •1.1. Введение в базы данных
- •1.1. Структура интегрированного производственного комплекса
- •1.2. Трехуровневое представление интегрированной базы данных
- •1.3. Взаимодействия с бд
- •1.2. Концептуальное (семантическое) моделирование баз данных
- •1.1 1. Концептуальная модель бд в нотации п. Чена
- •1.13. Фрагмент концептуальной модели проектной организации (idef1x)
- •1.14. Фрагмент концептуальной модели в нотации Баркера
- •1.3. Логическое моделирование данных
- •1.15. Иерархическая модель данных
- •1.16. Организация иерархической модели
- •1.17. Иерархическая модель, поддерживаемая субд инес
- •1.18. Сетевая модель данных
- •1.19 . Организация сетевой модели
- •1.20. Таблица реляционной базы данных
- •1.21. Концептуальная модель тестовой базы данных
- •1.22. Физическая модель тестовой базы данных
- •2. Системы управления базами данных
- •2.1. Функции субд
- •2.1. Организация индексов
- •2 .2. Схема выполнения запроса
- •2.2. Унифицированный язык для работы с бд sql
- •2.3. Тенденции развития субд
- •3. Автоматизированные информационные системы
- •3.1. Сетевая обработка данных
- •3.1. Варианты организации взаимодействий в архитектуре “клиент-сервер”
- •3.2. Схема с централизованными данными
- •3.3. Иерархическая схема распределения данных
- •3.4. Схема с расщепленными данными
- •3.5. Схема с разделенными данными
- •3.6. Схема с реплицированными данными
- •3.2. Виды автоматизированных информационных систем
- •3.7. Структура документальной ипс
- •3.8. Варианты организации справочников в ипс
- •3.9. Функциональная диаграмма управления движением документов в edms-системе
- •3.10. Структура корпоративной информационной системы
- •3.11. Вариант упрощенного гиперкуба для анализа поставок деталей
- •3.12. Схема типа «звезда» аналитической витрины по поставкам деталей
- •3.13. Фрагмент сформированного отчета по поставкам деталей
- •3.3. МетодЫ анализа и проектирования информационных систем
- •3.14. Изображение блока
- •3 .15. Изображение дуги
- •3.16. Варианты объединения дуг
- •3.17. Функциональный блок и интерфейсные дуги
- •3.18. Декомпозиция диаграмм
- •3.28. Диаграммы потоков данных в нотации Yourdon / De Marco
- •3.29. Диаграммы потоков данных в нотации ssadm
- •3.30. Диаграммы потоков данных в нотации Gane/Sarson
- •3.31. Контекстная dfd- диаграмма
- •3.33. Ошибка, связанная с расщеплением потоков данных
- •3.34. Ошибка, связанная с использованием циклов
- •3.35. Ошибка, связанная активацией процессов входными сигналами
- •3.36. Пример диаграммы классов
- •3.37. Пример диаграммы объектов
- •3.38. Пример диаграммы компонентов
- •3 .39. Пример диаграммы развертывания
- •153003, Г. Иваново, ул. Рабфаковская, 34
3.13. Фрагмент сформированного отчета по поставкам деталей
С помощью классификации выявляются признаки, характеризующие однотипные группы объектов – классы, для того чтобы по известным значениям этих характеристик можно было отнести новый объект к тому или иному классу. Ключевым моментом выполнения этой задачи является анализ множества классифицированных объектов. Типичный пример использования классификации – исследование характерных признаков мошенничества с кредитными карточками в банковском деле. Путем анализа прошлых транзакций, которые впоследствии оказались мошенническими, банк выявляет некоторые стереотипы такого мошенничества.
Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации самостоятельно выделяются различные однородные группы данных. Так, например, можно выделить родственные группы клиентов с тем, чтобы определить характеристики неустойчивых клиентов («группы риска») – клиентов, готовых уйти к другому поставщику. При этом необходимо найти оптимальную стратегию их удержания (например, посредством предоставления скидок, льгот или даже с помощью индивидуальной работы с представителями «группы риска»).
Основой для систем прогнозирования служит историческая информация, хранящаяся в виде временных рядов. Если удается построить шаблоны, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать поведение системы в будущем. Например, создание прогнозирующих моделей дает возможность торговым предприятиям узнавать характер потребностей различных категорий клиентов с определенным поведением (покупающих товары известных дизайнеров или посещающих распродажи). Эти знания нужны для разработки точно направленных, экономичных мероприятий по продвижению товаров.
В общем случае процесс ИАД состоит из трёх стадий:
выявления закономерностей;
использования выявленных закономерностей для предсказания неизвестных значений;
анализа исключений, предназначенного для выявления и толкования аномалий в найденных закономерностях.
Data Mining является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных и др. Отсюда обилие методов и алгоритмов, реализованных в различных действующих системах Data Mining.
Традиционные методы прикладной статистики
Статистическое исследование структуры и характера взаимосвязей, существующих между анализируемыми количественными переменными. Сюда относят корреляционный, факторный, регрессионный анализ, анализ временных рядов. Необходимо отметить, что проблема статистического исследования зависимостей по своему значению заметно превосходит две другие.
Методы классификации объектов и признаков. В данной группе выделяют, в частности, дискриминантный и кластерный анализ.
Снижение размерности исследуемого признакового пространства в целях лаконичного объяснения природы анализируемых данных. К данному разделу относят метод главных компонент, многомерное шкалирование и латентно структурный анализ.
В качестве примеров наиболее мощных и распространенных статистических пакетов, реализующих указанные методы, можно назвать SAS, SPSS, STATGRAPHICS, STATISTICA и др.
Нейронные сети
Искусственные нейронные сети (ИНС) представляют парадигму обработки информации, базирующуюся на той или иной упрощенной математической модели биологических нейронных систем. ИНС организует свою работу путем распределения процесса обработки информации между нейроэлементами, связанными между собой посредством синаптических связей. Выявление закономерностей в данных осуществляется путем обучения ИНС, в процессе которого происходит корректировка величин синаптических связей. Круг задач, решаемых при помощи данных методов, также довольно широк: распознавание образов, адаптивное управление, прогнозирование, построение экспертных систем и др. Основными недостатками нейросетевой парадигмы являются: необходимость большого объема обучающей выборки, отсутствие универсальных топологий и настроек сети. Другой существенный недостаток заключается в том, что ИНС представляет собой «черный ящик», не поддающийся интерпретации человеком. Примеры нейросетевых систем – BrainMAker, NeuroShell, OWL, Neural Analyzer в программном комплексе Deductor (BaseGroup).
Методы обнаружения логических закономерностей в данных
Данные методы апеллируют к информации, заключенной не только в отдельных признаках, но и в сочетаниях значений признаков. Они вычисляют частоты комбинаций простых логических событий в подгруппах данных. На основании анализа вычисленных частот делается заключение о полезности той или иной комбинации для установления ассоциаций в данных, для классификации, прогнозирования. Результаты работы данных методов оформляются в виде деревьев решений или правил типа «ЕСЛИ…, ТО…». Популярность данного подхода связана с наглядностью и понятностью полученных результатов анализа. Проблемой логических методов обнаружения закономерностей является необходимость перебора вариантов за приемлемое время и поиск оптимальной композиции предложенных правил. Представителями систем, реализующих данные методы, являются системы See5/C5.0, WizWhy, Tree Analyzer (BaseGroup).
Методы рассуждения на основе аналогичных случаев
Идея методов CBR (case based reasoning) довольно проста. Для того чтобы сделать прогноз на будущее или выбрать правильное решение, эти системы находят в прошлом близкие аналоги наличной ситуации и
выбирают тот же ответ, который был для них правильным. Главным минусом такого подхода считают то, что данные системы вообще не создают каких-либо моделей или правил, обобщающих предыдущий опыт. В выборе решения они основываются на всем массиве доступных исторических данных. Поэтому существует проблема выбора объема множества прецедентов, которые необходимо хранить для достижения удовлетворительной классификации или прогноза. Примеры систем, использующих CBR – KATE tools, Pattern Recognition Workbench.
Эволюционные и генетические алгоритмы
Данные методы предназначены в основном для оптимизации в задачах поиска зависимости целевой переменной от других переменных. Примером может служить обучение нейронной сети, то есть подбор таких оптимальных значений весов, при которых достигается минимальная ошибка. В основе указанных методов лежит метод случайного поиска, модифицированный за счет использования ряда биологических принципов, открытых при изучении эволюции и происхождения видов, для отбора наилучшего решения. В частности, используются процедуры репродукции (скрещивания), изменчивости (мутаций), генетической композиции, конкурирования в рамках естественного отбора наилучшего решения. В силу своей специфики данные методы часто используются в качестве дополнительного инструментария к какому-либо другому методу. Пример реализации эволюционного алгоритма – отечественная система PolyAnalist. GeneHanter – пример системы, использующей генетические алгоритмы.
Методы визуализации многомерных данных
Эти методы позволяют ассоциировать с анализируемыми данными различные параметры диаграмм рассеивания: цвет, форму, ориентацию относительно собственной оси, размеры и другие свойства графических элементов. При этом они не выполняют автоматического поиска закономерностей, но реализуемые на их основе выводы чрезвычайно удобны для интерпретации и объяснения. В той или иной мере средства для графического отображения данных поддерживаются абсолютным большинством систем Data Mining, однако внушительную долю рынка занимают системы, специализирующиеся исключительно на этой функции. Примером может служить программа DataMiner 3D.
Следует отметить, что использование автономных инструментов Data mining менее предпочтительно по сравнению с их внедрением в среду OLAP или СУБД.
3.2.3. Геоинформационные системы
Геоинформационная система (ГИС) – это программно-аппаратный комплекс, осуществляющий сбор, отображение, обработку, анализ и распространение информации о пространственно распределенных объектах и явлениях на основе электронных карт и связанных с ними баз данных. ГИС – это особый случай автоматизированной информационной системы, где база данных состоит из наблюдений за пространственно распределенными явлениями, процессами и событиями, которые могут быть определены как точки, линии или контуры.
Функции ГИС:
создание высококачественной картографической продукции; процесс преобразования данных с бумажных карт в компьютерные файлы называется оцифровкой;
геокодирование – процесс установления пространственной привязки объектов с атрибутивной информацией;
манипулирование и визуализация информации;
пространственный анализ и моделирование;
интеграция информации различных источников.
Существует два подхода к представлению пространственных объектов:
растровый (ячейки или клетки на карте);
векторный (точки, линии, полигоны).
Вся карта представлена набором слоев. Каждый слой соответствует определенному информационному объекту базы данных. Слои могут быть точечными, площадными и полигонными. Кроме этого, выделяются надписи. Объекты разных слоев могут иметь пространственную связь между собой. Связь такого рода называется топологией. Несколько связанных слоев могут образовывать покрытие.
Пространственный анализ включает в себя следующие методы: навигацию, поиск информации, моделирование.
Навигация включает в себя:
изменение масштаба;
перемещение по карте;
выдачу необходимого набора слоев;
задание атрибутов слоя;
порядок прорисовки слоев.
Поиск информации включает:
поиск конкретного объекта по карте по атрибутивным данным (например, поиск улицы по названию);
поиск атрибутивной информации об объекте на карте;
построение буферных зон, анализ близости;
поиск по геометрическим признакам (например, нахождение одного объект или его части внутри другого, нахождение смежных объектов).
Моделирование используется при построении, например, моделей инженерных сетей (тепловых, электрических).
Приведем примеры пространственных запросов. Сколько домов находится в 100 метрах от заданного водоема? (пример анализа близости); Сколько покупателей живет не далее 1 км от данного магазина?; Какие почвы встречаются в заданной охраняемой территории? (выполняется наложение почвенной карты на карту охраняемых объектов).
Наиболее распространенными представителями ГИС являются продукты MapInfo, ArcInfo.