Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Консп_СА_КИС_2011-12 Модуль_4К.doc
Скачиваний:
3
Добавлен:
19.11.2019
Размер:
165.89 Кб
Скачать

3.4 Интеллектуальный анализ данных (Data Mining)

Помимо средств оперативной аналитической обработки данных OLAP появились технологии извлечения из хранилищ данных новой информации («знаний»). Эта технология получила название интеллектуального анализа данных (ИАД или data mining).

Современные требования к такому анализу:

- данные могут иметь "неограниченный" объём;

- данные могут быть разнородными (количественными, качественными, текстовыми);

- инструменты для обработки "сырых" данных должны быть по возможности просты для пользователей (исследователей);

- результаты анализа должны быть конкретны, понятны и наглядны.

Целью технологи интеллектуального анализа данных является производство нового знания, которое пользователь может в дальнейшем применить в своей деятельности. Результат моделирования – это выявление скрытых взаимосвязей и отношений в данных. Data Mining – это процессы обнаружения в "сырых" данных знаний и закономерностей:

- ранее неизвестных;

- нетривиальных (неожиданных);

- практически полезных;

- необходимых для принятия решения.

Можно выделить по крайней мере шесть задач (типов закономерностей) выявления и анализа знаний:

- классификация,

- регрессионный анализ,

- прогнозирование временных последовательностей,

- кластеризация,

- ассоциация,

- последовательность.

Классификация, вероятно, является наиболее распространенной сегодня операцией интеллектуального анализа данных. С ее помощью выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил. Однажды определенный эффективный классификатор используется для классификации новых записей в базе данных в уже существующие классы и в этом случае он приобретает характер прогноза.

Регрессионный анализ используется в том случае, если отношения между переменными могут быть выражены количественно в виде некоторой комбинации этих переменных. Полученная комбинация далее используется для предсказания значения, которое может принимать целевая (зависимая) переменная, вычисляемая на заданном наборе значений входных (независимых) переменных. Обычно для этого используются стандартные статистические методы, такие как линейная регрессия. К сожалению, большинство реальных моделей не укладываются в рамки линейной регрессии.

Прогнозирование временных последовательностей позволяет на основе анализа поведения временных рядов оценить будущие значения прогнозируемых переменных. Конечно, эти модели должны включать в себя особые свойства времени: иерархия периодов (декада-месяц-год или месяц-квартал-год), особые отрезки времени (пяти- шести- или семидневная рабочая неделя, тринадцатый месяц), сезонность, праздники и др.

Кластеризация распределяет записи в различные группы или сегменты. Кластеризация аналогична классификации, но отличается от нее тем, что для проведения анализа не требуется иметь выделенный набор классов – он определяется как результат кластеризации .

Ассоциация адресована, главным образом, к анализу структуры сделок (транзакций), например, покупок товаров, услуг, акций.

Большое количество покупок совершается в супермаркетах, где покупатели для удобства используют корзины или тележки, поэтому наиболее известный метод исследования ассоциаций назван «анализ корзины» покупки (market-basket analysis). Целью этого подхода является нахождение трендов среди большого числа транзакций, которые можно использовать для объяснения поведения покупателей. Эта информация может быть использована для регулирования запасов, для продвижения определенного вида продукции. В банковском деле - для анализа портфеля ценных бумаг и нахождения наборов финансовых услуг, которые клиенты часто приобретают вместе. Другими словами, ассоциация имеет место в том случае, если несколько событий как-то связаны друг с другом.

Последовательность. Традиционный анализ структуры покупок имеет дело с набором товаров или услуг, представляющим одну транзакцию. Последовательность - вариант такого анализа, когда существует дополнительная информация для связи различных покупок в единую временную серию. Правила, которые устанавливают отношения структура покупки - время, могут быть использованы для определения изменения во времени типичного набора продаж для целей прогнозирования.

Эти основные типы задач используются для нахождения нового знания в хранилище данных.

В интеллектуальных средствах анализа данных используются такие методы для решения указанных выше задач (только перечислим):

- статистические пакеты;

- искусственные нейронные сети;

- деревья решений;

- системы индукции правил.

- системы рассуждения на основе аналогичных случаев;

- системы с нечеткой логикой;

- генетические алгоритмы;

- алгоритмы определения ассоциаций и последовательностей;

- анализ с избирательным действием;

- логическая регрессия (обнаружение логических закономерностей);

- эволюционное программирование;

- методы визуализации данных.

Часто применяется комбинация нескольких методов.

Арсенал методов постоянно пополняется, разрабатываются пакеты программ. Это – развивающаяся область информационных технологий, информационной деятельности.

По каждому из направлений существует большая литература. Можно рекомендовать учебные курсы [Дюк и Самойленко], и [Барсегян и др.]. Сфера применений технологий Data Mining ничем не ограничена – она везде, где имеются данные, но – в достаточном количестве. Вот некоторые примеры. Сейчас эти технологии применяются:

- в банковском деле (выявление мошенничества с кредитками, сегментация клиентов по категориям, прогнозирование изменений клиентуры);

- в инвестициях и на биржах (прогнозирование курсов акций и валют, прогнозирование цен на биржевые товары);

- в страховании (анализ рисков, выявление мошенничества);

- в прогнозировании спроса на товары и услуги;

- в медицине, генетике, генной инженерии;

Начинается применение в социологии и политологии.

То есть сфера приложений технологий Data Mining расширяется.

Нахождение нового знания – это процесс, который включает в себя несколько шагов:

- определение проблемы (постановка задачи);

- подготовка данных;

- сбор данных: оценка данных, объединение и очистка данных, отбор данных, преобразование данных;

- построение модели: оценка и интерпретация, внешняя проверка;

- использование модели;

- наблюдение за моделью;

- анализ результатов.

Все шаги – в диалоговом, интерактивном режиме. То есть нахождение нового знания с использованием технологий Data Mining также содержит все основные этапы системного исследования, как и многокритериальные методы.

Основное различие состоит в том, что в многокритериальных методах исследователь (группа) формирует и держит под контролем весь процесс системного исследования (кроме расчётов), а в технологиях Data Mining часть этапов исследования компьютер выполняет самостоятельно. Он моделирует работу самоорганизующейся и самообучающейся системы, например, нейронной сети. Поэтому технологии Data Mining можно назвать синергетическими (часть 1).

Лекция 15

Методи штучного інтелекту у системному аналізі

Методи пошуку; еволюційні та еврістичні алгоритми

Лекция 16

Методи сінергетики у системному аналізі

Взаємозв`язки між сінергетикою та системним аналізом; системний синтез

Лекция 14 (СА ИП)

Системні методології проектування інформаційних систем

Основні підходи до проектування інформаційних систем, CASE-технології

Системные методологии анализа и проектирования информационных систем