Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
АСУ учебник раздел 1.DOC
Скачиваний:
1
Добавлен:
01.07.2025
Размер:
184.32 Кб
Скачать

1.5.3. Интеллектуальный анализ данных

Сфера поиска закономерностей отличается от оперативной аналитической обработки данных (OLAP) тем, что в ней накопленные сведения автоматически обобщаются до информации, которая может быть охарактеризована как знания. Этот процесс чрезвычайно актуален сейчас, и важность его будет со временем только расти, так, как согласно утверждениям специалистов, “количество информации в мире удваивается каждые 20 месяцев”, в то время как “компьютерные технологии, обещавшие фонтан мудрости, пока что только регулируют потоки данных”.

Интеллектуальный анализ данных определяется в большинстве публикаций как извлечение зерен знаний из гор данных. При этом в английском языке существуют два термина, переводимые как ИАД, - Knowledge Discovery in Databases (KDD) и Data Mining (DM). В большинстве работ они используются как синонимы.

Покажем на примерах различие в задачах “оперативной аналитической обработки данных” (OLAP) и “интеллектуального анализа данных” (ИАД). Если задачей OLAP является, например, ответ на вопрос “Как изменились эксплуатационные затраты путевого хозяйства Московской железной дороги в период с 1998 по 2002 год?”, то цель ИАД найти ответ на вопросы “какие факторы в наибольшей степени влияют на эксплуатационные расходы путевого хозяйства Московской железной дороги”?, “Каковы ожидаемые величины эксплуатационных расходов в 2003 году”? и т.д.

Первоначально средства ИАД разрабатывались так, что в качестве исходного материала для анализа принимались данные, организованные в плоские реляционные таблицы. Применение ИАД к данным, представленным с помощью хранилищ в виде гиперкуба, во многих случаях может оказаться более эффективным, а главное – гораздо более тесно интегрированным в единую информационно-аналитическую систему.

Обычно выделяют следующие пять типов задач ИАД [1]:

  1. Классификация. Наиболее распространенная задача ИАД. Она позволяет выявить признаки, характеризующие однотипные группы объектов – классы, – для того чтобы по известным значениям этих характеристик можно было отнести новый объект к тому или иному классу. Ключевым моментом решения этой задачи является анализ множества заранее классифицированных объектов. Наиболее типичный пример использования классификации – конкурентная борьба между поставщиками товаров и услуг за определенные группы клиентов. Классификация способна помочь определить характеристики неустойчивых клиентов, склонных перейти к другому поставщику, что позволяет найти оптимальную стратегию их удержания от этого шага (например, посредством предоставления скидок, льгот или даже с помощью индивидуальной работы с представителями “групп риска”).

  2. Кластеризация. Логически продолжает идею классификации на более сложный случай, когда сами классы не предопределены. Результатом использования метода, выполняющего кластеризацию, как раз является определение присущего исследуемым данным разбиения на группы. Так, можно выделить родственные группы клиентов или покупателей с тем, чтобы вести в их отношении дифференцированную политику. В приведённом выше примере “группа риска” – категории клиентов, готовых уйти к другому поставщику – средствами кластеризации могут быть определены до начала процесса ухода, что позволит производить профилактику проблемы, а не экстренное исправление положения. В большинстве случаев кластеризация очень субъективна; будучи основанной на измерении “информационного расстояния” между примерами обучающего, любой вариант разбиения на кластеры напрямую зависит от выбранной меры этого расстояния. В качестве примера использования методов кластеризацииможно привести обучение “без учителя” особого вида нейронных сетей – сетей Кохонена [12].

  3. Выявление ассоциаций. Ассоциация – это связь между двумя или несколькими одновременно наступающими событиями. Количественной мерой может быть, например, условная вероятность события А при условии, что событие В произошло.

  4. Выявление последовательностей. Подобно ассоциациям, последовательности имеют место между событиями, но наступающими не одновременно, а с некоторым определенным разрывом во времени. Мерой взаимосвязи между последовательными событиями А, В, С могут быть условные вероятности события В при условии, что событие А произошло, и условная вероятность события С при условии, что А и В имели место.

  5. Прогнозирование. Это задача оценки будущих значений показателя на основе анализа текущих и исторических данных. Например, может быть сделан прогноз объёма перевозок, который ожидается в следующем году, на основе данных, накопленных в базе производственно-экономических показателей работы железной дороги. В задачах подобного типа наиболее часто используются традиционные методы математической статистики.