Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
теория.doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
1.12 Mб
Скачать

§ 2. Технологии интеллектуального анализа данных

Технологии интеллектуального анализа данных (ИАД, другие термины — Data Mining, Knowledge discovery in databases) предна­значены для выявления знаний — закономерностей и логических взаимосвязей в больших объемах данных различного формата и происхождения. Методы ИАД стали активно развиваться в 1990-х гг. К этому времени на крупных предприятиях «скопились» большие объемы сведений (фактов, документальных данных), хра­нимых в разном виде, различных форматах и базах данных. Чтобы эти сведения не лежали «мертвым грузом», а приносили пользу, были предложены концепция внедрения информационных храни­лищ данных ИАД.

Методы ИАД имеют основной целью выявление закономерно­стей на основе анализа данных для последующего обоснования и принятия решений. Выделяют следующие основные типы таких закономерностей:

  • ассоциация — связь между событиями. Например, исследо­вание в супермаркете может показать, что 65% купивших кукуруз­ные чипсы берут также и коку-колу, а при наличии скидки за такой комплект колу приобретают в 85% случаев. Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько действенна предоставляемая скидка;

  • последовательность — цепочка связанных во времени собы­тий. Например, после покупки дома в 45% случаев в течение меся­ца приобретается новая кухонная плита, а в пределах двух недель 60% новоселов приобретают холодильник;

  • классификация — выявление среди параметров, описываю­щих объекты, тех признаков и их взаимосвязей, которые позволяют отнести новый объект к той или иной группе. Пусть, например, имеются данные о покупателях, которые обслуживались фирмой. Известно, что все множество этих покупателей условно можно раз­делить на классы: «бедный», «богатый», «богатый, но прижими­стый». Оценивая параметры покупателей, система ИАД может вы­вести закономерности между их значениями и принадлежностью покупателя к одному из классов. Тогда, получая характеристики потенциальных покупателей, можно заранее отнести их к тому или иному классу и предложить определенные рекомендации по работе с ними;

  • кластеризация — выявление устойчивых групп в множестве объектов, описываемых набором данных. В отличие от классифи­кации сами группы — кластеры здесь неизвестны, их требуется определить. Возможно, что при анализе некоторого множества данных о покупателях сформируются группы и признаки покупа­телей, предпочитающих определенный вид товара и способ обслу­живания;

  • прогнозирование — выявление на основе исторической ин­формации закономерностей, отражающих динамику поведения объектов и позволяющих прогнозировать их будущее.

Методы ИАД являются дополнением традиционных методов статистической обработки данных (факторного, корреляционного, регрессионного и других видов анализа). Основной их особенно­стью является выявление логических связей между данными и представление результатов не в виде абстрактных математических формул, а в форме, позволяющей наглядно отобразить, интерпре­тировать и объяснить полученные знания. Именно эта наглядность найденных знаний объясняет практическую важность методов ИАД в реальных задачах принятия решений. Среди технологий вы­явления и отображения логических закономерностей в данных вы­делим следующие:

  • технологии деревьев решений — построение по анализу описаний объектов дерева, каждая вершина которого есть правило для сравнения некоторого параметра Х с заданным значением А. Эти правила связаны между собой ребрами дерева так, что в зави­симости от ответа на вопрос о параметре Х задается вопрос о зна­чении параметра Y или Z. Конечные вершины дерева соответству­ют некоторым решениям, например, указывают на принадлежность объекта к тому или иному классу (например, клиент — платеже­способный или нет; ситуация — конфликтная, потенциально кон­фликтная или неконфликтная). Для лучшего понимания приведем иллюстративный пример. Пусть известен некоторый достаточно большой перечень автомобилей, в котором выделяются три класса: класс 1 — автомобили, требующие косметического ремонта; класс 2 — автомобили, не требующие ремонта; класс 3 — автомобили, требующие капитального ремонта. Каждый из автомобилей описы­вается набором параметров и их значениями. Система ИАД, анали­зируя эти параметры, может выбрать те из них, по значениям кото­рых можно оценить принадлежность автомобиля к одному из классов. Тогда, если имеется описание автомобиля, класс которого неизвестен, построенное компьютерной системой дерево решения позволит с большой долей уверенности сделать вывод о необходи­мости ремонта (принадлежности к тому или иному классу);

технологии обнаружения и построения правил «Если... То» — на основании анализа имеющихся в базах данных событий вида «параметр Х больше (меньше, равно) константы А» строится система продукционных правил, позволяющих устанавливать ассо­циации в данных, решать задачи классификации, прогнозирования и т. п.

Технологии распознавания образов и понимания текстов.

Распознавание образов в ЭИС применяется, в частности, для «узна­вания» рукописных и машинописных символов и автоматизации ввода их в ЭВМ. Технологии понимания текстов реализуются в информационно-поисковых системах. В настоящее время в ИПС используется, как правило, весьма ограниченный искусственный язык запросов для поиска документов. Предполагается, что интел­лектуальные ИПС смогут понимать семантику и прагматику запро­сов пользователя, выполненных на естественном языке.

На рис. 5.2 приведена укрупненная схема применения техноло­гий интеллектуальных систем в ЭИС. Отметим, что приведенные здесь сведения являются весьма неполными и отражают только са­мые общие тенденции использования достижений искусственного интеллекта в данной области. Читателю, обратившемуся к допол­нительной литературе, будет полезным обратить внимание на такие направления развития интеллектуальных систем, как искусствен­ные нейронные сети; эволюционное моделирование и генетические алгоритмы; «мягкие» вычисления и нечеткая логика и др., каждое

из которых может быть использовано для обработки данных в ЭИС и поддержки принятия решений в экономических задачах.

Системы, основанные на знаниях

Поддержка принятия решений; обучение; помощь в решении профессиональных задач

Интеллектуальный анализ данных

Распознавание образов, текстов

Обнаружение закономерностей и логических связей в базах данных, приобретение знаний для принятия решений

Считывание и распознавание машинописных и рукописных документов; автоматизация обработки документов; совершенствование запросно-ответных систем

Рис. 5.2. Интеллектуальные технологии в ЭИС