Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
МГ_Кузнецов_ABCN2_final.docx
Скачиваний:
1
Добавлен:
01.07.2025
Размер:
3 Mб
Скачать

Введение

В результате стремительного развития технологий, в частности связанных с хранением и обработкой информации, многие организации получили возможность накапливать огромные массивы данных. Эти данные требуют тщательного анализа, но зачастую исследование этой информации представляет собой трудоемкий процесс, который почти невозможно осуществить вручную. В связи с этим, постоянно растет спрос на методы автоматического анализа данных, которые позволили бы с наименьшими трудовыми затратами и с приемлемой степенью достоверности решать задачи обобщения данных и их классификации.

Под задачей обобщения будем понимать задачу получения знаний, объясняющих имеющиеся, экспериментально полученные данные обучающей выборки. Под задачей классификации – задача отнесения вновь предъявленных объектов, отличных от объектов обучающей выборки к тому или иному классу, на основе построенного решающего правила, то есть возможность на основе обобщенных понятий объяснить, классифицировать или предсказывать новые знания. В настоящее время эти процессы довольно широко применяются в интеллектуальных системах обработки данных и системах принятия решения. Смысл этих процессов заключается в том, что, используя имеющиеся данные, система способна найти среди них некоторые закономерности, а затем использовать полученные правила для получения выводов о принадлежности неизвестных объектов к какому-либо классу или понятию.

Существует много методов, с помощью которых компьютер может формировать обобщенные модели данных и использовать их для классификации понятий. Одним из популярных методов решения задач классификации является метод построения продукционных правил. Он позволяет на основе обучающей выборки, то есть имеющихся данных, строить обобщенную модель, представленную в виде набора правил, с помощью которых в свою очередь можно отнести новый объект к тому или иному понятию, то есть классифицировать новый объект.

Системы построения обобщенных понятий для классификации объектов в базах данных уже показали себя как ценный инструмент для помощи в решении задач извлечения данных для экспертных систем. Примерами таких задач могут быть анализ шахматных партий, диагностирование болезней, классификация химических веществ, прогнозирование экономических процессов, скорринг(задача выдачи кредита) и многие другие.

Для пользователя экспертной системы принципиальным является реализация алгоритма, позволяющего с высокой точность классифицировать объекты в реальных базах данных. Следовательно, существует требование, чтобы разработанная система находила правила, которые обладали бы высокой предсказательной возможностью и были бы абсолютно понятными для эксперта.

Глава 1.Интеллектуальный анализ данных и Data Mining

Методы интеллектуального анализа данных (ИАД) и, в частности, технологии Data Mining[9] сегодня широко применяются для решения актуальной задачи обнаружения в данных ранее неизвестных и практически полезных знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Английский термин «Data Mining» не имеет однозначного перевода на русский язык (добыча данных, вскрытие данных, информационная проходка, извлечение данных/информации) поэтому в большинстве случаев используется в оригинале. Данное понятие, появившееся в 1978 году, приобрело высокую популярность в современной трактовке примерно с первой половины 1990-х годов. До этого времени, обработка и анализ данных осуществлялся в рамках прикладной статистики, при этом в основном решались задачи обработки небольших баз данных.

Классическое определение этого термина дал в 1996 г. Один из основателей этого направления – Григорий Пятецкий-Шапиро: Data Mining – исследование и обнаружение «машиной» (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны и доступны для интерпретации человеком . Data Mining является одним из этапов процесса обнаружения знаний в базах данных (Knowledge Discovery in Databases, KDD).

Согласно данному определению, к обнаруживаемым знаниям предъявляются следующие требования:

  • Знания должны быть новыми, ранее неизвестными. Затрачиваемые усилия на открытие знаний, которые уже известны пользователю, не окупаются. Поэтому ценность представляют именно новые, ранее неизвестные знания.

  • Знания должны быть нетривиальные. Результаты анализа должны отражать неочевидные, неожиданные закономерности, составляющие так называемые скрытые знания. Результаты, которые могли бы быть получены более простыми способами (например, визуальным просмотром), не оправдывают привлечение мощных методов Data Mining.

  • Знания должны быть практически полезными. Найденные знания должны быть применимы, в том числе и на новых данных, с достаточно высокой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении.

  • Знания должны быть доступны для интерпретации человеком. Найденные закономерности должны быть логически объяснимы, в противном случае существует вероятность, что они являются случайными. Кроме того, обнаруженные знания должны быть представлены в понятном для человека виде.

В Data Mining для представления знаний служат различные модели. Виды моделей зависят от методов их создания. Наиболее распространенными являются: правила, деревья решений, кластеры и математические функции.