- •Подходы к пониманию проблемы [править]
- •Тест Тьюринга и интуитивный подход [править]
- •Символьный подход [править]
- •Логический подход [править]
- •Агентно-ориентированный подход [править]
- •Гибридный подход [править]
- •Модели и методы исследований [править] Символьное моделирование мыслительных процессов [править]
- •Работа с естественными языками [править]
- •Представление и использование знаний [править]
- •Машинное обучение [править]
- •Биологическое моделирование искусственного интеллекта [править]
- •Робототехника [править]
- •Машинное творчество [править]
- •Другие области исследований [править]
- •Современный искусственный интеллект [править]
- •Применение [править]
- •Язык и система Пролог
- •4. Применение языка пролог в области искусственного интеллекта.
- •7. Методы и алгоритмы искусственного интеллекта, стадии Data Mining.
- •Методы классификации и прогнозирования.
- •Методы кластерного анализа.
- •Методы поиска ассоциативных правил
- •Методы визуализации
- •1. Определение и анализ требований к данным
- •2. Сбор данных
- •3. Предварительная обработка данных
- •4. Построение моделей;·
- •Этап 5. Проверка и оценка моделей
- •9. Инструментальные среды интеллектуальной обработки информации и их характеристика.
- •10. Стандарты интеллектуального анализа данных (методология semma, стандарты cwm, crisp, pmml и др.)
1. Определение и анализ требований к данным
На этом этапе осуществляется моделирование данных, т.е. определение и анализ требований к данным, которые необходимы для осуществления Data Mining. При
этом изучаются вопросы распределения пользователей (географическое, организационное, функциональное); вопросы доступа к данным, которые необходимы для анализа, необходимость во внешних и/или внутренних источниках данных; а также аналитические характеристики.
2. Сбор данных
Если нет ХД. В этом случае источником для исходных данных являются
оперативные, справочные и архивные БД, т.е. данные из существующих информационных систем.
Также, возможно, информация из внешних источников, бумажных носителей, а также знания экспертов или результаты опросов. На этом этапе осуществляется кодирование некоторых данных. Допустим, одним из атрибутов клиента является уровень дохода, который должен быть представлен в системе одним из значений: очень низким, низким, средним, высоким, очень высоким. Необходимо определить градации уровня дохода
3. Предварительная обработка данных
Анализировать можно как качественные, так и некачественные данные. Результат будет достигнут и в том, и в другом случае. Для обеспечения качественного анализа необходимо проведение предварительной обработки данных, которая является необходимым этапом процесса Data Mining.
Оценивание качества данных. Данные могут быть высокого качества и низкого качества, последние - это так называемые грязные или "плохие" данные (пропущенные значения, дубликаты данных, шумы и выбросы).
Данные высокого качества - это полные, точные, своевременные данные, которые
поддаются интерпретации. Такие данные обеспечивают получение качественного результата: знаний, которые смогут поддерживать процесс принятия решений.
Рассмотрим наиболее распространенные виды грязных данных:
Пропущенные значения (Missing Values).
Некоторые значения данных могут быть пропущены в связи с тем, что:
данные вообще не были собраны (например, при анкетировании скрыт возраст);
некоторые атрибуты могут быть неприменимы для некоторых объектов (например,
атрибут "годовой доход" неприменим к ребенку).
Шумы и выбросы.
Выбросы - резко отличающиеся объекты или наблюдения в наборе данных.
Задача аналитика - не только их обнаружить, но и оценить степень их влияния на
результаты дальнейшего анализа - информативной часть либо ошибки.
4. Построение моделей;·
Построение моделей Data Mining осуществляется с целью исследования или изучения моделируемого объекта, процесса, явления и получения новых знаний, необходимых для принятия решений. Использование моделей Data Mining позволяет определить наилучшее решение в конкретной ситуации.
Аналитик создает модель как подобие изучаемого объекта. Модели могут быть записаны в виде различных изображений, схем, математических формул и т.д.
Модели позволяют выделить в объекте наиболее существенные факторы с точки зрения цели исследования, и не отвлекаться на маловажные детали.
Для построения моделей используются различные методы и алгоритмы Data Mining.
Некоторые задачи могут быть решены при помощи моделей, построенных на основе различных методов. Многие разработчики включают в инструменты Data
Mining возможность построения различных моделей (т.к. идеальной не существует), многие также обеспечивают возможность расширяемости моделей.
Выбор метода, на основе которого будет построена модель, должен осуществляться с учетом постановки задачи, особенностей набора исходных данных, специфики решаемой задачи, результатов, которые должны быть получены на выходе.
Постановка задачи формализует суть задачи, так, наличие входных и выходных
переменных при решении задачи классификации определяет выбор одного из методов "обучение с учителем"(при наличии лишь вх. переменных - "обучение без учителя").
Этапы подготовки данных, построения модели, оценки модели и выбора лучшей
представляют собой цикл. Если по каким-либо причинам построенная модель оказалось неприемлемой, цикл повторяется и следует один из следующих этапов:
подготовка данных (если причина некорректности модели - в данных);
построение модели (если причина некорректности - во внутренних параметрах самой
модели).