
- •Бизнес-аналитика. Основные понятия, определения. Роль аналитических систем в общей архитектуре корпоративной информационной системы уровня предприятия.
- •Хранилище данных. Концепция построения и использования. Архитектура физической и виртуальной реализации Хранилища данных. Витрина данных.
- •Организация Хранилища данных, детальные данные, агрегированные данные, метаданные. Извлечение, преобразование, загрузка данных в Хранилища данных (etl процесс).
- •Возможная архитектура реализации хранения данных в системе olap (molap, holap или rolap). Сравнительные преимущества и недостатки для выбора.
- •Назначение оlap системы, основные пользователи, многомерная модель данных, рынок по. Признаки, определяющие принадлежность системы к классу оlap систем.
- •Интеллектуальный анализ данных, определение, основные особенности. Классификация задач Data Mining
- •Практическое применение Data Mining – прикладные задачи для банков, используемые методы.
- •Задачи кластеризации. Постановка задачи, базовые алгоритмы решения, достоинства и недостатки. Применение задачи кластеризации в банковской сфере.
- •Этапы методики извлечения знаний. Особенности и значимость каждого этапа.
- •Платформа Deductor. Возможности, архитектура, решаемые задачи.
Интеллектуальный анализ данных, определение, основные особенности. Классификация задач Data Mining
Широкое распространение программного и аппаратного обеспечения для Хранилищ данных приводит к тому, что компании получают возможность собирать данные легко и «с избытком». И теперь для поддержания конкурентоспособности без средств Data Mining уже не обойтись, тем более что они становятся всё более и более доступными.
Data Mining - процесс анализа баз данных, направленный на поиск новой полезной информации, обычно представленной в форме ранее неизвестных отношений между переменными. Обнаружение новых знаний можно использовать для повышения маркетинговой эффективности базы данных. Анализируя соответствующие данные пользователей, можно предсказать поведение клиентов и даже повлиять на него. Компании в самых разных отраслях экономики используют преимущества этой технологии.
Определим наиболее важные на текущий момент задачи DM. Две ключевые задачи DM определяются через понятияпрогнозирования и объяснения.Прогнозированиемназывается задача предсказания значения целевой переменной при наличии значений других переменных (атрибутов) в БД, либо предсказание значения целевой переменной в будущем. Подобъяснениемпонимают поиск полезных и интерпретируемых закономерностей в целях создания требуемой модели приложения. Вторая задача является значительно более трудоемкой и поэтому она считается основной в процессе KDD
Задачи прогнозирования и объяснения распадаются на следующие подзадачи:
Описание понятий и классов с целью построения их моделей или их различения. Обычно данные ассоциированы либо с некоторыми понятиями или классами понятий, компактное, агрегированное описание которых позволяет пользователю получить ценную информацию. С другой стороны, часто для принятия решений важно понять различие двух или более понятий, классов.
Анализ ассоциаций. Эта задача имеет обширные приложения в области маркетинга (исследование "покупательской корзины") и в ряде других приложений. В частности, результаты анализа ассоциаций позволяют получать паттерны типа ассоциативных правил, которые далее могут использоваться для формирования продукционных баз знаний в системах принятия решений, обнаружения причин отказов аппаратуры, причин негативного или, наоборот, позитивного развития событий и т.п.
Классификация. Задача отнесения отдельного примера к одному из нескольких классов. Является на данный момент одной из превалирующих задач DM (типичный представитель – задача обнаружения вторжений в компьютерной сети (intrusion detection)).
Регрессионный анализ. Задача нахождения функции, задающей отношение вектора вещественных переменных в момент времени к вектору тех же (либо других) вещественных переменных в момент времени . В общем случае данная пара векторов может не зависеть от времени.
Кластерный анализ. Задача поиска конечного числа категорий, разделяющих множество примеров на непересекающиеся подмножества. Элементы данных подмножеств должны быть «похожи» в заданном смысле внутри подмножества и отличаться от элементов других подмножеств.
Агрегирование (суммаризация). Задача поиска компактного описания подмножества данных. (напр. задача отыскания вектора средних значений и матрицы отклонений для набора данных; поиск функциональных зависимостей между переменными или ассоциативных правил).
Моделирование зависимостей. Задача поиска значимых зависимостей между переменными. Обычно разделяется на два уровня: структурный, дающий графическое представление зависимостей, и количественный, присваивающий атрибутам значений, играющих роль сильных зависимостей, определенных на структурном уровне. Примером данной задачи может служить Алгебраическая Байесовская Сеть.
Обнаружение отклонений. Целью задачи является поиск наиболее значимых в заданном смысле изменений в данных по сравнению со средними, нормативными показателями.