Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лек2-Основные понятия интеллектуального анализа....docx
Скачиваний:
15
Добавлен:
04.11.2018
Размер:
334.81 Кб
Скачать
    1. Постановка задачи

Первым шагом процесса интеллектуального анализа данных, как видно из диаграммы ниже, является четкое определение бизнес-задачи.

Этот шаг включает анализ бизнес-требований, определение масштаба проблемы, метрик, по которым будет выполняться оценка модели, а также определение конечной цели проекта интеллектуального анализа данных. Эти задачи можно сформулировать в виде следующих вопросов:

  • Что необходимо найти?

  • Какой атрибут набора данных необходимо предсказать?

  • Какие типы связей необходимо найти?

  • Надо ли делать прогнозы на основании модели интеллектуального анализа данных или просто найти интересующие шаблоны и связи?

  • Каким образом распределяются данные?

  • Как связаны столбцы, а в случае с несколькими таблицами — как связаны таблицы?

Чтобы ответить на эти вопросы, возможно, потребуется исследовать уровень доступности данных, изучить потребности пользователей в отношении доступных данных. Если данные не поддерживают потребности пользователей, то может возникнуть необходимость в изменении определения проекта.

    1. Подготовка данных

Вторым шагом процесса интеллектуального анализа данных, как видно из следующей диаграммы, является объединение и очистка данных, определенных во время шага Постановка задачи.

Службы Microsoft SQL Server 2005 Integration Services (SSIS) содержат все средства, необходимые для завершения данного шага, включая преобразования для очистки и объединения данных.

Данные могут находиться в разных частях компании и храниться в различных форматах или содержать такие ошибки согласования, как дефектные или отсутствующие записи. Например, согласно данным может оказаться, что клиент купил продукт еще до своего рождения или регулярно делает покупки в магазине, расположенном за 2000 километров от дома. Прежде чем перейти к разработке моделей, необходимо устранить эти несоответствия. Обычно пользователь работает с очень большим набором данных и не может просмотреть каждую транзакцию. Следовательно, для просмотра данных и выявления несогласованности в них необходимо использовать какой-либо вид автоматизации, например тот, который имеется в службах Integration Services.

    1. Просмотр данных

Третьим шагом процесса интеллектуального анализа данных, как видно из диаграммы ниже, является просмотр подготовленных данных.

Для принятия правильных решений при создании моделей необходимо понимать данные. Методы исследования данных включают в себя расчет минимальных и максимальных значений, расчет средних и стандартных отклонений и изучение распределения данных. После исследования данных можно определить, содержит ли набор данных дефектные данные или нет, а затем разработать стратегию по устранению несоответствий.

Конструктор представлений источников данных в среде BI Development Studio содержит несколько средств, которые можно использовать для просмотра данных.

    1. Построение моделей

Четвертым шагом процесса интеллектуального анализа данных, как видно из диаграммы ниже, является построение моделей интеллектуального анализа данных.

Прежде чем построить модель, необходимо случайным образом разделить подготовленные данные в отдельные наборы обучающих и контрольных данных. Набор обучающих данных используется для построения модели, а контрольный набор данных — для проверки точности модели путем создания прогнозирующих запросов. Чтобы разделить набор данных, можно использовать Преобразование «Процентная выборка» в службах Integration Services.

Знания, полученные при выполнении шага Просмотр данных, помогут определить и создать модель интеллектуального анализа данных. Обычно модель содержит входные столбцы, идентифицирующий столбец и прогнозируемый столбец. Данные столбцы можно затем определить в новой модели при помощи языка расширений интеллектуального анализа данных или мастера интеллектуального анализа данных в среде BI Development Studio. Дополнительные сведения об использовании языка расширений интеллектуального анализа данных см. в разделе Справочник по расширениям интеллектуального анализа данных. Дополнительные сведения об использовании мастера интеллектуального анализа данных см. в разделе Мастер интеллектуального анализа данных.

После определения структуры модели интеллектуального анализа данных выполняется ее обработка и наполнение пустой структуры шаблонами, описывающими модель. Данный процесс известен как обучение модели. Шаблоны выявляются путем применения в отношении исходных данных математического алгоритма. SQL Server 2005 содержит отдельный алгоритм для каждого типа модели, доступной для построения. Для настройки каждого алгоритма можно использовать параметры.

Модель интеллектуального анализа данных определяется объектом структуры интеллектуального анализа данных, объектом модели интеллектуального анализа данных и алгоритмом интеллектуального анализа данных.