Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
kurs.rtf
Скачиваний:
1
Добавлен:
01.03.2025
Размер:
23.54 Mб
Скачать

Лекция 13. Язык операций Data Mining

В лекции приведён обзор основных конструкций языка многомерных выражений Data Mining Extensions (DMX), предназначенного для выполнения операций интеллектуального анализа данных.

Цель лекции – изучение стандартных концепций и стандартных выражений языка DMX для интеллектуального анализа данных.

К настоящему времени создано множество программных продуктов, поддерживающих методы и алгоритмы интеллектуального анализа данных (ИАД). Как правило, эти продукты имеют свои алгоритмы, особенности проведения и создания приложения ИАД. В результате эффективность применения средств ИАД в составе информационной системы предприятия или организации снижается. С целью устранения отмеченного недостатка компанией Microsoft разработан язык DMX, определяющий стандартные концепции в области ИАД и стандартные выражения в запросах к данным [1].

Ключевые концепции и объекты dmx

Базовыми понятиями языка DMX являются атрибут, состояние, вариант, ключи, входы и выходы [1]. Атрибут представляет собой элемент информации о примере. Например, пол, возраст, образование и семейное положение клиента. Различают два основных типа атрибутов: категориальные атрибуты и непрерывные атрибуты. Категориальные атрибуты имеют фиксированный набор значений. Непрерывные атрибуты принимают значения на множестве чисел. Дополнительные типы атрибутов основаны на базовых категориальных и непрерывных атрибутах. Каждый атрибут категориального типа имеет набор возможных значений или состояний. При проведении ИАД следует ограничивать количество значений только теми, которые имеют отношение к проблеме. В ИАД средствами SQL Server Data Mining все атрибуты имеют неявное состояние Missing, характеризующее отсутствие атрибута в строке данных.

Под вариантом в DMX понимается отдельный пример, который представляется алгоритму ИАД. В самом простом случае в качестве варианта может рассматриваться строка записи в отдельной таблице. Если анализируется учебный процесс вуза, то в качестве варианта может рассматриваться преподаватель, кафедра и факультет. В DMX для задания ключей используют столбцы с двумя типами данных. Первый тип данных используется для задания ключа варианта, который идентифицирует объект, рассматриваемый в качестве варианта. В большинстве случаев ключом варианта служит первичный ключ исходной таблицы. Второй тип данных используется для задания вложенного ключа, который указывает именованный объект вложенной строки. Вложенный ключ является ключом только в контексте вложенной таблицы для одного объекта [1]. Атрибут в DMX может быть входом, выходом, входом и выходом. Алгоритмы ИАД используют входные атрибуты для установления свойств выходных атрибутов. При обучении алгоритму представляются входные и выходные атрибуты. Как правило, в процессе ИАД алгоритму представляются входные атрибуты, который формирует выходные атрибуты. При использовании алгоритмом входных и выходных данных действует соглашение о недопустимости изменений значений выходных атрибутов. Определение входных и выходных данных является важным этапом решения задачи ИАД.

Язык DMX служит для преобразования данных из таблиц во входные данные алгоритмов ИАД. Эти преобразования выполняются в моделях и структурах ИАД. Структура ИАД описывает структурные свойства проблемы и включает столбцы данных, информацию об этих столбцах. В дополнение к этому описанию может содержать кэш исходных данных. Столбцы в структуре не представляют собой атрибуты и рассматриваются как столбцы данных для выполнения ИАД. Структура ИАД может конструироваться таким образом, что исходные данные автоматически будут разделяться на обучающий и проверочный набор данных. При этом только обучающий набор будет доступен в процессе обучения алгоритма.

В отличие от структуры ИАД, являющейся контейнером и дескриптором, модель является объектом, преобразующим строки данных в варианты и осуществляющим машинное обучение выбранного алгоритма ИАД. Модель ИАД описывает подмножество столбцов структуры, распределение столбцов на подмножества входных и выходных столбцов. Таким образом, модель разрабатывается с выделением из структуры необходимого подмножества данных для анализа. В процессе обучения в модели ИАД сохраняются обнаруженные в данных шаблоны. После этого модель может использоваться для прогноза значений выходных столбцов. Модель обеспечивает просмотр выявленных шаблонов и шаблонов, использованных для решения конкретной задачи. В совокупности шаблоны определяются как содержимое модели.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]