Лекция 13. Язык операций Data Mining

В лекции приведён обзор основных конструкций языка многомерных выражений Data Mining Extensions (DMX), предназначенного для выполнения операций интеллектуального анализа данных.

Цель лекции – изучение стандартных концепций и стандартных выражений языка DMX для интеллектуального анализа данных.

К настоящему времени создано множество программных продуктов, поддерживающих методы и алгоритмы интеллектуального анализа данных (ИАД). Как правило, эти продукты имеют свои алгоритмы, особенности проведения и создания приложения ИАД. В результате эффективность применения средств ИАД в составе информационной системы предприятия или организации снижается. С целью устранения отмеченного недостатка компанией Microsoft разработан язык DMX, определяющий стандартные концепции в области ИАД и стандартные выражения в запросах к данным [1].

Ключевые концепции и объекты dmx

Базовыми понятиями языка DMX являются атрибут, состояние, вариант, ключи, входы и выходы [1]. Атрибут представляет собой элемент информации о примере. Например, пол, возраст, образование и семейное положение клиента. Различают два основных типа атрибутов: категориальные атрибуты и непрерывные атрибуты. Категориальные атрибуты имеют фиксированный набор значений. Непрерывные атрибуты принимают значения на множестве чисел. Дополнительные типы атрибутов основаны на базовых категориальных и непрерывных атрибутах. Каждый атрибут категориального типа имеет набор возможных значений или состояний. При проведении ИАД следует ограничивать количество значений только теми, которые имеют отношение к проблеме. В ИАД средствами SQL Server Data Mining все атрибуты имеют неявное состояние Missing, характеризующее отсутствие атрибута в строке данных.

Под вариантом в DMX понимается отдельный пример, который представляется алгоритму ИАД. В самом простом случае в качестве варианта может рассматриваться строка записи в отдельной таблице. Если анализируется учебный процесс вуза, то в качестве варианта может рассматриваться преподаватель, кафедра и факультет. В DMX для задания ключей используют столбцы с двумя типами данных. Первый тип данных используется для задания ключа варианта, который идентифицирует объект, рассматриваемый в качестве варианта. В большинстве случаев ключом варианта служит первичный ключ исходной таблицы. Второй тип данных используется для задания вложенного ключа, который указывает именованный объект вложенной строки. Вложенный ключ является ключом только в контексте вложенной таблицы для одного объекта [1]. Атрибут в DMX может быть входом, выходом, входом и выходом. Алгоритмы ИАД используют входные атрибуты для установления свойств выходных атрибутов. При обучении алгоритму представляются входные и выходные атрибуты. Как правило, в процессе ИАД алгоритму представляются входные атрибуты, который формирует выходные атрибуты. При использовании алгоритмом входных и выходных данных действует соглашение о недопустимости изменений значений выходных атрибутов. Определение входных и выходных данных является важным этапом решения задачи ИАД.

Язык DMX служит для преобразования данных из таблиц во входные данные алгоритмов ИАД. Эти преобразования выполняются в моделях и структурах ИАД. Структура ИАД описывает структурные свойства проблемы и включает столбцы данных, информацию об этих столбцах. В дополнение к этому описанию может содержать кэш исходных данных. Столбцы в структуре не представляют собой атрибуты и рассматриваются как столбцы данных для выполнения ИАД. Структура ИАД может конструироваться таким образом, что исходные данные автоматически будут разделяться на обучающий и проверочный набор данных. При этом только обучающий набор будет доступен в процессе обучения алгоритма.

В отличие от структуры ИАД, являющейся контейнером и дескриптором, модель является объектом, преобразующим строки данных в варианты и осуществляющим машинное обучение выбранного алгоритма ИАД. Модель ИАД описывает подмножество столбцов структуры, распределение столбцов на подмножества входных и выходных столбцов. Таким образом, модель разрабатывается с выделением из структуры необходимого подмножества данных для анализа. В процессе обучения в модели ИАД сохраняются обнаруженные в данных шаблоны. После этого модель может использоваться для прогноза значений выходных столбцов. Модель обеспечивает просмотр выявленных шаблонов и шаблонов, использованных для решения конкретной задачи. В совокупности шаблоны определяются как содержимое модели.

<<< < Предыдущая 19 20 21 22 23 24 25 26 27 28 29 3031 / 4431 32 33 34 35 36 37 38 39 40 41 42 43 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.2025442.37 Кб0kultorologia_ekzamen (1).doc
#
01.05.2025184.06 Кб1kultorologiya_tsila.docx
#
23.02.20161.22 Mб98kultura1.doc
#
23.02.20162.09 Mб122kulturologiyamarina.doc
#
23.02.20161.31 Mб21kult_lenina.pdf
#
01.03.202523.54 Mб1kurs.rtf
#
01.07.2025691.2 Кб0kursach_112.doc
#
01.05.20256.8 Mб3kursak_elektrikiv.doc
#
19.11.2019331.26 Кб5Kursova finish.doc
#
23.02.2016135.17 Кб15kursova.doc
#
01.05.2025333.31 Кб0Kursova.doc