Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
kurs.rtf
Скачиваний:
1
Добавлен:
01.03.2025
Размер:
23.54 Mб
Скачать

Синтаксис запросов dmx

Процедура построения модели ИАД в целом похожа на процедуру создания таблиц данных в реляционной БД. Синтаксис языка более прост по сравнению с синтаксисом языка SQL. Рассмотрим листинг 13.1 создания структуры ИАД со столбцами TeacherID, FamilyName, Name, Age, AcademStatus, AcademDegree.

CREATE MINING STRUCTURE [Teacher1]

{

[TeacherID] LONG KEY,

[FamilyName] TEXT DISCRETE,

[Name] TEXT DISCRETE,

[Age] LONG CONTINUOUS,

[AcademStatus] TEXT DISCRETE,

[AcademDegree] TEXT DISCRETE

}

Столбец TeacherID является ключом структуры. Столбцы TeacherID, Age являются длинными целыми, а столбцы FamilyName, Name, AcademStatus, AcademDegree – строками с текстом. ИАД предполагает обязательное задание типа столбца. Тип содержимого столбца служит указанием движку ИАД об особенностях обработки данных столбца, который является либо категориальным, либо непрерывным. Существенными элементами рассматриваемой инструкции DMX являются имя структуры и список столбцов. Поддерживаемые типы данных и содержимого приведены в таблице 14.1

Таблица 14.1 Типы данных и содержимого

Типы данных

Типы содержимого

LONG

KEY

DOUBLE

DISCRETE

TEXT

CONTINUOUS

DATE

DISCRETIZED

BOOLEAN

KEY TIME

TABLE

KEY SEQUENCE

Тип содержимого KEY TIME используется в моделях временных рядов, KEY SEQUENCE – моделях кластеризации последовательностей во вложенных таблицах. Тип содержимого столбца DISCRETIZED является параметризированным. По умолчанию из данных с этим типом содержимого столбца создаётся пять сегментов. Если данных в столбце на пять сегментов не хватает, то осуществляется попытка создать сегментов меньше. Процессом формирования сегментов можно управлять с использованием методов:

  • EQUAL_AREAS – создаёт сегменты с равным количеством значений;

  • CLUSTERS – выявляет области сгруппированных точек посредством одномерной кластеризации;

  • AUTOMATIC – вначале задача решается методом EQUAL_AREAS, в случае отсутствия результата – методом CLUSTERS.

Разделение данных на обучающие и проверочные наборы может выполняться автоматически при задании в структуре ИАД процента данных для проверки. Данные, не используемые для проверки, применяют в процедуре обучения модели. В листинге 14.2 содержится определение структуры с резервированием для проверки 25 процентов данных, но не более 500.

CREATE MINING STRUCTURE [Teacher2]

{

[TeacherID] LONG KEY,

[FamilyName] TEXT DISCRETE,

[Name] TEXT DISCRETE,

[Age] LONG CONTINUOUS,

[AgeDisc] DISCRETIZED 9EQUAL AREAS, 3)

[AcademStatus] TEXT DISCRETE,

[AcademDegree] TEXT DISCRETE

} WITH HOLDOUT ( 25 PERCENT OR 500 CASES)

Случайный порядок отбора вариантов обеспечивается включением в конструкцию слова HOLDOUT.

Вложенные таблицы с типом данных TABLE позволяют реализовать более сложные сценарии ИАД. Вложенная таблица определяется также как и структура с использованием названия и списка столбцов. В отличие от структуры ИАД, вложенные таблицы содержат только один ключ (Листинг 14.3).

CREATE MINING STRUCTURE [Teacher3]

{

[TeacherID] LONG KEY,

[FamilyName] TEXT DISCRETE,

[Name] TEXT DISCRETE,

[Age] LONG CONTINUOUS,

[AgeDisc] DISCRETIZED (EQUAL AREAS, 3)

[AcademStatus] TEXT DISCRETE,

[AcademDegree] TEXT DISCRETE

[TeachingLoad] TABLE

{

[Discipline] TEXT KEY,

[Quantity] LONG CONTINUOUS

}

}

Вложенная таблица TeachingLoad (Учебная нагрузка) содержит вложенный ключ Discipline (Дисциплина), который указывает объект вложенной строки. Столбец Quantity (Количество часов), относится к объекту, упомянутому в этом столбце.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]