Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лек2-Основные понятия интеллектуального анализа....docx
Скачиваний:
15
Добавлен:
04.11.2018
Размер:
334.81 Кб
Скачать
      1. Прогнозирование непрерывных столбцов

Когда алгоритм дерева принятия решений (Майкрософт) строит дерево, основанное на непрерывном прогнозируемом столбце, каждый узел содержит регрессионную формулу. Разбиение осуществляется в точке нелинейности в этой регрессионной формуле. Например, рассмотрим следующую диаграмму.

Диаграмма содержит данные, которые можно моделировать либо используя одиночную линию, либо используя две соединенные линии. Однако одиночная линия не обеспечит надлежащего представления данных. Вместо этого при использовании двух линий модель обеспечит гораздо более точное приближение данных. Точка соединения этих двух линий является точкой нелинейности и представляет собой точку, в которой разобьется узел в модели дерева решений. Например, узел, соответствующий точке нелинейности на предыдущем графике, может быть представлен следующей диаграммой. Эти два уравнения представляют регрессионные уравнения для этих двух линий.

      1. Использование алгоритма

Модель дерева решений должна содержать ключевой столбец, входные столбцы и один прогнозируемый столбец.

В следующей таблице перечислены конкретные типы содержимого входных столбцов, типы содержимого прогнозируемых столбцов и флаги моделирования, поддерживаемые алгоритмом дерева принятия решений (Майкрософт).

Типы содержимого входных столбцов

Continuous, Cyclical, Discrete, Discretized, Key, Table и Ordered

Типы содержимого прогнозируемых столбцов

Непрерывные, циклические, дискретные, дискретизированные, табличные и упорядоченные

Флаги моделирования

MODEL_EXISTENCE_ONLY, NOT NULL и REGRESSOR

Все алгоритмы Майкрософт поддерживают общий набор функций. Однако алгоритм дерева принятия решений (Майкрософт) поддерживает дополнительные функции. Дополнительные сведения об использовании этих функций см. в разделе Ссылка на функцию расширений интеллектуального анализа данных.

Алгоритм дерева принятия решений (Майкрософт) поддерживает использование языка разметки прогнозирующих моделей (PMML) для создания моделей интеллектуального анализа данных.

Алгоритм дерева принятия решений (Майкрософт) поддерживает несколько параметров, влияющих на производительность и точность получающейся в результате модели интеллектуального анализа данных.

Далее содержатся описания всех параметров.

MAXIMUM_INPUT_ATTRIBUTES

Определяет количество входных атрибутов, которые алгоритм может обработать перед вызовом выбора компонентов. Установите значение 0, чтобы отключить выбор компонентов. Значение по умолчанию равно 255.

MAXIMUM_OUTPUT_ATTRIBUTES

Определяет количество выходных атрибутов, которые алгоритм может обработать перед вызовом выбора компонентов. Установите значение 0, чтобы отключить выбор компонентов. Значение по умолчанию равно 255.

SCORE_METHOD

Определяет метод, используемый для вычисления коэффициента разбиения. Доступные параметры: Энтропия (1), априорный метод Байеса с K2 (2) или априорный эквивалент Дирихле метода Байеса (BDE) (3). Значение по умолчанию равно 3.

SPLIT_METHOD

Определяет метод, используемый для разбиения узла. Доступные параметры: двоичный (1), полный (2) или оба (3). Значение по умолчанию равно 3.

MINIMUM_SUPPORT

Определяет минимальное количество конечных вариантов, необходимых для формирования разбиения в дереве решений. Значение по умолчанию равно 10.

COMPLEXITY_PENALTY

Управляет ростом дерева решений. Низкое значение увеличивает количество разбиений, а высокое количество — уменьшает. Значение по умолчанию основано на количестве атрибутов для конкретной модели, как описано в следующем списке.

Для атрибутов с 1 по 9 значением по умолчанию является 0,5.

Для атрибутов с 10 до 99 значением по умолчанию является 0,9.

Для 100 или более атрибутов значением по умолчанию является 0,99.

FORCED_REGRESSOR

Приводит алгоритм к использованию указанных столбцов в качестве регрессоров, не обращая внимания на важность столбцов, вычисленную алгоритмом. Этот параметр используется только для деревьев решений, прогнозирующих непрерывный атрибут.