Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
МНа Экзамен Ответы_окончательно.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
950.78 Кб
Скачать
  1. Обробка безперервних значень для побудови дерев рішень;

В случае поступления непрерывных значений в обучающей выборке для построения дерева решений необходимо произвести дискретизацию. Самый простой, но интеллектуальный способ равномерная дискретизация. Деление диапазона значений на равные интервалы. Для целевого атрибута чаще всего используют этот способ. «Интеллектуальная» дискретизация с учетом значений целевой функции (для определенных атрибутов). Такая дискретизация проводится с использованием IG. Она будет уменьшать энтропию наших примеров и следовательно приведет к более короткому дереву. Критерием IG вычисляется важность каждого возможного порога дискретизации. Порогами-кандидатами для которых подсчитывается IG являются те значения атрибута, где меняется значение класса. Т.е. среднее значение между значениями с разными классами.

Алгоритм:

1.сортируем примеры по возрастанию того атрибута, которому требуется дискретизация

2. Выбираем пороги-кандидаты

3. if(Q порогов-кандидатов) <= (Q требуемых дискретных значений атрибута -1), тогда применяем эти пороги без подсчета IG. Else подсчитываем IG для каждого порога-кандидата и отбираем те пороги, у которых IG наибольший.

4. Применяем отобранные пороги для дискретизации.

IG в данном случае вычисляется по формуле:

G(S)=E(D)- |D<S| * E (D<S) / |D| - |D>S| * E (D>S) / |D|

Где S-значение порога, E – значение энтропии.

  1. Розрахунок основних інформ. Показників для побудови дерев рішень (entropy, ig);

Обучение с помощью дерева решений – это метод для аппроксимации дискретных значений целевой функции, в которой обученная функция представлена деревом решений. IG- это мера, которая используется для определения наилучшего атрибутов, то есть тех, которые больше всего будет влиять на значение целевой функции. Для расчета IG также понадобится значение энтропии. Энтропия показывает насколько разбросаны примеры, относятся ли они к одному классу или к разным. (Другими словами: энтропия – это мера неопределенности информации и принимает значения от 0 до 1, а IG – это ожидаемое уменьшение энтропии).

Для функции булевых значений расчет энтропии производится по следующей формуле:

E(s) = -P- * log2P- –P+ log2P + , где р+ - отношение позитивных примеров к общ числу примеров, где р- - отношение отрицательных примеров к общ числу примеров.

Если кол-во классов больше чем 2, (записать самому – сумма по n ну и т.д., ты знаешь;)…)

IG: где |Sv| - побвыборка S, в которой у А есть значение, |S| - мощность множестваS, Values(A) – возможные значения атрибута А.

  1. Альтернативні методи обрання атрибутів (split information, gain ratio)

Иногда приходится сталкиваться с атрибутами, принимающими множество значений. Например, атрибуты ДАТА (365 значений).Проблема: если у атрибута множество возможных значений велико, то мера IG будет всегда выбирать атрибут в качестве корневого. На практике такое дерево смысла иметь не будет. Решение: для того, чтобы избежать ошибки, необходимо выбирать атрибут другим методом, а не IG.

gain ratio выбраковывает такие атрибуты, вводя понятие split information, чувствительное к тому, насколько широко и однородно атрибут разбивает данные:

При этом С-подмножество примеров в результате разбиения S на С значений атрибута А.

SplitInformation - фактически энтропия S относительно значений атрибута А. Это противоречит предыдущему использованию энтропии, когда мы рассматривали только энтропию S относительно целевого атрибута, чье значение должно быть предсказано обученным деревом. Мера RatioGain определяется в понятиях как прошлой меры Gain, так и SplitInformation:

SplitInformation устраняет выделение атрибутов со многими однородно распространенными значениями.

Один момент, который проявляется при использовании GainRatio вместо Gain - то, что знаменатель может быть нулевым или очень малым, когда Si примерно равно S для одного из Si. Это делает GainRatio или неопределенным, или очень большим для атрибутов, которые могут иметь то же значение для почти всех членов S. Чтобы избежать отбора атрибутов исключительно исходя из этого, мы можем применить некоторую эвристику, например, сначала считать Gain каждого атрибута, затем применять GainRatio, рассматривая только те значения каждого атрибута, которые выше среднего Gain.

  1. Instance-based learning;

Методы обучения на примерах – это прямые подходы для вывода локальной аппроксимации целевой функции дискретных или непрерывных значений. Это ленивые методы, поэтому вывод целевой функции откладывается до прихода нового примера на классификацию. При приходе нового примера на классификацию, вычисляется его отношение ко всем хранящимся обучающим примерам. Исходя из этого назначается классификация/значение целевой ф-ции.

Включает в себя методы: case-based reasoning, которые используют более сложное, символическое представление примеров. Главное преимущество этих методов в том, что вместо того, чтоб оценивать целевой атрибут для всего пространства примеров, они могут оценивать его для каждого нового примера отдельно.

Недостатки: 1) затраты на классификацию нового примера могут быть высокими. Это происходит потому, что все рассчеты производятся в то же время, что и классификация. 2) IBL-методы, особенно методы ближайшего соседа, учитывают все атрибуты, когда извлекают схожие примеры. При этом целевой концепт может зависеть только от нескольких.

  1. Case-based reasoning;

Это так же ленивый метод, который классифицирует новый пример анализируя схожие примеры и игнорируя полностью отличные, но, в отличии от методов instance-based learning, не использует Эвклидово пространство для представления примеров в виде вещественных точек. Этот метод обучения на примерах для обучающих данных, представленных символьными логическими описаниями. Существуют задачи обучения, когда обучающие примеры не представляются в виде пар атрибут-значение.

Области применения:

- Проектирование различных механических устройств на основе хранящейся библиотеки предыдущих примеров.

- Область юриспруденции. Поддержка принятия решений в судах на основе аналогий.

- В менеджменте проектов.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]