- •Лабораторна робота №3 з дисципліни:
- •Перевірив:
- •1. Створений файл Roma.Arff для роботи з визначення товарів, які необхідно закупити супермаркетом.
- •Побудова моделі Decision Tree Mining Model:
- •Побудова моделі Hierarchical Clustering Mining Model
- •Контрольні питання
- •1. Які проблеми виникають з вхідними даними.
- •2. Чому для одних і тих же даних не можуть бути побудовані всі види моделей.
- •3. Які вимоги на вхідні дані накладають різні алгоритми data mining.
- •4. Які параметри необхідно налаштувати для побудови асоціативних правил. Як від них залежить результат (побудована модель).
- •5. Які параметри необхідно налаштувати для побудови дерева рішень. Як від них залежить результат (побудована модель).
- •6. Які параметри необхідно налаштувати для виконання кластеризації. Як від них залежить результат (побудована модель).
4. Які параметри необхідно налаштувати для побудови асоціативних правил. Як від них залежить результат (побудована модель).
В ньому виконується настройка таких параметрів:
• Minimum Support - мінімальне значення підтримки для шуканих частих наборів і споруджуваних асоціативних правил. Значення має бути більше нуля, інакше не буде побудовано не одного правила.
• Minimum Confidence - мінімальне значення довіри для споруджуваних асоціативних правил. Значення має бути більше нуля, інакше не буде побудовано не одного правила.
• Transaction ID Name - атрибут унікально ідентифікує транзакції (ключове поле).
• Item ID Name - атрибут представляє собою імена об'єктів. Вони використовуються для побудови правил. Від його вибору залежить ступінь розуміння отриманих результатів.
5. Які параметри необхідно налаштувати для побудови дерева рішень. Як від них залежить результат (побудована модель).
При побудові дерева рішень виконується настройка таких параметрів:
• Target - атрибут по якому виконується класифікація даних (незалежна змінна).
• Max depth - максимально допустима глибина будується дерева
• Max surrogates - максимально припустиме число замін
• Max splits - максимально допустима кількість розщеплень
• Min node size - мінімальний розмір вузла дерева
• Min decrease in impurity - мінімальна ступінь домішок
6. Які параметри необхідно налаштувати для виконання кластеризації. Як від них залежить результат (побудована модель).
Установки для кластерних центрованої та ієрархічних моделей
Виконується настройка таких параметрів:
• Maximum number of clusters - максимальна кількість побудованих кластерів. Знченіе параметра має бути більше нуля.
• Distance - параметри характеризують функцію обчислення відстані між об'етамі:
Type - тип функції відстані. Xelopes (Евклідова - Euclidean, Чебишева - Chebyshev та ін)
Comparison function - функція зіставлення.
Normalized - чи використовувати нормалізацію при розрахунку відстаней.
Установки для розділяється кластерної моделі
Виконується настройка додаткових параметрів параметрів:
Linkage - параметр k для алгоритму k-linkage.
Threshold - межа для відстані.