- •Міністерство освіти і науки україни національний університет харчових технологій
- •Інтелектуальний аналіз даних лабораторний практикум
- •Київ нухт 2016
- •Мета, зміст, порядок проведення і контролю лабораторних робіт Лабораторна робота № 1.
- •Теоретичні відомості Моделювання та генерація сховища даних
- •Хід роботи
- •Питання для самоперевірки
- •Лабораторна робота № 2.
- •Теоретичні відомості Багатовимірний аналіз даних ‑ olap
- •Хід роботи
- •Теоретичні відомості Інтелектуальний аналіз даних на основі метода кластеризації
- •Хід роботи
- •2. Створення структури інтелектуального аналізу даних.
- •Питання для самоперевірки
- •Лабораторна робота № 3.
- •Інтелектуальний аналіз даних з використанням дерев рішень
- •Хід роботи
- •1. Створення джерела даних.
- •2. Створення структури інтелектуального аналізу даних.
- •Хід роботи
- •Питання для самоперевірки
- •Рекомендована література Базова
- •Допоміжна
- •Інформаційні ресурси
- •Додатки
Теоретичні відомості Інтелектуальний аналіз даних на основі метода кластеризації
Задача класифікації об’єктів є найбільш вживаною та простою порівняно з іншими методами Data Mining.
Задачу класифікації найчастіше розглядають як визначення значення одного з параметрів аналізуємого об’єкта на основі значень інших параметрів, при цьому параметр що визначається називають залежною змінною, а параметри, що приймають участь у його визначенні, ‑ незалежними змінними. Класифікація може бути одновимірною (за однією ознакою) та багатовимірною (за двома або більше ознаками).
Побудова моделі кластеризації в Microsoft Visual Studio передбачає створення джерела даних та структури інтелектуального аналізу даних.
Джерелом даних для побудови моделі кластерного аналізу є СД або OLAP‑куб.
Хід роботи
Наприклад, застосуємо метод кластеризації для визначення найбільш популярної комбінації за сукупністю характеристик продукції та обсягом реалізації.
1. Процес створення джерела даних для проведення кластерного аналізу є подібним до наведеного при формуванні дерева рішень.
2. Створення структури інтелектуального аналізу даних.
В контекстному меню для папки Структуры интеллектуального анализа данных обрати пункт Создать структуру интеллектуального анализа данных… який завантажує "Мастер интеллектуального анализа данных" і виконати наступні кроки:
1 крок. Обрати метод для створення структури інтелектуального аналізу даних – На основе реляционной базы данных или хранилища данных.
2 крок. Створити структуру інтелектуального аналізу даних вибравши ‑ Алгоритм кластеризации (Microsoft).
3 крок. Вибрати створене представлення джерела даних.
4 крок. Визначити набір навчаючих даних, зміст та типи даних стовбців.
Рис. 6. Визначення структури моделі кластеризації
На наступних кроках задати перевірочний набір даних та ім'я структури інтелектуального аналізу даних.
Обробка структури інтелектуального аналізу даних здійснюється пунктом контекстного меню Обработка… Сформована модель інтелектуального аналізу може бути переглянута та за необхідності змінена.
Вкладка Диаграмма кластеров відображає всі кластери у моделі, при цьому лінії що з’єднують кластери показують ступінь їх схожості.
Вкладка Профили кластеров дозволяє переглянути розподілення значень атрибутів у кожному кластері. Дискретні атрибути представляються у вигляді кольорових ліній, неперервні атрибути – у вигляді діаграми ромбів, що являє собою середнє значення та стандартне відхилення у кожному кластері. Під заголовком кожного кластера наведена кількість віднесених до нього варіантів.
Рис. 7. Вікно перегляду профілів кластерів
Проаналізувавши структуру кластерів можна зробити висновок: на рис. 7 показано загальне розподілення атрибутів у кластері. Кожна лінія в кольоровій послідовності, яка відображена в комірках, відповідає поведінці покупців по каналах збуту в кластері. Кожному кольору відповідає продукція (темно синій – "Булочки з корицею", бузковий – Торт "Шоколадний" тощо). Проаналізувавши, наприклад, характеристики профілю кластеру 1 можна зазначити, що до нього входить продукція, яка має найбільші обсяги реалізації, при цьому характеристиками такої продукції є вага від 50 до 335 гр., ціна продукції від 5 до 6 грн., термін придатності від 12 до 57 днів. Дані характеристики можна рекомендувати при розробці нових видів продукції.
