- •Київ нухт 2012
- •1. Загальні відомості
- •2. Зміст навчальної дисципліни
- •Та види діяльності студентів
- •3. Запитання для підготовки до іспиту
- •4. Зміст і порядок виконання лабораторних робіт
- •5. Теми, завдання та приклади лабораторних робіт Лабораторна робота №1
- •Приклад виконання
- •Питання для самоперевірки
- •Лабораторна робота №2
- •Приклад виконання
- •Питання для самоперевірки
- •Лабораторна робота №3
- •Приклад виконання
- •Питання для самоперевірки
- •Лабораторна робота №4
- •Приклад виконання
- •1. Створення пакету завантаження до сховища даних з текстового файлу
- •2. Створення пакету завантаження до сховища даних з файлу Excel.
- •3. Створення пакету завантаження до сховища даних з бази даних Access.
- •Питання для самоперевірки
- •Лабораторна робота №5
- •Питання для самоперевірки
- •Лабораторна робота №6
- •Приклад виконання
- •Питання для самоперевірки
- •Лабораторна робота №7
- •Приклад виконання
- •Питання для самоперевірки
- •Лабораторна робота №8
- •Приклад виконання
- •Питання для самоперевірки
- •Рекомендована література
- •Додаток 1
- •Лабораторна робота № __
- •Методичні рекомендації до вивчення дисципліни та виконання лабораторних робіт
- •8.05010105 “Комп'ютерний еколого-економічний моніторинг”
Питання для самоперевірки
Що таке інтелектуальний аналіз даних?
Які засоби для створення пакетів інтелектуальний аналіз даних ви знаєте?
Які етапи створення пакетів інтелектуальний аналіз даних?
Які стандартні алгоритми інтелектуальний аналіз даних підтримує Analysis Services?
Лабораторна робота №7
Тема: Розроблення і використання пакету інтелектуального аналізу даних засобами Analysis Services з використанням алгоритмів кластеризації та нейронних мереж.
Мета: Набути навичок розроблення і використання моделей інтелектуального аналізу даних засобами Analysis Services, використовуючи алгоритми кластеризації та нейронних мереж.
Завдання:
Створити проект Analysis Services, джерело даних та представлення даних.
Побудувати модель Data Mining, застосовуючи алгоритм кластеризації.
Побудувати модель Data Mining, застосовуючи алгоритм нейронних мереж.
Приклад виконання
Інструкції до створення нового проекту Analysis Services, джерела даних та представлення даних наведені в прикладі виконання попередньої лабораторної роботи.
Алгоритм кластеризації використовує ітеративний метод групування записів набору даних в кластери, які мають подібні характеристики. Використовуючи розбиття на кластери можна виявити в досліджуваному масиві даних такі зв'язки, які неможливо виявити простим переглядом цих даних. Крім того, за допомогою алгоритмів кластеризації можна здійснювати прогнозування.
На основі даних таблиці Замовлення на виробництво побудуємо модель Data Mining, застосовуючи алгоритм кластеризації.
Щоб створити нову модель, натискаємо правою кнопкою миші на вузлі Mining Structures та обираємо New Mining Sructure. З’являється майстер створення моделі Data Mining. Обираємо метод визначення моделі From existing relational database or data warehouse.
На кроці з питанням Which data mining technique do you want to use? обираємо Microsoft Clustering. На кроці вибору таблиці для навчання моделі відмічаємо таблицю Замовлення на виробництво прапорцем у колонці Case.
У вікні Specify the Training data (рис. 50) прапорцем вказуємо ключове поле таблиці. Поле Код_продукції відмічаємо прапорцем у колонці Predictable. Після цього стане доступною кнопка Suggest. Натискання на цю кнопку викликає діалогове вікно зі списком найбільш пов’язаних з даним полем стовпців, розташованих в порядку кореляції з прогнозованим. Стовпці зі значенням більше 0,05 автоматично додаються в модель. Якщо запропоновані варіанти підходять, натискаємо кнопку Ок. Після цього ці поля будуть відмічені прапорцями у колонці Input, що означатиме, що вони будуть використовуватися для побудови кластерів.
Рис. 50. Вікно Specify the Training data
Після обробки створеної моделі на закладці Cluster Diagram можна переглянути діаграму кластерів (рис. 51), яка показує відношення між кластерами, виявленими алгоритмом. Довжина ліній, що з'єднують кластери, відображає «близькість», а їх інтенсивність показує, наскільки вони схожі. Колір кластера відповідає за частоту появи змінної і стану (вибрані в полях Shading Variable і State вгорі екрану) у кожному кластері. Змінна за замовчуванням – population, але можна змінити її на будь-яку іншу з моделі і знайти потрібні кластери. Використовуючи смугу прокручування в лівій частині екрана, можна відфільтрувати слабкі зв'язки і знайти кластери, розташовані найближче один до одного.
Рис. 51. Діаграма кластерів
Сторінка Cluster Profiles (рис. 52) надає загальний вигляд моделі. Кожному кластеру моделі на цій сторінці відповідає стовпець з даними, що його описують. У першому стовпчику знаходиться список атрибутів, з якими пов'язаний принаймні один кластер. Всі інші стовпці відображають розподіл станів цих атрибутів для кожного кластера.
Рис. 52. Профілі кластерів
Сторінка Cluster Characteristics (рис. 53) дозволяє більш детально розглянути характеристики кластерів.
Рис. 53. Характеристики кластерів
Алгоритм нейронних мереж (Microsoft Neural Network) призначений для створення моделей класифікації та регресії шляхом конструювання багатошарової нейронної мережі перцептронів (перцептрон – математична комп’ютерна модель сприйняття інформації мозком). Для кожного стану вихідного атрибута алгоритм обчислює розподіл ймовірності вхідних атрибутів. Обробляється повний набір записів, при цьому йде ітеративне порівняння передбачених значень класифікатора з відомим значенням. Помилки класифікації на першій ітерації подаються на вхід мережі для зміни параметрів на наступній ітерації і т.д. Згодом отримані ймовірності використовуються для прогнозування значення вихідного атрибута на підставі значень вхідних атрибутів. Відмінна риса цього алгоритму від алгоритму дерева рішень полягає в оптимізації параметрів мережі для мінімізації помилки класифікації, в той час як алгоритм дерева рішень здійснює розбиття вузлів для максимізації інформації (мінімізації ентропії). Алгоритм підтримує як безперервні, так і дискретні типи атрибутів.
Створення моделі Data Mining на основі алгоритму нейронних мереж аналогічне попередньому, за виключенням того, що на кроці з питанням Which data mining technique do you want to use? необхідно обрати Microsoft Neural Network.
Результати обробки моделі наведені на рис. 54.
Рис. 54. Перегляд моделі Data Mining, побудованої на основі алгоритму нейронних мереж
З побудованої моделі ми бачимо, що основним параметром, по якому класифікуються замовлення є код упаковки та розмір штрафних санкцій. Код упаковки вказує, що замовлення чітко класифікуються за видом фасування та пакування, що дає змогу розподілити замовлення при складанні розкладу їх виконання саме за цим параметром. Крім цього буде враховано показник розмір штрафних санкцій.
