Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Metodichka_intelektualniy_analiz_danikh_red.doc
Скачиваний:
2
Добавлен:
01.07.2025
Размер:
7.09 Mб
Скачать

2. Створення структури інтелектуального аналізу даних.

В контекстному меню для папки Структуры интеллектуального анализа данных обрати пункт Создать структуру интеллектуального анализа данных… який завантажує "Мастер интеллектуального анализа данных" і виконати наступні кроки:

1 крок. Обрати метод для створення структури інтелектуального аналізу даних – На основе реляционной базы данных или хранилища данных.

2 крок. Створити структуру інтелектуального аналізу даних вибравши ‑ Алгоритм дерева принятия решений (Microsoft).

3 крок. Вибрати створене представлення джерела даних.

4 крок. Визначити набір навчаючих даних, зміст та типи даних стовбців.

Рис. 13. Визначення структури моделі дерева прийняття рішень

На наступних кроках задати перевірочний набір даних та ім'я структури інтелектуального аналізу даних.

Обробка структури інтелектуального аналізу даних здійснюється пунктом контекстного меню Обработка

Сформована модель інтелектуального аналізу може бути переглянута та за необхідності змінена.

Рис. 14. Вікно перегляду моделі дерева рішень

Рис. 15. Вікно перегляду діаграми залежностей моделі дерева рішень

Рис. 16. Вікно перегляду діаграми точності моделі дерева рішень

Проаналізувавши побудоване дерево рішень можна зробити висновок: найбільш привабливою серед групи "Булочки та плюшки" є продукція "Плюшки московські", якщо не "Плюшки московські" то "Рогалики студентські", якщо не "Рогалики студентські", то "Східні плюшки", аналогічним чином можна проаналізувати кожну з гілок побудованого дерева.

Питання для самоперевірки

  1. Опишіть основні етапи Data Mining.

  2. Наведіть основі методи Data Mining.

  3. Охарактеризуйте метод дерева рішень.

  4. Наведіть основні етапи формування моделі дерева рішень в MS Visual Studio.

Лабораторна робота № 5.

Тема: прогнозування з використанням алгоритмів часових рядів Data Mining.

Мета: засвоїти методи прогнозування з використанням алгоритмів часових рядів (Microsoft Time-Series Data Mining).

Завдання: У середовищі Microsoft Visual Studio здійснити прогнозування на майбутні періоди використовуючи алгоритм часових рядів (Microsoft).

Теоретичні відомості

Прогнозування у Data Mining

Прогнозування є розповсюдженою та затребуваною задачею у різних сферах людської діяльності.

Часовим рядом називається послідовність подій, впорядкованих за часом їх спостереження, при цьому передбачення полягає у визначенні майбутніх подій по вже здійсненим подіям, методами математичної статистики або методами класифікації Data Mining.

Основою для формування прогнозу слугує інформація, що зберігається у базі або сховищі даних у вигляді часових рядів.

Побудова моделі прогнозування методом часових рядів (Microsoft) у Microsoft Visual Studio передбачає створення джерела даних та структури інтелектуального аналізу даних.

Хід роботи

Наприклад, спрогнозуємо обсяги реалізації продукції "Булочки з корицею" на основі даних реалізації продукції за 12 місяців 2014 р.

Побудову прогнозної моделі здійснимо на основі представлення, розробленого для СД.

Рис. 17. Розробка представлення даних в MS SQL Server

Створення структури інтелектуального аналізу даних.

В контекстному меню для папки Структуры интеллектуального анализа данных обрати пункт Создать структуру интеллектуального анализа данных… який завантажує "Мастер интеллектуального анализа данных" і виконати наступні кроки:

1 крок. Обрати метод для створення структури інтелектуального аналізу даних – На основе реляционной базы данных или хранилища данных.

2 крок. Створити структуру інтелектуального аналізу даних вибравши ‑ Алгоритм временных рядов (Microsoft).

3 крок. Вибрати створене представлення джерела даних.

4 крок. Визначити набір навчаючих даних, зміст та типи даних стовбців.

Рис. 18. Визначення структури моделі прогнозування даних

На наступних кроках задати перевірочний набір даних та ім'я структури інтелектуального аналізу даних.

Після завершення створення моделі прогнозування майстром інтелектуального аналізу, переходимо на вкладку Модель интеллектуального анализа та вносимо відповідні зміни (рис.19 ).

Рис. 19. Перегляд та редагування моделі прогнозування даних

Обробка структури інтелектуального аналізу даних здійснюється пунктом контекстного меню Обработка

Вкладка Средство просмотра модели интеллектуального анализа данных дозволяє переглянути отриманий прогноз.

Рис. 20. Перегляд прогнозу моделі прогнозування методом часових рядів

Переглянувши результати роботи алгоритму інтелектуального аналізу можна зробити висновок: прогнозний обсяг реалізації продукції "Булочки з корицею" на наступний місяць здійснений на основі даних попередніх 12 місяців складає 507 кг.

Питання для самоперевірки

  1. Які дані можуть слугувати основою для здійснення прогнозування методом часових рядів?

  2. З якою метою створюється представлення для сховища даних?

  3. Який тип прогнозу (довгостроковий чи короткостроковий) ми отримуємо в результаті використання наведеного метода?

Лабораторна робота № 6.

Тема: аналіз даних методами Data Mining з використанням OLAP-клієнта MS Excel.

Мета: набути навичок моделювання даних з використанням клієнта "Інтелектуального аналізу даних" для MS Excel.

Завдання: здійснити моделювання даних використовуючи алгоритми "Оцінка", "Кластер", "Прогноз" з набору інструментів надбудови "Інтелектуальний аналіз даних" MS Excel.

Теоретичні відомості та хід роботи

Характеристика засобів інтелектуального аналізу в MS Excel 2007

Одним з варіантів проведення інтелектуального аналізу засобами MS Visual Studio є використання надбудов для пакету MS Excel 2007/і вище, які доступні для вільного завантаження на сайті Microsoft.

Рис. 21. Стрічка надбудови "Інтелектуальний аналіз даних" в MS Excel

В икористання надбудови "Інтелектуальний аналіз даних" передбачає створення з'єднання зі службами SSAS: стрічка Интеллектуальный анализ данных, група Соединение, кнопка Соединение

У вікні Соединение со службами Analysis Services, кнопка Создать… дозволить здійснити з'єднання з сервером та обрати необхідне джерело даних.

Рис. 22. Вікна з'єднання зі службами Analysis Services

Г рупа інструментів Подготовка данных дозволяє підготувати вихідний набір даних для проведення аналізу.

Кнопка Просмотр данных дозволяє проаналізувати значення стовпчика (або діапазону комірок) та відобразити їх на діаграмі.

Кнопка Очистить данные дозволяє підготувати дані для аналізу, відкинувши нетипові або помилкові дані (викиди), а також здійснивши заміну окремих значень.

Під викидами розуміють значення даних, які є проблематичними з однієї з наступних причин:

  • значення знаходиться за межами очікуваного діапазону;

  • дані були введені неправильно;

  • значення відсутнє;

  • дані являють собою проміжок або пустий рядок;

  • значення може значно відхилитись від розподілення, якому підпорядковуються дані в моделі.

Кнопка Образцы данных дозволяє вирішити задачу формування навчальної та тестової множин даних, а також виконувати "балансування" даних.

Г рупа інструментів Моделирование данных дозволяє створювати моделі інтелектуального аналізу даних.

Алгоритм

Характеристика алгоритму

Класифікація

(Classify)

Створює модель класифікації на основі даних таблиці Excel, діапазону Excel або зовнішнього джерела даних (AnalysisServicesDataSource). На основі даних формуються шаблони, які при використанні дозволяють віднести приклад, що розглядається до одного з можливих класів. По замовченню використовується алгоритм DecisionTrees, але також доступні LogisticRegression, NaiveBayes, NeuralNetworks.

Оцінка

(Estimate)

Створює модель оцінки значення цільового параметру (він повинен бути числовим) на основі даних таблиці Excel, діапазону Excel або зовнішнього джерела даних. По замовченню використовується алгоритм Decision Trees, але також доступні Linear Regression, Logistic Regression, Neural Networks.

Кластер

(Cluster)

Створює модель кластеризації на основі даних таблиці Excel, діапазону Excel або зовнішнього джерела даних.

Модель визначає групи рядків зі схожими характеристиками, при цьому використовується алгоритм MicrosoftClustering.

Пошук взаємозв'язків

(Associate)

Створює модель, що описує взаємозв'язок об’єктів, проведених однією транзакцією, при цьому використовується алгоритм AssociationRules. Для побудови моделі аналізу необхідно щоб вихідні дані містили стовпчик з ідентифікатором транзакцій та були по ньому відсортовані. В якості джерела даних може бути використана тільки таблиця або діапазон комірок Excel.

Прогноз

(Forecast)

Створює модель для прогнозування нових значень у числовій послідовності. Використовується алгоритм TimeSeries, для роботи якого необхідно щоб стовпчик (або стовпчики), у відношенні якого буде виконуватись прогноз, мав неперервні числові значення. Якщо при аналізі використовується стовпчик з відміткою часу, то рядки у таблиці повинні бути по ньому відсортовані).

Додатково

(Advanced)

Дозволяє створити структуру інтелектуального аналізу даних або додати в існуючу структуру нову модель (наприклад, для порівняння результатів, що отримані різними алгоритмами аналізу)

Г рупа інструментів Использование модели призначена для перегляду параметрів існуючої моделі, її документації, побудови до неї запиту.

Г рупа інструментів Управление містить кнопку Управление моделями, яка призначена для перегляду, перейменування, знищення, виконання обробки, а також

для імпорту/експорту збережених на сервері

структур та моделей інтелектуального аналізу даних.

Г рупа інструментів Точность и правильность призначені для визначення точності побудови моделі інтелектуального аналізу даних. Діаграма точності дозволяє застосувавши модель на тестовій виборці оцінити результати її роботи. Матриця класифікації будує таблицю з результатами точних та помилкових передбачень.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]