
- •Розділ 1. Системи підтримки прийняття рішень
- •Задачі систем підтримки прийняття рішень
- •База даних - основа сппр
- •Неефективність використання oltp-систем для аналізу даних
- •Розділ 2. Сховище даних
- •2.1. Концепція сховища даних
- •2.2. Організація сд
- •2.3. Очищення даних
- •2.4. Концепція сховища даних і аналіз
- •4.1. Видобуток даних - Data Mining
- •4.2. Завдання Data Mining
- •4.2.1. Data Mining Класифікація задач
- •4.2.2. Задача класифікації і регресії
- •4.2.3. Завдання пошуку асоціативних правил
- •4.2.4. Задача кластеризації
- •4.3. Практичне застосування Data Mining
- •4.3.1. Інтернет-технології
- •4.3.2. Торгівля
- •4.3.3. Телекомунікації
- •4.3.4. Промислове виробництво
- •4.3.5. Медицина
- •4.3.6. Банківська справа
- •4.3.7. Страховий бізнес
- •4.3.8. Інші області застосування
- •4.4. Моделі Data Mining
- •4.4.1. Предбачувальні моделі
- •4.5. Методи Data Mining
- •4.5.1. Базові методи
- •4.5.3. Генетичні алгоритми
- •4.5.4. Нейронні мережі
- •4.6. Процес виявлення знань
- •4.6.1. Основні етапи аналізу
- •4.6.2. Підготовка вихідних даних
- •4.7. Засоби Data Mining
4.6. Процес виявлення знань
4.6.1. Основні етапи аналізу
Для виявлення знань в даних недостатньо просто застосувати методи Data Mining, хоча, безумовно, цей етап є основним в процесі інтелектуального аналізу. Весь процес складається з декількох етапів. Роздивимося основні з них, щоб продемонструвати, що без спеціальної підготовки аналітика методи Data Mining самі по собі не вирішують існуючих проблем. Отже, весь процес можна розбити на наступні етапи (рис. 4.2):
розуміння і формулювання задачі аналізу;
підготовка даних для автоматизованого аналізу (препроцессінг);
Застосування методів Data Mining і побудова моделей
перевірка побудованих моделей;
інтерпретація моделей людиною.
На першому етапі виконується осмислення поставленої задачі та уточнення цілей, які повинні бути досягнуті методами Data Mining. Важливо правильно сформулювати цілі і вибрати необхідні для їх досягнення методи, оскільки від цього залежить подальша ефективність всього процесу.
Другий етап полягає у приведенні даних до форми, придатної для застосування конкретних методів Data Mining. Даний процес далі буде описаний більш докладно, тут зауважимо тільки, що вид перетворень, здійснюємих над даними, багато в чому залежить від використовуваних методів, обраних на попередньому етапі.
Третій етап - це власне застосування методів Data Mining. Сценарії цього застосування можуть бути самими різними і можуть включати складну комбінацію різних методів, особливо якщо використовуються методи дозволяють проаналізувати дані з різних точок зору.
Наступний етап - перевірка побудованих моделей. Дуже простий і часто використовуваний спосіб полягає в тому, що всі наявні дані, котрі необхідно аналізувати, розбиваються на дві групи. Як правило, одна з них більшого розміру, інша меншого. На більшій групі, застосовуючи ті чи інші методи Data Mining, отримують моделі, а на меншій - перевіряють їх. За різницею в точності між тестової та навчальною групами можна судити про адекватність побудованої моделі.
Останній етап - інтерпретація отриманих моделей людиною з метою їх використання для прийняття рішень, додавання одержані правил і залежностей в базі знань і т. д. Цей етап часто передбачає використання методів, що знаходяться на стику технології Data Mining і технології експертних систем Від того, наскільки ефективним він буде, значною мірою залежить успіх вирішення поставленого завдання.
Цим етапом завершується цикл Data Mining. Остаточна оцінка цінності видобутого нового знання виходить за рамки аналізу, автоматизованого або традиційного, і може бути проведена тільки після втілення в життя рішення, прийнятого на основі здобутого знання, після перевірки нового знання практикою. Дослідження досягнутих практичних результатів завершує оцінку цінності видобутого засобами Data Mining нового знання.