Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекції з ІСТ в УЗЕД2013_методичка.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
6.29 Mб
Скачать

6.4 Текст лекції Технологія Data Mining

Новою концепцією аналізу корпоративних даних є інтелектуальний аналіз даних Data Mіnіng (з англ. – «видобуток» або «розкопка даних») - технологія виявлення схованих взаємозв'язків усередині великих баз даних.

Виникнення цього терміну пов’язане із новим витком розвитку засобів та методів обробки даних. До початку 1990-х років, здавалося, не було особливої потреби переосмислювати ситуацію в цій галузі. Усе йшло належним чином, в рамках напрямку, що мав назву “прикладна статистика”. Теоретики проводили конференції та семінари, писали значні статті та монографії, що рясніли аналітичними викладками.

Разом із тим, практики завжди знали, що спроби застосувати теорію для рішення реальних задач, у більшості випадків, виявляються марними. Але на заклопотаність практиків до певного часу можна було не звертати особливої уваги – вони вирішували головним чином свої приватні проблеми обробки невеликих локальних баз даних.

Але у зв‘язку із вдосконаленням технологій запису та зберігання даних, на людей навалилися колосальні відвали “інформаційної руди” у найрізноманітніших галузях. Діяльність будь-якого підприємства (комерційного, виробничого, медичного, наукового тощо) тепер супроводжується реєстрацією та записом усіх подробиць його діяльності. І без продуктивної переробки потоки сирих даних утворюють нікому не потрібне звалище.

Специфіка сучасних вимог до такої переробки наступна:

  • дані мають необмежений обсяг;

  • дані є різнорідними (кількісними, якісними, текстовими);

  • результати повинні бути конкретними і зрозумілими;

  • інструменти для обробки сирих даних повинні бути простими у використанні.

Традиційна математична статистика, що довгий час претендувала на роль основного інструмента аналізу даних, відверто спасувала перед проблемами, які виникли. Головна причина – концепція усреднення за вибіркою, що призводить до операцій із фіктивними величинами (типу середньої температури пацієнтів у лікарні, середньої висоти будинку на вулиці, яка складається з палаців та халуп і т.п.). Методи математичної статистики виявилися корисними, головним чином, для перевірки заздалегідь сформульованих гіпотез (verification-driven data mining) та для “грубого” розвідувального аналізу, що складає основу оперативного аналітичного оброблення даних (online analytical processing, OLAP).

В основу сучасної технології Data Mining (discovery-driven data mining) покладено концепцію шаблонів (паттернів), які відображають фрагменти багатоаспектних взаємовідносин у даних. Ці шаблони є закономірностями, що властиві підвибіркам даних, які можуть бути компактно відображені у зрозумілій для людини формі. Пошук шаблонів здійснюється методами, що не обмежені рамками апріорних припущень щодо структури вибірки та виду розподілу значень аналізованих показників. Приклади задач такого пошуку при використанні Data Mining приведені у табл. 6.1.

Таблиця 6.1 – Приклади формулювання задач при використанні методів OLAP і Data Mining

OLAP

Data Mining

Які середні показники травматизму для тих, що палять і тих, що не палять?

Чи бувають точні шаблони в описах людей, схильних до підвищеного травматизму?

Які середні розміри телефонних рахунків наявних клієнтів (у порівнянні до рахунків колишніх клієнтів, що відмовилися від послуг телефонної компанії)?

Чи є характерні портрети клієнтів, які, найімовірніше, збираються відмовитися від послуг телефонної компанії?

Яка середня величина щоденних покупок за викраденою і не викраденою кредитною карткою?

Чи існують стереотипні схеми покупок для випадків шахрайства з кредитними картками?

Важливе положення Data Mining – нетривіальність шуканих шаблонів. Це означає, що знайдені шаблони повинні відображати неочевидні, неочікувані (unexpected) регулярності в даних, які складають так звані приховані знання (hidden knowledge). До суспільства прийшло розуміння, що сирі дані (raw data) містять глибинний пласт знань, за умови грамотної “розкопки” котрого можуть бути виявлені справжні самородки.

Сферу застосування Data Mining нічим не обмежено – вона всюди, де є будь-які дані. Але, в першу чергу, методи Data Mining сьогодні заінтригували комерційні підприємства, що развертають проекти на основі інформаційних сховищ даних (Data Warehousing). Досвід багатьох таких підприємств показав, що віддача від використання Data Mining може досягати 1000%. Наприклад, надходили повідомлення про економічний ефект, що у 10-70 разів перевищив початкові витрати від 350 до 750 тис. дол. Є відомості про проект у 20 млн. дол., що окупився всього за 4 місяці. Інший приклад – річна економія 700 тис. дол. за рахунок впровадження Data Mining в мережі універсамів у Великій Британії.

Data Mining являє собою велику цінність для керівників та аналітиків у їхній повсякденній діяльності. Ділові люди усвідомили, що за допомогою методів Data Mining вони можуть отримати відчутні переваги у конкурентній боротьбі.

Технологія Data Mining реалізується в системах штучного інтелекту, до яких відносяться нейронні мережі, генетичні алгоритми та експертні системи.