Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
лекція3.doc
Скачиваний:
10
Добавлен:
09.08.2019
Размер:
98.82 Кб
Скачать

Статистичні методи Data mining

В [14] ці методи являють собою чотири взаємозалежних розділи:

  • попередній аналіз природи статистичних даних (перевірка гіпотез стаціонарності, нормальності, незалежності, однорідності, оцінка виду функції розподілу, її параметрів і т.п.);

  • виявлення зв'язків і закономірностей (лінійний і нелінійний регресійний аналіз, кореляційний аналіз та ін.);

  • багатомірний статистичний аналіз (лінійний і нелінійний дискримінантний аналіз, кластерний аналіз, компонентний аналіз, факторний аналіз та ін.);

  • динамічні моделі і прогноз на основі тимчасових рядів.

Арсенал статистичних методів Data Mining класифікований на чотири групи методів:

  • Дескриптивний аналіз і опис вихідних даних.

  • Аналіз зв'язків (кореляційний і регресійний аналіз, факторний аналіз, дисперсійний аналіз).

  • Багатомірний статистичний аналіз (компонентний аналіз, дискримінантний аналіз, багатомірний регресійний аналіз, канонічні кореляції та ін.).

  • Аналіз тимчасових рядів (динамічні моделі і прогнозування).

Кібернетичні методи Data Mining

Другий напрямок Data Mining – це безліч підходів, об'єднаних ідеєю комп'ютерної математики і використання теорії штучного інтелекту.

До цієї групи відносяться такі методи:

  • штучні нейронні мережі (розпізнавання, кластеризація, прогноз);

  • еволюційне програмування (у т.ч. алгоритми методу групового обліку аргументів);

  • генетичні алгоритми (оптимізація);

  • асоціативна пам'ять (пошук аналогів, прототипів);

  • нечітка логіка;

  • дерева рішень;

  • системи обробки експертних знань.

Методи Data Mining також можна класифікувати по завданнях Data Mining.

Відповідно до такої класифікації виділяємо дві групи. Перша з них – це підрозділ методів Data Mining на вирішальні завдання сегментації (тобто завдання класифікації і кластеризації) і завдання прогнозування.

У відповідності із другою класифікацією по завданнях методи Data Mining можуть бути спрямовані на одержання описових і прогнозуючих результатів.

Описові методи служать для знаходження шаблонів або зразків, що описують дані, які піддаються інтерпретації з погляду аналітика.

До методів, спрямованим на одержання описових результатів, ставляться ітеративні методи кластерного аналізу, у тому числі: алгоритм k-середніх, k-медіани, ієрархічні методи кластерного аналізу, що самоорганізовані карти Кохонена, методи крос-табличної візуалізації, різні методи візуалізації та інші.

Прогнозуючі методи використовують значення одних змінних для прогнозування невідомих (пропущених) або майбутніх значень інших (цільових) змінних.

До методів, спрямованих на одержання прогнозуючих результатів, відносяться такі методи: нейронні мережі, дерева рішень, лінійна регресія, метод найближчого сусіда, метод опорних векторів та ін.

3. Властивості методів Data Mining

Різні методи Data Mining характеризуються певними властивостями, які можуть бути визначальними при виборі методу аналізу даних. Методи можна порівнювати між собою, оцінюючи характеристики їхніх властивостей.

Серед основних властивостей і характеристик методів Data Mining розглянемо наступні: точність, масштабованість, інтерпритованість, перевіряємість, трудомісткість, гнучкість, швидкість і популярність.

Масштабованість – властивість обчислювальної системи, що забезпечує передбачуваний ріст системних характеристик, наприклад, швидкості реакції, загальної продуктивності та ін., при додаванні до неї обчислювальних ресурсів.

У таблиці 3.1 наведена порівняльна характеристика деяких розповсюджених методів. Оцінка кожної з характеристик проведена наступними категоріями, у порядку зростання: надзвичайно низька, дуже низька, низька/нейтральна, нейтральна/низька, нейтральна, нейтральна/висока, висока, дуже висока.

Таблиця 3.1. Порівняльна характеристика методів Data Mining

Алгоритм

Точність

Масштабованість

Інтерпритованість

Придатність до використання

Трудомісткість

Різнобічність

Швидкість

Популярність, широта використання

класичні методи (лінійна регресія)

нейтра-льна

висока

висока / нейтра-льна

висока

нейтра-льна

нейтра-льна

висока

низька

нейронні мережі

висока

низька

низька

низька

нейтра-льна

низька

дуже низька

низька

методи візуалізації

висока

дуже низька

висока

висока

дуже висока

низька

надзвичайно низька

висока / нейтра-льна

дерева рішень

низька

висока

висока

висока / нейтра-льна

висока

висока

висока / нейтральна

висока / нейтра-льна

поліноміальні

висока

нейтра-льна

низька

висока / нейтра-льна

нейтра-льна / низька

нейтра-льна

низька / нейтральна

нейтра-льна

k-найближчого сусіда

низька

дуже низька

висока / нейтра-льна

нейтра-льна

нейтра-льна / низька

низька

висока

низька

Як видно з розглянутої таблиці, кожний з методів має свої сильні та слабкі сторони. Але жоден метод, яким би не була його оцінка з погляду властивих йому характеристик, не може забезпечити вирішення всього спектра завдань Data Mining.

Більшість інструментів Data Mining, запропонованих в даний час на ринку програмного забезпечення, реалізують відразу кілька методів, наприклад, дерева рішень, індукцію правил і візуалізацію, або ж нейронні мережі, самоорганізовані карти Кохонена та візуалізацію.

В універсальних прикладних статистичних пакетах (наприклад, SPSS, SAS, STATGRAPICS, Statistica, ін.) реалізується широкий спектр різноманітних методів (як статистичних, так і кібернетичних). Варто враховувати, що для можливості їхнього використання, а також для інтерпретації результатів роботи статистичних методів (кореляційного, регресійного, факторного, дисперсійного аналізу і ін.) потрібні спеціальні знання в області статистики.

Універсальність того або іншого інструмента часто накладає певні обмеження на його можливості. Перевагою використання таких універсальних пакетів є можливість відносно легко порівнювати результати побудованих моделей, отриманих різними методами. Така можливість реалізована, наприклад, у пакеті Statistica, де порівняння основане на так називаній "конкурентній оцінці моделей". Ця оцінка складається в застосуванні різних моделей до того самого набору даних і в подальшому порівнянні їх характеристик для вибору найкращої з них.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]