- •Дерево рішень - Microsoft Decision Trees
- •Кластеризація - Microsoft Clustering
- •Наївний алгоритм Байеса - Microsoft Naive Bayes
- •Кластеризація послідовностей дій - Microsoft Sequence Clustering
- •Часові ряди - Microsoft Time Series
- •Асоціативні правила (Алгоритм взаємозв'язків) - Microsoft Association
- •Нейронні мережі - Microsoft Neural Network
- •Лінійна регресія - Microsoft Linear Regression
- •Логістична регресія - Microsoft Logistic Regression
Кластеризація послідовностей дій - Microsoft Sequence Clustering
Алгоритм Microsoft Sequence Clustering аналізує послідовності будь-яких фактів, що представляють собою часові послідовності дискретних змінних. Зазвичай такі послідовності атрибутів розглядаються як виконання подій в певному порядку. Алгоритм призначений для прогнозування настання подальших подій на підставі вже здійсненого переходу між станами.
Алгоритм Microsoft Sequence Clustering є гібридом алгоритму послідовностей дій та алгоритмом кластеризації. У процесі реалізації алгоритму виконується угруповання послідовності переходів в типові кластеру, що характеризуються паттернами(правилами) переходів.
Кожен з цих кластерів аналізується з точки зору розподілу ймовірності переходів окремо. Типовим сценарієм використання для цього алгоритму є завдання аналізу клієнтів web-порталу. У web-порталу є набір пов'язаних доменів, таких як новини, погода, фінанси, пошта, спорт і т.д. Кожен web-відвідувач характеризується послідовністю "кліків" - переходів в рамках кожного з цих доменів. Алгоритм Microsoft Sequence Clustering може згрупувати цих web-відвідувачів у більш-менш однорідні групи на підставі їх паттернів навігації по порталу. Ці групи можуть бути візуалізовані, забезпечуючи подання шаблонів використання порталу кожною групою відвідувачів.
В алгоритмі використовується алгоритм Expectation Maximization для виявлення кластерів, а також Марківський процеси першого порядку для моделювання переходів між станами (подіями).
Часові ряди - Microsoft Time Series
Алгоритм Microsoft Time Series створює моделі, призначені для прогнозування значень безперервних змінних за часом і використанням як OLAP, так і реляційних джерел даних. Наприклад, можна використовувати цей алгоритм для прогнозування обсягу продажів і прибутку по історичних даних у розрізі регіонів продажу.
Алгоритм дозволяє здійснювати прогнозування з кількох безперервним змінним. Часовий ряд повинен характеризуватися тимчасової характеристикою за якою здійснюється прогноз, а також може містити довільний набір інших характеристик, що розділяє ряд на кілька рядів (наприклад по регіонам, продавцям тощо).
Цей алгоритм може аналізувати та використовувати кореляції між різними прогнозованими характеристиками. У цьому випадку результат прогнозування буде залежати не тільки від історичних значень тієї ж змінної, але і значень інших прогнозованих змінних. Наприклад, продаж в певному магазині можуть залежати від минулих продажів в іншому магазині.
Алгоритм Microsoft Time Series є різновидом алгоритмів ART (Autoregressive Trees - дерева авторегресії). У процесі реалізації алгоритму будується дерево рішень, листя якого відповідають функції лінійної регресії.
Асоціативні правила (Алгоритм взаємозв'язків) - Microsoft Association
Алгоритм Microsoft Association призначений в першу чергу для аналізу купівельних кошиків. Аналізується кожна пара атрибут = значення (наприклад продукт = велосипед) як значення якоїсь логічної змінної. Алгоритм сканує транзакції в базі даних для визначення "частих" наборів таких пар. Набір вважається "частим" якщо його support (підтримка, тобто число транзакцій, в які входить даний набір) перевищує певний поріг. Наприклад, частим набором може бути (Стать = "чоловік", Сімейний статус = "одружений", Вік = "30-35")
Часто транзакції описуються вкладеними таблицями, наприклад, строками замовлення продажу в замовленні. У цьому випадку ключ вкладеної таблиці служить назвою атрибуту, а факт його наявності - значенням. Наприклад (Товар ( "Велосипед") = existing, Товар ( "Велосипедна кепка") = existing).
Алгоритм Microsoft Association крім виявлення частих набірів, призначений для виявлення правил виду A, B => C, якi характеризуються ймовірністю виконання (confidence), де (A, B), (C) часті набори. Символ '=>' означає, що поява набору C в транзакції можна передбачити з факту появи наборів A і B. Наприклад, (Фотокамера = exisiting, Батарейки = existing) => (Фотоплівка = existing). Поріг значення ймовірності дотримання правила є параметром моделі, що визначає факт розгляду кожного правила.
Асоціативні правила використовуються для оптимізації крос-продаж, цільових рекламних кампаній, визначення політики знижок, в оптимізації розміщення товарів на товарних полицях в супермаркетах і т.д.