
- •Розділ 1. Системи підтримки прийняття рішень
- •Задачі систем підтримки прийняття рішень
- •База даних - основа сппр
- •Неефективність використання oltp-систем для аналізу даних
- •Розділ 2. Сховище даних
- •2.1. Концепція сховища даних
- •2.2. Організація сд
- •2.3. Очищення даних
- •2.4. Концепція сховища даних і аналіз
- •4.1. Видобуток даних - Data Mining
- •4.2. Завдання Data Mining
- •4.2.1. Data Mining Класифікація задач
- •4.2.2. Задача класифікації і регресії
- •4.2.3. Завдання пошуку асоціативних правил
- •4.2.4. Задача кластеризації
- •4.3. Практичне застосування Data Mining
- •4.3.1. Інтернет-технології
- •4.3.2. Торгівля
- •4.3.3. Телекомунікації
- •4.3.4. Промислове виробництво
- •4.3.5. Медицина
- •4.3.6. Банківська справа
- •4.3.7. Страховий бізнес
- •4.3.8. Інші області застосування
- •4.4. Моделі Data Mining
- •4.4.1. Предбачувальні моделі
- •4.5. Методи Data Mining
- •4.5.1. Базові методи
- •4.5.3. Генетичні алгоритми
- •4.5.4. Нейронні мережі
- •4.6. Процес виявлення знань
- •4.6.1. Основні етапи аналізу
- •4.6.2. Підготовка вихідних даних
- •4.7. Засоби Data Mining
Розділ 1. Системи підтримки прийняття рішень
Задачі систем підтримки прийняття рішень
З появою перших ЕОМ почалась інформатизація різних сторін людської діяльності. Якщо раніше люди основну увагу приділяли речовині, а потім енергії (рис. 1.1), то сьогодні можна без перебільшення припустити, що настав етапі реалізації процесів, пов'язаних з інформацією. Обчислювальна техніка створювалась насамперед для обробки даних. В наш час сучасні обчислювальні системи та комп'ютерні мережі дозволяють накопичувати великі масиви даних для розвязку задач обробки та аналізу. На жаль, сама по собі машинна форма представлення даних містить інформацію, необхідну для людини, в прихованому виді, і для її отримання необхідно використовувати спеціальні методи аналізу даних.
Великий обсяг інформації, з одного боку, дозволяє отримати більш точні обчислення та аналіз, з іншого боку – перетворює пошук розв’язку у важку задачу. Не дивно, що первинний аналіз даних був перекладений на комп'ютері. В результаті з’явився цілий клас програмних систем, які спрямовані на полегшення роботи людей, що проводять аналіз (аналітиків). Такі системи називаються системами підтримки прийняття рішень СППР (DSS, Decision Support System).
Для виконання аналізу СППР повинна накопичувати інформацію, маючи засоби її вводу та зберігання. Існують три основні задачі, що розвязуються в СППР:
введення даних;
зберігання даних;
аналіз даних.
Рис. 1.1. Рівень використання людиною різних об’єктів матеріального світу
Таким чином, СППР — це системи, що володіють засобами вводу, збереження і аналізу даних, які відносяться до конкретної предметної області, з метою пошуку рішень.
Введення даних у СППР реальізується або автоматично від датчиків, що характеризують стан навколишнього середовища чи процес, або людиною-оператором. У першому випадку дані накопичуються шляхом циклічного опитування чи по сигналу готовності, що виникає при появі інформації. У другому випадку СППР повинні надати користувачам зручні засоби вводу даних, які контролюватимуть коректність вводу даних і виконуватимуть пов'язані з ними розрахунки. Якщо введення здійснюється одночасно кількома операторами, то система повинна розв’язати проблему паралельного доступу і модифікації тих самих даних.
Постійне накопичення даних призводить до постійного збільшення їх обсягу. У зв’язку з цим задачею СППР є забезпечення надійного зберігання великого обсягу даних. На СППР також можуть бути покладені задачі запобігання несанкціонованого доступу, резервного зберігання, архівування і т.д.
Основною задачею СППР є надання аналітикам інструменту для виконання аналізу даних. Слід зазначити, що для ефективного використання СППР її користувач-аналітик повинен мати відповідну кваліфікацію. Система не генерує правильне рішення, а лише представляє аналітику дані у відповідному вигляді (звіти, таблиці, діаграми, тощо.) для вивчення і аналізу, саме тому такі системи забезпечують виконання функції підтримки прийняття рішень. Очевидно, що, з одного боку, якість прийнятих рішень залежить від кваліфікації аналітика. З іншого боку, зростання обсягів даних, що аналізуються, висока швидкість обробки та аналізу, а також складність використання машинного представлення даних стимулює дослідження і розробку інтелектуальних СППР. Для таких СППР храктерна наявність функцій, що реалізують окремі розмовні можливості людини.
За ступенем "інтелектуальності" обробки даних при аналізі виділяють три класи задач аналізу:
інформаційно-пошуковий — СППР реалізує пошук потрібних даних. Характерною рисою такого аналізу є виконання заздалегідь визначених запитів;
оперативно-аналітичний — СППР робить групування та узагальнення даних в будь-якій формі, необхідній аналітику. На відміну від інформаційно-пошукового аналізу в даному випадку неможливо передбачити запити, необхідні аналітику;
інтелектуальний — СППР реалізує пошук функціональних і логічних закономірностей в накопичених даних, побудову моделей і правил, які пояснюють знайдені закономірності та/або прогнозують розвиток деяких процесів (з певною ймовірністю).
Таким чином, загальна архітектура СППР може бути представлена наступним чином (рис. 1.2).
Рис. 1.2. Узагальнена архітектура системи підтримки прийняття рішень
Розглянемо окремі підсистеми більш детально.
Підсистема введення даних. В таких підсистемах, відомих як OLTP (On-line transaction processing), виконуються операційна (транзакційна) обробка даних. Для реалізації цих підсистем використовують звичайні системи керування базами даних (СКБД).
Підсистема зберігання. Для реалізації цієї підсистеми використовують сучасні СКБД і концепцію сховищ даних.
Підсистеми аналізу. Ця підсистема може бути побудована на основі:
підсистеми інформаційно-пошукового аналізу на основі реляційних СКБД і статичних запитів з використанням мови структурованих запитів SQL (Structured Query Language);
підсистеми оперативного аналізу. Для реалізації таких підсистеми застосовуються технології оперативної аналітичної обробки даних OLAP (On-line analytical processing), що використовує концепцію багатовимірного представлення даних:
підсистеми інтелектуального аналізу. Ця підсистема реалізує методи і алгоритми Data Mining («видобуток даних»).