Таблиця 1

Таблиця транзакцій

Номер транзакції	Елемент
123	Фарба
123	Пензель фарби
123	Цвяхи
124	Фарба
124	Пензель фарби
124	Лісоматеріал
125	….

Потрібно також відрізняти нечіткі (fuzzy) і неточні (inexact) правила. Неточні правила часто мають “фіксований" коефіцієнт довіри, тобто кожне

правило має специфічне ціле число або процент (як наприклад 70%), який представляє достовірність. Правила індукції може відкрити дуже загальні правила, які мають справу з цифровими і нецифровими даними. Ці правила можуть комбінуватися з умовними і афінними (спорідненими) твердженнями в гібридних шаблонах (взірцях). Ключове питання полягає в переході від плоских баз даних до даних багатовимірних шаблонів OLAP-систем.

Найвідомішими прибічниками систем генерування правил є компанії Information Discovery, Inc. і Ultragem Corporation, кожна з яких має різний підхід до використання правил. Система Data Mining SuiteTM компанії Information Discovery використовує правила індукції (між іншими методами), в той час, як Ultragem покладається на генетичні алгоритми. Data Mining Suite генерує багатовимірні правила від баз даних багатотабличних SQL безпосередньо. Ultragem генерує правила через генетичні мутації.

Дерева рішень. Дерева рішень (decision trees) є одним з найбільш популярних підходів до рішення задач Data Mining. Дерева рішень виражають просту форму умовної логіки, вони створюють ієрархічну структуру класифікуючих правил типу “ЯКЩО …ТО”. Система дерева рішень просто ділить таблицю для аналізу даних в менші таблиці за допомогою вибору підмножин, основаних на значеннях для даного атрибута. Зважуючи на те, як ділиться таблиця, ми отримуємо різні алгоритми дерева рішень, як наприклад, CART (Classificatfon and Regression Trees), CHAID (Chi Square Automatic Interaction Detection), C4.5 , ID3, See5, Sipina та інші.

Для прикладу розглянемо набір записів (табл.2), що характеризує прибутковість збуту продуктів різними фірмами в різних регіонах. Дерево рішень, створене за цією таблицею, показане на рис.5. Для першого гілкування вибраний атрибут Штат, щоб почати виділення розділів розгалудження, потім атрибут - Фірма-виробник. Звичайно, якщо є 100 стовпців в таблиці, питання, які атрибути потрібно вибрати першими, стає критичним.

Таблиця 2

Характеристики збуту продуктів

Фірма-виробник	Штат	Місто	Колір продукту	Прибуток
Smith	CA	Los Angeles	Голубий	Високий
Smith	AZ	Flagstaff	Зелений	Низький
Adams	NY	NYC	Голубий	Високий
Adams	AZ	Flagstaff	Червоний	Низький
Johnson	NY	NYC	Зелений	Середній
Johnson	CA	Los Angeles	Червоний	Середній

Рисунок 5. Приклад побудови дерева рішень

Фактично, в багатьох випадках, включаючи наведену вище таблицю, немає апріорі найкращих атрибутів, і який би атрибут для дерева рішень спершу не вибраний, завжди буде пошкодження інформації. Наприклад, два факти: (a) “Голубі продукти мають високий прибуток" та (б) “Арізона має нижчий прибуток" не можуть ніколи бути одержані з дерева рішень, що відповідає таблиці. Ми можемо або отримати факт (a) або факт (б) з дерева, але не обидва, тому що дерево рішень вибирає один специфічний атрибут для виділення розділів в кожній стадії. Правила і крос-табуляція, з другого боку, можуть відкрити обидва ці факти.

На даний час досить велике число продавців пропонують пакети програмного забезпечення, які основуються на методах дерева рішень як наприклад, CART. Сюди входять американські корпорації IBM, Pilot Software, Business Objects, Cognos, NeoVista, SAS, Angoss і Integral Solutions (ISL) та інші. Більшість цих систем дозволяє інтерактивне дослідження даних з деревами рішень. Самими поширеними програмними продуктами дейтамайнінгу, що основуються на деревах рішень, є See5/C5.0 (RuleQuest, Австралія), Clementine (Integral Solutions, Великобританія), SIPINA (University ofLyon, Франція), IDIS (Information Discovery, США). В програмному продукті дейтамайнінгу KnowledgeSTUDIO пропонується п'ять алгоритмів дерев рішень. Вартість систем варіюється від 1 до 10 тис. дол.

Генетичні алгоритми. Генетичні алгоритми також генерують правила з наборів даних, але не слідують дослідженням, орієнтованим протоколом правил індукції. Замість цього, вони покладаються на ідею “мутації" (“mutation”), щоб зробити зміни в шаблонах з метою отрамання підходящої форми шаблону завдяки селекції (відбору). Генетична операція кросовера (cross-over) є фактично дуже подібною до дій, пов’язаних з отриманням гібриду рослин і/або тварин. Обмін генетичним матеріалом хромосом (chromosomes) також базується на тому ж методі. У випадку правил, матеріал, який обмінюється, є частина шаблону, який правило описує.

Головний фокус в генетичних алгоритмах є комбінування шаблонів з правил, які були відкриті до цього, в той час як в правилах індукції головний фокус обробки є набори даних (детальніше див. розділ IV).

Візуалізація даних. Візуалізація даних (Data visualization) – це інструментальні засоби графічного зображення комплексних зв'язків в багатовимірних даних з різних перспектив або точок зору, представлення даних і узагальнюючої інформації з використанням графіки, анімації, 3-D дисплеїв та інших мультимедійних засобів. Графічне подання інформації засобами візуалізації має на меті забезпечення спостерігача якісним розумінням контексту інформації.

Візуалізація даних відноситься до інструментальних засобів дейтамайнінгу, які трансформують комплексні формули, математичні зв'язки або інформацію сховища даних в діаграми або інші легко зрозумілі моделі. Статистичні інструментальні засоби подібно кластерному аналізу або дереву класифікації і регресії CART часто є компонентами інструментальних засобів візуалізації даних. Аналітики можуть візуалізувати кластери або досліджують бінарне дерево, яке створюється за допомогою класифікування записів.

Крос-табуляція (Cross Tabulation). Крос-табуляція (Cross Tabulation) або перехресна табуляція (перехресні табличні дані) є основна і дуже проста форма аналізу даних, добре відома в статистиці і широко використовувана для створення звітів. Двохвимірна крос-таблиця (cross-tab) подібна до електронної таблиці як щодо заголовків рядків і стовпців, та і щодо атрибутних значень. Комірки (cells ) в таблиці являють собою агреговані операції, звичайно ряд атрибутних значень, що зустрічаються разом. Багато крос-таблиць за ефективністю рівноцінні до трьохвимірних ствопчатих гістограм (3D bar graph), що показують сумісно зустрічаючі рахунки.

Наприклад, крос-таблиця для рівня прибутку, отримана шляхом аналізу вихідної табл. 2, може мати вигляд, як показано в табл. 3. В таблицю не включені поля “Фірма-виробник” і “Місто”, тому що крос-таблиця буде дуже великою. Однак, слід звернути увагу на той факт, що співпадання рахунків для полів “Голубий” і “Високий” перевищує інші і вказує на сильніший зв'язок.

Маючи справу з малим рядом нецифрових значень, крос-таблиці є достатньо простими, щоб використовувати і знаходити деякі умовні логічні зв'язки (але не атрибутну логіку, афінну або інші форми логіки). Крос-таблиці звичайно виконуються для чотирьох класів проблем: коли число нецифрових значень зростає; коли особа має справу з номерними значеннями; коли включаються декілька кон’юнкцій (логічних множень); коли відношення базуються не тільки на підрахунках. Агенти (Agents) і довірчі мережі (belief networks) є варіаціями теми крос-таблиць.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 2411 12 13 14 15 16 17 18 19 20 21 22 23 24 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.04.2025312.83 Кб1METOD_KURS_PODATK_SIST_6508_13.doc
#
03.05.2019143.36 Кб4metod_kurs_teor_derg_prava.doc
#
08.12.2018178.69 Кб3METOD_KURS__teor_derg_prava.doc
#
22.11.2018162.3 Кб2metod_kyrsov_robot_konst_pravo_ukr.doc
#
22.03.2015162.3 Кб7metod_kyrsov_robot_konst_pravo_ukr.doc
#
22.03.20157.3 Mб127metod_lec.doc
#
22.03.2015717.31 Кб57METOD_management.doc
#
14.04.2019526.34 Кб4METOD_management.doc
#
01.05.2025548.86 Кб1metod_management_6601.doc
#
22.03.2015103.42 Кб6Metod_mater_dlya_kursov_rob_-_2010.doc
#
01.04.202577.31 Кб2Metod_mater_dlya_kursov_rob_-_2012_9.doc