Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
лекція2.doc
Скачиваний:
4
Добавлен:
02.05.2019
Размер:
143.87 Кб
Скачать

3. Типи набору даних

Дані, що складаються із записів

Дані, які найбільш часто зустрічаються – дані, що складаються із записів (record data). Приклади таких наборів даних: табличні дані, матричні дані, документальні дані, транзакційні або операційні.

Табличні дані – дані, що складаються із записів, кожний з яких складається з фіксованого набору атрибутів.

Транзакційні дані представляють особливий тип даних, де кожен запис є транзакцією, включає набір значень.

Приклад транзакційної бази даних, що містить перелік покупок клієнтів магазину, наведений на рис. 2.1.

Рис. 2.1. Приклад транзакційних даних

Графічні дані

Приклади графічних даних: WWW-дані; молекулярні структури; графи (рис. 2.2); карти.

Рис. 2.2. Приклад графа

За допомогою карт, наприклад, можна відстежити зміни об'єктів у часі та просторі, визначити характер їхнього розподілу на площині або в просторі. Перевагою графічного подання даних є більша простота їх сприйняття, чим, наприклад, табличних даних.

Приклад карти, що є картою Кохонена (моделлю нейронних мереж, які будуть розглянуті в одній з лекцій нашого курсу), представлений на рис. 2.3.

Рис. 2.3. Приклад даних типу "Карта Кохонена"

Хімічні дані

Хімічні дані являють собою особливий тип даних. Приклад таких даних: Benzene Molecule: C6H6 (рис. 2.4)

Рис. 2.4. Приклад хімічних даних

Відповідно до опитування на сайті Kdnuggets, www.kdnuggets.com (квітень, 2004 р.) "Типи аналізованих даних", найбільше число опитаних аналізує дані з "плоских" (flat table) і реляційних таблиць (26% та 24% відповідно), далі ідуть часові ряди (14%) і дані у вигляді тексту (11%).

Інші аналізовані типи даних у порядку спадання: web-контенти, XML, графіка, аудіо, відео та ін.

В даній та у наступних лекціях приводяться результати опитувань, проведених на сайті Kdnuggets, який визнаний одним з найбільш авторитетних і відомих сайтів у сфері Data Mining.

4. Формати зберігання даних

Одна з основних особливостей даних сучасного світу полягає в тому, що їх стає дуже багато. Можливі чотири аспекти роботи з даними: визначення даних, обчислення, маніпулювання та обробка (збір, передача та ін.).

При маніпулюванні даними використовується структура даних типу "файл". Файли можуть мати різні формати.

Як уже було відзначено раніше, більшість інструментів Data Mining дозволяють імпортувати дані з різних джерел, а також експортувати результуючі дані в різні формати.

Дані для експериментів зручно зберігати в якомусь одному форматі.

У деяких інструментах Data Mining ці процедури називаються імпорт/експорт даних, інші дозволяють прямо відкривати різні джерела даних і зберігати результати Data Mining в одному із запропонованих форматів.

Найпоширеніші формати, відповідно до запиту "Формати зберігання даних", представлені на рис. 2.5.

Рис. 2.5. Найпоширеніші формати зберігання даних

Найбільше число опитаних (23%) воліють зберігати дані у форматі тієї бази даних, що вони використовують. У форматі Text, CSV – 18%, по 14% опитані зберігають дані у форматі Text, space or tab separated та SAS; у форматі Excel – 9%, SPSS – 8%, S-Plus/R – 4%, Weka ARFF – 6%, в інших форматах інструментів Data Mining – 2%.

Як бачимо з результатів опитування, найпоширенішим форматом зберігання даних для Data Mining виступають бази даних.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]