
- •16. Набор данных и их атрибутов
- •17. Измерения и шкалы
- •18. Типы наборов данных
- •19. Форматы хранения данных
- •20. Базы данных. Основные положения
- •21. Системы управления базами данных(субд)
- •22. Классификация видов данных
- •23. Метаданные
- •24. Принципы обработки и анализа данных
- •25. Структурированные данные
- •26. Подготовка данных к анализу и обработке
- •27. Технологии kdd и Data Mining (dm)
- •28. Аналитические платформы
- •29. Алгоритмы Data Mining
- •30. Консолидация данных
25. Структурированные данные
Определение 1. Данные, отражающие отдельные факты предметной области. Это основная форма представления данных в базах. Они обычно собраны в единую таблицу в формате MS Excel, DBase, текстовые файлы с разделителями или в набор таблиц в любой реляционной СУБД.
Определение 2. Данные, упорядоченные определенным образом и организованные с целью обеспечения возможности применения к ним некоторых действий (например, визуального или машинного анализа). В этом случае подразумевается, что данные упорядочены в вертикальные столбцы, называемые полями, и горизонтальные строки, называемые записями. При этом все записи должны содержать один и тот же набор полей, а все поля – один и тот же набор записей.
Большинство алгоритмов машинного обучения и Data Mining работают только со структурированными данными.
26. Подготовка данных к анализу и обработке
Сам интеллектуальный анализ данных опирается на построение подходящей модели и структуры, которые можно использовать для обработки, выявления и создания необходимой информации. Независимо от формы и структуры источника данных, информация структурируется и организуется в соответствии с форматом, который позволяет выполнять интеллектуальный анализ данных с максимально эффективной моделью.
Аналитические переменные для данных, полученных из множества различных источников, можно составить в единую, определенную структуру (например, создать класс покупателей определенных уровней и возрастов или класс ошибок определенного типа).
В зависимости от источника данных важно выбрать правильный способ построения и преобразования этой информации, каким бы ни был метод окончательного анализа данных. Этот шаг также ведет к более сложному процессу выявления, сбора, упрощения или расширения информации в соответствии с входными данными.
Источник данных, местоположение и база данных влияют на то, как будет обрабатываться и объединяться информация.
27. Технологии kdd и Data Mining (dm)
Технология Data Mining (добыча данных) – это методы обнаружения в исходных данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний.
Обнаружение знаний в базах данных (Knowledge Discovery in Database, KDD) – это последовательность действий, которую необходимо выполнить для построения модели (извлечения знания). Перечислим основные стадии KDD:
Постановка задачи. Анализируются задачи пользователя и особенности области приложения. Выбирается набор входных и выходных (целевых) параметров.
Организация сбора и хранения данных. Создается хранилище данных, ориентированное на их анализ. Организуется схема сбора и обновления данных.
Предобработка данных. Очень важный шаг, включающий преобразование данных из формы, в которой их наиболее удобно собирать, в форму, требуемую для наиболее эффективного применения выбранных методов KDD (трансформация данных). Она также включает очистку данных от ошибок, заполнению пропусков, выявлению шумов и аномальных явлений и многие другие преобразования данных.
Собственно автоматический анализ данных (data mining). Применяются различные методы KDD, наиболее целесообразные для конкретной задачи. Возможно уточнение параметров найденной модели для достижения наилучших результатов.
Анализ и интерпретация полученных знаний. Включает оценку значимости и других характеристик обнаруженных знаний. Они могут быть как объективными (вычисление некоторых статистических показателей) так и субъективными – оценка осмысленности полученных моделей в контексте уже имеющихся знаний о предметной области.
Интеграция полученных знаний с другими компонентами информационной системы (тиражирование знаний).