Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
16-30.docx
Скачиваний:
1
Добавлен:
01.07.2025
Размер:
318.99 Кб
Скачать

25. Структурированные данные

Определение 1. Данные, отражающие отдельные факты предметной области. Это основная форма представления данных в базах. Они обычно собраны в единую таблицу в формате MS Excel, DBase, текстовые файлы с разделителями или в набор таблиц в любой реляционной СУБД.

Определение 2. Данные, упорядоченные определенным образом и организованные с целью обеспечения возможности применения к ним некоторых действий (например, визуального или машинного анализа). В этом случае подразумевается, что данные упорядочены в вертикальные столбцы, называемые полями, и горизонтальные строки, называемые записями. При этом все записи должны содержать один и тот же набор полей, а все поля – один и тот же набор записей.

Большинство алгоритмов машинного обучения и Data Mining работают только со структурированными данными.

26. Подготовка данных к анализу и обработке

Сам интеллектуальный анализ данных опирается на построение подходящей модели и структуры, которые можно использовать для обработки, выявления и создания необходимой информации. Независимо от формы и структуры источника данных, информация структурируется и организуется в соответствии с форматом, который позволяет выполнять интеллектуальный анализ данных с максимально эффективной моделью.

Аналитические переменные для данных, полученных из множества различных источников, можно составить в единую, определенную структуру (например, создать класс покупателей определенных уровней и возрастов или класс ошибок определенного типа).

В зависимости от источника данных важно выбрать правильный способ построения и преобразования этой информации, каким бы ни был метод окончательного анализа данных. Этот шаг также ведет к более сложному процессу выявления, сбора, упрощения или расширения информации в соответствии с входными данными.

Источник данных, местоположение и база данных влияют на то, как будет обрабатываться и объединяться информация.

27. Технологии kdd и Data Mining (dm)

Технология Data Mining (добыча данных) – это методы обнаружения в исходных данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний.

Обнаружение знаний в базах данных (Knowledge Discovery in Database, KDD) – это последовательность действий, которую необходимо выполнить для построения модели (извлечения знания). Перечислим основные стадии KDD:

  • Постановка задачи. Анализируются задачи пользователя и особенности области приложения. Выбирается набор входных и выходных (целевых) параметров.

  • Организация сбора и хранения данных. Создается хранилище данных, ориентированное на их анализ. Организуется схема сбора и обновления данных.

  • Предобработка данных. Очень важный шаг, включающий преобразование данных из формы, в которой их наиболее удобно собирать, в форму, требуемую для наиболее эффективного применения выбранных методов KDD (трансформация данных). Она также включает очистку данных от ошибок, заполнению пропусков, выявлению шумов и аномальных явлений и многие другие преобразования данных.

  • Собственно автоматический анализ данных (data mining). Применяются различные методы KDD, наиболее целесообразные для конкретной задачи. Возможно уточнение параметров найденной модели для достижения наилучших результатов.

  • Анализ и интерпретация полученных знаний. Включает оценку значимости и других характеристик обнаруженных знаний. Они могут быть как объективными (вычисление некоторых статистических показателей) так и субъективными – оценка осмысленности полученных моделей в контексте уже имеющихся знаний о предметной области.

  • Интеграция полученных знаний с другими компонентами информационной системы (тиражирование знаний).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]