
- •[Править] Введение
- •[Править] Исторический экскурс
- •[Править] Постановка задачи
- •[Править] Data mining и базы данных
- •[Править] Data mining и статистика
- •[Править] Data mining и искусственный интеллект
- •[Править] Задачи
- •[Править] Алгоритмы обучения
- •[Править] Этапы обучения
- •[Править] Подготовка данных
- •[Править] См. Также
[Править] Подготовка данных
Перед использованием алгоритмов Data Mining необходимо произвести подготовку набора анализируемых данных. Так как ИАД может обнаружить только присутствующие в данных закономерности, исходные данные с одной стороны должны иметь достаточный объем, чтобы эти закономерности в них присутствовали, а с другой — быть достаточно компактными, чтобы анализ занял приемлемое время. Чаще всего в качестве исходных данных выступают хранилища или витрины данных. Подготовка необходима для анализа многомерных данных до кластеризации или интеллектуального анализа данных.
Далее данные очищаются. Очистка удаляет выборки с шумами и пропущенными данными.
Очищенные данные сводятся к векторам признаков, один вектор на выборку. Вектор признаков — это суммарная версия сырых данных выборки. Например, черно-белое изображение лица размером 100×100 пикселей содержит 10 тыс. бит сырых данных. Они могут быть преобразованы в вектор признаков путем обнаружения в изображении глаз и рта. В итоге происходит уменьшение объема данных с 10 тыс. бит до списка кодов положения, значительно уменьшая объем анализируемых данных, а значит и время анализа. Выбор функции будет зависеть от того, что является целью анализа; выбор «правильной» функции имеет основополагающее значение для успешного интеллектуального анализа данных.
Векторы признаков делятся на две категории — обучающий набор и тестовый набор. Обучающий набор используется для «обучения» алгоритма Data Mining, а тестовый набор — для проверки найденных закономерностей.
[Править] См. Также
-
Анализ формальных понятий
-
Очистка данных
-
Прикладная статистика
-
Искусственная нейронная сеть
-
Нейронная сеть Кохонена
-
Метод опорных векторов
-
Netflix Prize
-
Вертикальный поиск
-
ДСМ-метод
-
Нечёткая логика