Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Финансовый университет при Правительстве РФ

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Tema_6 all.docx

Скачиваний:

Добавлен:

13.03.2015

Размер:

338.17 Кб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 1311 12 13 > Следующая >>>

1. Определение и анализ требований к данным

На этом этапе осуществляется моделирование данных, т.е. определение и анализ требований к данным, которые необходимы для осуществления Data Mining. При

этом изучаются вопросы распределения пользователей (географическое, организационное, функциональное); вопросы доступа к данным, которые необходимы для анализа, необходимость во внешних и/или внутренних источниках данных; а также аналитические характеристики.

2. Сбор данных

Если нет ХД. В этом случае источником для исходных данных являются

оперативные, справочные и архивные БД, т.е. данные из существующих информационных систем.

Также, возможно, информация из внешних источников, бумажных носителей, а также знания экспертов или результаты опросов. На этом этапе осуществляется кодирование некоторых данных. Допустим, одним из атрибутов клиента является уровень дохода, который должен быть представлен в системе одним из значений: очень низким, низким, средним, высоким, очень высоким. Необходимо определить градации уровня дохода

3. Предварительная обработка данных

Анализировать можно как качественные, так и некачественные данные. Результат будет достигнут и в том, и в другом случае. Для обеспечения качественного анализа необходимо проведение предварительной обработки данных, которая является необходимым этапом процесса Data Mining.

Оценивание качества данных. Данные могут быть высокого качества и низкого качества, последние - это так называемые грязные или "плохие" данные (пропущенные значения, дубликаты данных, шумы и выбросы).

Данные высокого качества - это полные, точные, своевременные данные, которые

поддаются интерпретации. Такие данные обеспечивают получение качественного результата: знаний, которые смогут поддерживать процесс принятия решений.

Рассмотрим наиболее распространенные виды грязных данных:

Пропущенные значения (Missing Values).

Некоторые значения данных могут быть пропущены в связи с тем, что:

данные вообще не были собраны (например, при анкетировании скрыт возраст);

некоторые атрибуты могут быть неприменимы для некоторых объектов (например,

атрибут "годовой доход" неприменим к ребенку).

Шумы и выбросы.

Выбросы - резко отличающиеся объекты или наблюдения в наборе данных.

Задача аналитика - не только их обнаружить, но и оценить степень их влияния на

результаты дальнейшего анализа - информативной часть либо ошибки.

4. Построение моделей;·

Построение моделей Data Mining осуществляется с целью исследования или изучения моделируемого объекта, процесса, явления и получения новых знаний, необходимых для принятия решений. Использование моделей Data Mining позволяет определить наилучшее решение в конкретной ситуации.

Аналитик создает модель как подобие изучаемого объекта. Модели могут быть записаны в виде различных изображений, схем, математических формул и т.д.

Модели позволяют выделить в объекте наиболее существенные факторы с точки зрения цели исследования, и не отвлекаться на маловажные детали.

Для построения моделей используются различные методы и алгоритмы Data Mining.

Некоторые задачи могут быть решены при помощи моделей, построенных на основе различных методов. Многие разработчики включают в инструменты Data

Mining возможность построения различных моделей (т.к. идеальной не существует), многие также обеспечивают возможность расширяемости моделей.

Выбор метода, на основе которого будет построена модель, должен осуществляться с учетом постановки задачи, особенностей набора исходных данных, специфики решаемой задачи, результатов, которые должны быть получены на выходе.

Постановка задачи формализует суть задачи, так, наличие входных и выходных

переменных при решении задачи классификации определяет выбор одного из методов "обучение с учителем"(при наличии лишь вх. переменных - "обучение без учителя").

Этапы подготовки данных, построения модели, оценки модели и выбора лучшей

представляют собой цикл. Если по каким-либо причинам построенная модель оказалось неприемлемой, цикл повторяется и следует один из следующих этапов:

подготовка данных (если причина некорректности модели - в данных);

построение модели (если причина некорректности - во внутренних параметрах самой

модели).

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 1311 12 13 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
02.08.201996.77 Кб5Tema_3_Drevnerusskoe_gosudarstvo_IX-XIII.doc
#
02.08.2019123.9 Кб9Tema_4_Formirovanie_edinogo_Rossyskogo_gosuda.doc
#
02.08.2019127.49 Кб5Tema_5_Moskovskoe_tsarstvo_v_XVI-XVII_vv.doc
#
21.08.201952.18 Кб2Tema_5_Soderzhanie_i_poryadok_formirovania_poka...docx
#
24.11.201864.51 Кб6tema_5_zanyatie_1.doc
#
13.03.2015338.17 Кб33Tema_6 all.docx
#
02.08.2019118.78 Кб4Tema_6_Rossyskaya_imperia_v_XVIII_v.doc
#
24.11.201836.51 Кб2Tema_6_Zanyatie_2.docx
#
02.08.20192.76 Mб4Tema_7_Istoricheskie_puti_Rossii_v_19_veke.doc
#
21.11.201930.08 Кб4Tema_8.docx
#
02.08.2019139.26 Кб2Tema_8_Istoria_Rossii_v_XX-XXI_vv.doc