Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

КОНСПЕКТ ЛЕКЦИЙ КОДЭИ

.pdf
Скачиваний:
108
Добавлен:
14.03.2016
Размер:
28.31 Mб
Скачать

Столбцы, содержащие в основном одно значение, не всегда могут быть неинформативными, многое зависит от целей анализа. Например, при решении задачи анализа отклонений такие столбцы могут существенно повлиять на построение моделей.

07.03.13 Доцент С.Т. Касюк

14

Требования к данным

Аналитические инструменты пытаются построить модели на основе предложенных данных, поэтому чем ближе данные к действительности, тем лучше. Необходимо понимать: модель не может знать о том, что находится за пределами собранных для анализа данных. Например, если при создании системы диагностики больных подавать только сведения о больных людях, то модель не будет знать о существовании в природе здоровых людей.

07.03.13 Доцент С.Т. Касюк

15

Существуют требования к минимальным объемам данных для возможности построения моделей на их основе. В зависимости от представления данных и решаемой задачи требования различны.

Для временных рядов, которые относятся к упорядоченным данным, требования следующие. Если для моделируемого бизнеспроцесса (например, продажи) характерна сезонность/цикличность, то необходимо иметь данные хотя бы за один полный сезон/цикл с возможностью варьирования интервалов (понедельное, помесячное и т. д.).

07.03.13 Доцент С.Т. Касюк

16

Максимальный горизонт прогнозирования зависит от объема данных: данные за 1,5 года — прогноз возможен максимум на 1 месяц; данные за 2—3 года — на 2 месяца.

07.03.13 Доцент С.Т. Касюк

17

Для неупорядоченных данных требования следующие:

1.Количество примеров (прецедентов) должно быть значительно больше количества факторов (на 1 фактор — минимум 10—12 наблюдений).

2.Желательно, чтобы данные покрывали как можно больше ситуаций реального процесса.

3.Пропорции различных примеров

(прецедентов) должны примерно соответствовать реальному процессу.

07.03.13 Доцент С.Т. Касюк

18

Транзакционные данные. Анализ транзакций целесообразно производить на большом объеме данных, иначе могут быть выявлены статистически необоснованные правила.

07.03.13 Доцент С.Т. Касюк

19

КОМПЬЮТЕРНАЯ ОБРАБОТКА ДАННЫХ ЭКСПЕРИМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ

§6. Технологии KDD и Data Mining

Knowledge Discovery in Databases (KDD)

процесс получения из данных знаний в виде зависимостей, правил, моделей, обычно состоящий из таких этапов, как отбор, очистка, трансформация, моделирование и интерпретация полученных результатов.

14.12.2014 Доцент С.Т. Касюк

2

Основные этапы KDD:

1. Выборка данных. Первым шагом в анализе является получение исходной выборки. На основе этих данных и строятся модели. Здесь требуется активное участие экспертов для выдвижения гипотез и отбора факторов, влияющих на анализируемый процесс. Желательно, чтобы данные были уже собраны и консолидированы. Крайне необходимы удобные механизмы подготовки выборки: запросы, фильтрация данных и т.д. Чаще всего в качестве источника рекомендуется использовать специализированное хранилище данных, агрегирующее всю необходимую для анализа информацию.

14.12.2014 Доцент С.Т. Касюк

3

2. Очистка данных. Реальные данные для анализа редко бывают хорошего качества. Необходимость в предварительной обработке при анализе данных возникает — зависимо от того, какие технологии и алгоритмы используются. Более того, эта может представлять самостоятельную ценность в областях, не имеющих непосредственного отношения к анализу данных. К задачам очистки данных относятся: заполнение пропусков, подавление аномальных значений, сглаживание, исключение дубликатов и противоречий и пр.

14.12.2014 Доцент С.Т. Касюк

4