Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методичка.doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
13.67 Mб
Скачать

Трансформация данных

При анализе часто возникает необходимость просмотреть данные не по всей совокупности, а по определенным группам (какую сумму берут на определенные цели, сумму кредита того или иного возраста).

Рассмотрим разбиение данных на группы с помощью инструмента обработки «Настройка набора данных» на примере данных по рискам кредитования физических лиц (файл Credit.txt).

Для этого выполним команду «Выделить узел «Текстовый файл (TestForCPP.txt-Результаты)»/Щелкнуть левой кнопкой мыши на кнопку мастера импорта /Выбрать «Текстовый файл с разделителями»/Далее/Используя кнопку … открываем файл Credit.txt.

Выполним команду «Далее/Далее/Далее/Пуск/Далее». После импорта данных из текстового файла в качестве способа отображения данных выберём «Куб». Нажмём кнопку «Далее».

В качестве назначений для столбцов «Возраст» и «Цель кредитования» установим «Измерение», а для столбца «Сумма Кредита» – «Факт». Остальные столбцы установим как «Неиспользуемые». Для этого оптимально сначало выделить все столбцы и установить назначений для них «Неиспользуемые», а потом установить эти назначении для столбцов «Возраст», «Цель кредитования» и «Сумма Кредита».

Нажмём кнопку «Далее». При настройке 8 шага куба установим «Цель кредитования» как измерение в строках, а измерение «Возраст» в столбцах. Нажмём кнопку «Далее».

На 9 шаге укажем в качестве факта «Сумма кредита» - Сумма, а в качестве вариантов отображения установим – значение.

Выполним команду «Далее/Готово». В результате мы получим кросс-таблицу с интересующими нас данными.

  • Разбиение даты (по неделям)

Разбиение временного ряда на определенные периоды дает возможность всестороннего анализа информации. Исходя из такой возможности, мы, например, можем определить активный (неактивный) временной интервал.

Допустим, необходимо получить данные о суммах взятых кредитов по неделям (файл Credit.txt). Выделим узел «Текстовый файл (Credit.txt-Кросс-таблица)» и нажмем кнопку – Мастер обработки. В окне «Мастер обработки» выберём пункт предобработки «Дата и время» и нажмем кнопку «Далее». На втором шаге «Назначение» для поля «Дата кредитования» установим «Используемое», а все остальные поля определим как «Непригодное». Для поля «Дата кредитования» в столбце «Строка» установим галочку напротив строки «Год + Неделя».

Нажмём кнопку «Далее». Выберем в качестве визуализатора «Таблицу» и «Куб». Нажмём кнопку «Далее». При настройке назначения полей куба в качестве измерений выберем «Дата кредитования (Год + Неделя)» и столбец «Цель кредитования». В качестве факта выберем «Сумма кредита», а остальные поля установим «Неиспользуемые».

На следующем шаге перенесем «Цель кредитования» в область строк, а «Дата кредитования (Год + Неделя)» в область колонок.

На 6 шаге установим в качестве факта «Сумма кредита», а в качестве вариантов отображения– «Значение».

Выполним команду «Далее/Готово». В результате мы получим кросс-таблицу о суммах кредитов, взятых по неделям в разрезе целей кредитования.

Квантование

Квантование предназначено для преобразования непрерывных данных в дискретные. Данные разбиваются по интервалам (одинаковой длины) или по квантилям (данные разбиваются на интервалы так, чтобы в каждом интервале находилось одинаковое количество данных. k-квантилями (k-th quantils) множества из n чисел называют k-1 его элементов, обладающих следующим свойством: если расположить элементы множества в порядке возрастания, то квантили будут разбивать множество на k равных (точнее, отличающихся не более чем на один элемент) частей. Более точно можно определить k-квантили как порядковые статистики с номерами [n/k], [2n/k], …, [(k-1)n/k].

Используем предыдущий файл (Credit.txt) для разбиения данных о возрасте кредиторов на 5 интервалов (до 30 лет, от 30 до 40, от 40 до 50, от 50 до 60, свыше 60лет). Данные необходимо разбиты на пять интервалов, поскольку по статистике минимальный возраст кредиторов составляет 19 лет, а максимальный 69 лет. Данное разбиение позволит определить наиболее активный возрастной период кредитования и в последующем принять соответствующие меры стимулирования или ужесточения условий кредитования в тех или иных возрастных группах. Просмотрим данные в разрезе по неделям, поэтому продолжим работу с последним узлом.

В мастере квантования выберем назначение поля «Возраст» используемым (для поля «Срок кредита» назначение - информационное), укажем способ разбиения «По интервалам» и количество интервалов 5, в качестве значения выберем «Метку интервала».

На следующем шаге мастера установим метки по тем размерам, которые были определены выше.

Выберем в качестве визуализатора «Куб» и укажем поле «Сумма кредита» в качестве факта, «Возраст» и «Дата кредитования (Год + Неделя)» в качестве измерений.

Далее перенесем «Возраст» и «Дата кредитования (Год + Неделя)» из доступных измерений в выбранные: «Возраст» - колонки; «Дата кредитования (Год + Неделя)» - строки.

На кросс-таблице отображена информация о том, какие суммы берут кредиторы тех или иных возрастных категорий в разрезе по неделям.

Исходя из данной кросс-таблицы, аналитик делает выводы, что нужно снизить стоимость кредита в возрастной группе старше 50 лет либо применить какие-нибудь другие меры по стимулированию этой группы.