Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
РетингУправДанными.docx
Скачиваний:
16
Добавлен:
02.06.2015
Размер:
873.45 Кб
Скачать

Сбор данных

Для того чтобы ответить на поставленные вопросы и проверить первоначальные гипотезы, необходимо собрать соответствующие данные. Для анализа потребуются следующие данные:

  1. Уровень рождаемости в Пермском Крае и Республике Татарстан за определенный период времени.

  2. Уровень смертности в Пермском Крае и Республике Татарстан за определенный период времени.

  3. Естественный прирост, убыль населения в Пермском Крае и Республике Татарстан за определенный период времени.

  4. Уровень доходов населения в Пермском Крае и Республике Татарстан за определенный период времени.

  5. Уровень эмиграции населения из Пермского Края и Республики Татарстан за определенный период времени.

  6. Количество браков и разводов населения в Пермском Крае и Республике Татарстан за определенный период времени.

Проектирование хранилища

После сбора данных необходимо спроектировать хранилище. Выделим такие таблицы как «Год», в котором будет поле «Год. Код» - идентификатор таблицы и само значение года «Год. Значение». Вторая таблица «Субъект», в которой будет также идентификатор субъекта и название субъекта. Третья таблица будет содержать данные двух предыдущих таблиц и вышеперечисленные показатели. Изобразим итоговую структуру в формате Excel (рис. 1).

Рисунок 1 Структура хранилища

Создание хранилища в системе Deductor

Для того чтобы начать создание хранилища необходимо выполнить следующие этапы:

  1. Представить данные в виде, понятном для системы Deductor, используя txt формат.

  2. Создать пустое хранилище в системе Deductor.

  3. Импортировать данные в txt формате в систему Deductor.

  4. Загрузить данные в хранилище.

  5. Извлечь данные из хранилища для их последующей обработки.

После того как данные были представлены в txt формате, начинаем создавать пустое хранилище. Измерения будут являться «Год. Код» и «СубъектРФ. Код», фактами будут выступать показатели. Хранилище будет выглядеть следующим образом (рис. 2).

Рисунок 2 Хранилище

Далее необходимо создать сценарий загрузки данных в хранилище. При этом первыми загружаются все измерения, имеющие атрибуты, а именного «Год. Код» и «СубъектРФ. Код». Только после загрузки всех измерений загружаются данные в процесс «НаселениеПроцесс». Далее необходимо загрузить данные в хранилище и извлечь данные из хранилища для последующей обработки. Необходимо отметить, что на последнем этапе извлечения, нужно задать условие на выбор субъекта, так как для проверки первых трех гипотез целесообразнее рассматривать каждый субъект в отдельности. Также необходимо задать условие на значение года, так как данные для Пермского Края рассматриваются за 2006-2011 гг., а Республики Татарстан за 2008-2012.

Рисунок 3 Фильтр по Татарстану

Обработка данных в системе Deductor

Прежде чем приступать к анализу данных, необходимо обработать их. Система Deductor предлагает несколько вариантов такой обработки, например, заполнение пропусков, удаление аномальных значение, удаление шумов. Так как данные не требуют заполнения пропусков, опустим этот шаг. При обработке данных путем удаления аномальных значений и шумов получились не вполне корректные результаты, так как система уровняла значения показателей, поэтому было решено использовать парциальную обработку