Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
OED_9[1].docx
Скачиваний:
5
Добавлен:
01.07.2025
Размер:
5.78 Mб
Скачать

3.3 Анализ выполнения импорта, оценка качества данных на пригодность к анализу

При осуществлении импорта базы данных в ПАП «DEDUCTOR» не возникло каких-либо спорных моментов, платформа не выдавала каких-либо замечаний, следовательно, можно сделать вывод, что импорт был осуществлен качественно.

Оценка пригодности качества данных к анализу может быть следующей:

- данные полностью пригодны к анализу и не нуждаются в очистке;

- данные пригодны к анализу без очистки, но с определенными ограничениями;

- данные пригодны к анализу после применения методов очистки и предобработки;

- данные совершенно непригодны к анализу и никакие методы очистки ситуацию не исправят.

Исходя из приведенных выше вариантов оценки, можем сделать вывод, что на этапе импорта данные полностью пригодны к последующему анализу, однако, оценим качество данных и осуществим некоторые методы их очистки.

4 Оценка качества данных и процедура очистки

4.1 Общие сведения

Предобработка данных комплекс методов и алгоритмов, которые применяются в аналитическом приложении целью подготовить данные к решению конкретной задачи и приведения их в соответствие с требованиями, определенных спецификой задачи и способами ее решения.

Очистка данных определяет:

- противоречивость – информация, несоответствующая законам и т.д.

- аномальные значения – значения, которые сильно выбиваются из общего ряда;

- пропуски – незаполненные поля;

- несоответствие форматов;

- ошибки ввода или опечатки;

- дублирование.

Графически необходимость проведения очистки данных приведена на рисунке 4.1.

Рисунок 4.1 – Графическое представление необходимости проведения очистки данных

Этапы очистки данных включают:

- анализ данных;

- определение порядка и правил преобразования;

- подтверждение;

- преобразование;

- противоток очищенных данных.

Результаты очистки данных представлены на рисунке 4.2.

Рисунок 4.2 – Результаты очистки данных

4.2 Оценка качества данных

Одним из этапов очистки данных, предусмотренных ПАП «DEDUCTOR» является узел «Качество данных», предназначенный для проведения профайлинга и аудита данных с целью определения степени пригодности полей набора данных для решения задач анализа по объективным критериям: пропуски, выбросы, экстремальные значения. [3]

1 Шаг - для выполнения оценки качества данных на панели «Сценарии» нажимаем «Мастер обработки», предварительно в левой части окна выбрав необходимую для анализа базу данных. В появившемся окне выбираем обработчик «Качество данных» (рисунок 4.3).

Рисунок 4.3 - Оценка качества данных (выбор обработчика)

2 Шаг –определяем параметры обработки: пропущенные данные, выбросы и экстремальные значения. Для этого в секции «Максимально допустимый процент пропусков» можем задать максимально допустимое число пропусков в процентах к общему числу записей набора данных, при превышении которого поле считается требующим предобработки с целью восстановления пропущенных значений [3], равное 0%, так как при анализе выполнения импорта было получено, что пропуски отсутствуют ( см. рисунок 3.9).

В этом же окне выбираем способ определения выбросов и экстремальных значений. Выбираем «Стандартное отклонение», для которого критерием является отклонение значения признака от среднего более, чем на заданное число стандартных отклонений. При этом данный параметр отдельно задается для выбросов и для экстремальных значений, что в дальнейшем позволяет обрабатывать эти типы аномальных значений по отдельности, используя различные методы [3]. Нужно помнить, что каждый количественный показатель имеет свои значения этих параметров, поэтому все последующие шаги будут приведены для показателя П2 (рисунок 4.4).

Рисунок 4.4 - Оценка качества данных

(определение пропущенных данных, выбросов и экстремальных значений)

3 Шаг - задаем используемые столбцы. Так как мы хотим определить качество показателя П2, поэтому в графе «Назначение» для столбца П2 ставим значение «Используемый», для остальных – «Неиспользуемый», нажимаем «Далее» (рисунок 4.5).

Рисунок 4.5 - Оценка качества данных (задание используемых столбцов)

4 Шаг - нажимаем «Пуск» и ждем, пока в графе «Название процесса» не отобразится «Успешное завершение», а в графе «Процент выполнения текущего процесса» - 100%, после чего нажимаем «Далее» (рисунок 4.6).

Рисунок 4.6 - Оценка качества данных (запуск процесса)

5 Шаг - выбираем способ отображения данных: для этого ставим галочки напротив «Таблица характеристик полей», нажимаем «Далее» (рисунок 4.7).

Рисунок 4.7 - Оценка качества данных (выбор способа отображения данных)

6 Шаг - заполняем графы «Имя» и «Метка», нажимаем «Готово» (рисунок 4.8).

Рисунок 18 - Оценка качества данных (завершение процесса)

7 Шаг – результаты профайлинга и аудита данных, сделанные узлом «Качество данных» представляются в виде таблицы, в заголовке которой указываются свойства набора данных и другие параметры оценки качества (рисунок 19).

В графе «Пропуски» отображается количество имеющихся пропусков и действие, которое требуется выполнить при восстановлении пропусков.

В графе «Выбросы» представлено количество обнаруженных выбросов и действие, которое требуется выполнить при их обработке.

В графе «Экстремальные» указывается количество обнаруженных экстремальных значений и действие, которое требуется выполнить при их обработке.

Графа «Количество уникальных» содержит количество уникальных значений в данных.

В графе «Качество данных» указывается индекс качества данных.

Поле «Резюме» содержит заключение о том, являются ли данные пригодными для последующего анализа. Пригодным считается поле, которое не содержит пропусков, экстремальных значений и выбросов, непригодным – поле, индекс качества которого равен 0. Все остальные поля считаются требующими предобработки. [3]

Рисунок 4.9 - Оценка качества данных

(определение качества данных и их пригодности к анализу)

Исходя из рисунка 4.9, делаем вывод, что данные показателя П2 (температура вспышки) не имеют пропусков, выбросов и экстремальных значений, индекс качества данных достаточно высок, следовательно, данные являются пригодными для анализа.

8 Шаг - аналогичным образом проводим оценку качества данных всех количественных показателей.

Рисунок 19 - Оценка качества данных

После проведения оценки качества данных для других количественных показателей получаем, что почти все параметры, кроме П10(Максимальный диаметр сверления (бетон - бур)) являются пригодными для анализа.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]