- •Отчет по дисциплине «Обработка экспериментальных данных»
- •Введение
- •1 Описание объекта исследования
- •1.1 Определение и функции трансформаторного масла
- •1.2 Система признаков
- •1.3 Основные понятия
- •2 Описание данных
- •2.1 Источники данных
- •2.2 Матрица признаков
- •2.3 Матрица данных
- •3 Подготовка данных для работы в пап «deductor»
- •3.1 Общие сведения о пап «deductor»
- •3.2 Подготовка бд к импорту в пап «deductor»
- •3.3 Анализ выполнения импорта, оценка качества данных на пригодность к анализу
- •4 Оценка качества данных и процедура очистки
- •4.1 Общие сведения
- •4.2 Оценка качества данных
- •4.3 Выявление дубликатов и противоречий
- •5 Первичный анализ данных
- •5.1 Частотный анализ данных
- •5.1.1 Теоретические сведения
- •5.1.2 Частотные таблицы
- •5.2 Анализ взаимосвязей между признаками (корреляционный анализ)
- •5.2.1 Теоретические сведения
- •5.2.2 Матрица парной корреляции и анализ зависимостей
- •6 Моделирование и анализ зависимостей между количественными признаками
- •6.1 Линейная регрессия
- •6.2 Линейный многомерный регрессионный анализ
- •6.3 Нелинейная регрессия
- •7 Моделирование и анализ зависимостей между качественными признаками
- •7.1 Анализ методов исследования качественных данных
- •7.2 Логистическая регрессия
- •8 Факторный анализ
- •Заключение
- •Список использованных источников
3.3 Анализ выполнения импорта, оценка качества данных на пригодность к анализу
При осуществлении импорта базы данных в ПАП «DEDUCTOR» не возникло каких-либо спорных моментов, платформа не выдавала каких-либо замечаний, следовательно, можно сделать вывод, что импорт был осуществлен качественно.
Оценка пригодности качества данных к анализу может быть следующей:
- данные полностью пригодны к анализу и не нуждаются в очистке;
- данные пригодны к анализу без очистки, но с определенными ограничениями;
- данные пригодны к анализу после применения методов очистки и предобработки;
- данные совершенно непригодны к анализу и никакие методы очистки ситуацию не исправят.
Исходя из приведенных выше вариантов оценки, можем сделать вывод, что на этапе импорта данные полностью пригодны к последующему анализу, однако, оценим качество данных и осуществим некоторые методы их очистки.
4 Оценка качества данных и процедура очистки
4.1 Общие сведения
Предобработка данных комплекс методов и алгоритмов, которые применяются в аналитическом приложении целью подготовить данные к решению конкретной задачи и приведения их в соответствие с требованиями, определенных спецификой задачи и способами ее решения.
Очистка данных определяет:
- противоречивость – информация, несоответствующая законам и т.д.
- аномальные значения – значения, которые сильно выбиваются из общего ряда;
- пропуски – незаполненные поля;
- несоответствие форматов;
- ошибки ввода или опечатки;
- дублирование.
Графически необходимость проведения очистки данных приведена на рисунке 4.1.
Рисунок 4.1 – Графическое представление необходимости проведения очистки данных
Этапы очистки данных включают:
- анализ данных;
- определение порядка и правил преобразования;
- подтверждение;
- преобразование;
- противоток очищенных данных.
Результаты очистки данных представлены на рисунке 4.2.
Рисунок 4.2 – Результаты очистки данных
4.2 Оценка качества данных
Одним из этапов очистки данных, предусмотренных ПАП «DEDUCTOR» является узел «Качество данных», предназначенный для проведения профайлинга и аудита данных с целью определения степени пригодности полей набора данных для решения задач анализа по объективным критериям: пропуски, выбросы, экстремальные значения. [3]
1
Шаг -
для выполнения оценки качества данных
на панели «Сценарии» нажимаем
«Мастер обработки», предварительно в
левой части окна выбрав необходимую
для анализа базу данных. В появившемся
окне выбираем обработчик «Качество
данных» (рисунок 4.3).
Рисунок 4.3 - Оценка качества данных (выбор обработчика)
2 Шаг –определяем параметры обработки: пропущенные данные, выбросы и экстремальные значения. Для этого в секции «Максимально допустимый процент пропусков» можем задать максимально допустимое число пропусков в процентах к общему числу записей набора данных, при превышении которого поле считается требующим предобработки с целью восстановления пропущенных значений [3], равное 0%, так как при анализе выполнения импорта было получено, что пропуски отсутствуют ( см. рисунок 3.9).
В этом же окне выбираем способ определения выбросов и экстремальных значений. Выбираем «Стандартное отклонение», для которого критерием является отклонение значения признака от среднего более, чем на заданное число стандартных отклонений. При этом данный параметр отдельно задается для выбросов и для экстремальных значений, что в дальнейшем позволяет обрабатывать эти типы аномальных значений по отдельности, используя различные методы [3]. Нужно помнить, что каждый количественный показатель имеет свои значения этих параметров, поэтому все последующие шаги будут приведены для показателя П2 (рисунок 4.4).
Рисунок 4.4 - Оценка качества данных
(определение пропущенных данных, выбросов и экстремальных значений)
3 Шаг - задаем используемые столбцы. Так как мы хотим определить качество показателя П2, поэтому в графе «Назначение» для столбца П2 ставим значение «Используемый», для остальных – «Неиспользуемый», нажимаем «Далее» (рисунок 4.5).
Рисунок 4.5 - Оценка качества данных (задание используемых столбцов)
4 Шаг - нажимаем «Пуск» и ждем, пока в графе «Название процесса» не отобразится «Успешное завершение», а в графе «Процент выполнения текущего процесса» - 100%, после чего нажимаем «Далее» (рисунок 4.6).
Рисунок 4.6 - Оценка качества данных (запуск процесса)
5 Шаг - выбираем способ отображения данных: для этого ставим галочки напротив «Таблица характеристик полей», нажимаем «Далее» (рисунок 4.7).
Рисунок 4.7 - Оценка качества данных (выбор способа отображения данных)
6 Шаг - заполняем графы «Имя» и «Метка», нажимаем «Готово» (рисунок 4.8).
Рисунок 18 - Оценка качества данных (завершение процесса)
7 Шаг – результаты профайлинга и аудита данных, сделанные узлом «Качество данных» представляются в виде таблицы, в заголовке которой указываются свойства набора данных и другие параметры оценки качества (рисунок 19).
В графе «Пропуски» отображается количество имеющихся пропусков и действие, которое требуется выполнить при восстановлении пропусков.
В графе «Выбросы» представлено количество обнаруженных выбросов и действие, которое требуется выполнить при их обработке.
В графе «Экстремальные» указывается количество обнаруженных экстремальных значений и действие, которое требуется выполнить при их обработке.
Графа «Количество уникальных» содержит количество уникальных значений в данных.
В графе «Качество данных» указывается индекс качества данных.
Поле «Резюме» содержит заключение о том, являются ли данные пригодными для последующего анализа. Пригодным считается поле, которое не содержит пропусков, экстремальных значений и выбросов, непригодным – поле, индекс качества которого равен 0. Все остальные поля считаются требующими предобработки. [3]
Рисунок 4.9 - Оценка качества данных
(определение качества данных и их пригодности к анализу)
Исходя из рисунка 4.9, делаем вывод, что данные показателя П2 (температура вспышки) не имеют пропусков, выбросов и экстремальных значений, индекс качества данных достаточно высок, следовательно, данные являются пригодными для анализа.
8 Шаг - аналогичным образом проводим оценку качества данных всех количественных показателей.
Рисунок 19 - Оценка качества данных
После проведения оценки качества данных для других количественных показателей получаем, что почти все параметры, кроме П10(Максимальный диаметр сверления (бетон - бур)) являются пригодными для анализа.
