- •Отчет по дисциплине «Обработка экспериментальных данных»
- •Введение
- •1 Описание объекта исследования
- •1.1 Определение и функции трансформаторного масла
- •1.2 Система признаков
- •1.3 Основные понятия
- •2 Описание данных
- •2.1 Источники данных
- •2.2 Матрица признаков
- •2.3 Матрица данных
- •3 Подготовка данных для работы в пап «deductor»
- •3.1 Общие сведения о пап «deductor»
- •3.2 Подготовка бд к импорту в пап «deductor»
- •3.3 Анализ выполнения импорта, оценка качества данных на пригодность к анализу
- •4 Оценка качества данных и процедура очистки
- •4.1 Общие сведения
- •4.2 Оценка качества данных
- •4.3 Выявление дубликатов и противоречий
- •5 Первичный анализ данных
- •5.1 Частотный анализ данных
- •5.1.1 Теоретические сведения
- •5.1.2 Частотные таблицы
- •5.2 Анализ взаимосвязей между признаками (корреляционный анализ)
- •5.2.1 Теоретические сведения
- •5.2.2 Матрица парной корреляции и анализ зависимостей
- •6 Моделирование и анализ зависимостей между количественными признаками
- •6.1 Линейная регрессия
- •6.2 Линейный многомерный регрессионный анализ
- •6.3 Нелинейная регрессия
- •7 Моделирование и анализ зависимостей между качественными признаками
- •7.1 Анализ методов исследования качественных данных
- •7.2 Логистическая регрессия
- •8 Факторный анализ
- •Заключение
- •Список использованных источников
4.3 Выявление дубликатов и противоречий
Так как при оценке качества данных было выявлено, что у показателей отсутствуют выбросы, пропуски и экстремальные значения, поэтому не требуется выбирать обработчики «заполнение пропусков» и «редактирование выбросов». Однако, необходимо проверить данные на выявление возможных дубликатов и противоречий.
1 Шаг - для выявления дубликатов и противоречий необходимо на панели «Сценарии» нажимаем «Мастер обработки», предварительно в левой части окна выбрав необходимую для анализа базу данных. В появившемся окне выбираем соответствующий обработчик.
2 Шаг - в открывшемся окне для каждого показателя в графе «Назначение» выбираем «Входное» и нажимаем «Далее» (рисунок 4.10).
Рисунок 4.10 - Выявление дубликатов и противоречий
(назначение входных и выходных параметров)
3
Шаг
- нажимаем «Пуск» и ждем, пока в графе
«Название процесса» не отобразится
«Успешное завершение», а в графе «Процент
выполнения текущего процесса» - 100%,
после чего нажимаем «Далее» (рисунок
4.11).
Рисунок 4.11 - Выявление дубликатов и противоречий (запуск процесса)
4 Шаг - в следующем окне выбираем способ отображения данных: для этого ставим галочки напротив «Отображает в виде таблицы информацию о дубликатах и противоречиях», нажимаем «Далее» (рисунок 4.12). При завершении назначаем имя и метку, нажимаем «Готово».
Рисунок 4.12 - Выявление дубликатов и противоречий (выбор способа отображения данных)
В отрывшемся окне (рисунок 4.13) видим, что в результирующий набор добавлены два поля логического типа «Противоречие» и «Дубликат», где для каждой записи исходных полей указывается признак дубликата или противоречия.
Если бы записи содержали противоречие, то в поле «Противоречие» для нее было установлен флажок «True» (истина). Аналогично и для поля «Дубликат».
Кроме того, в набор были включены два столбца целого типа «Группа противоречий» и «Группа дубликатов», содержащие номер группы для противоречивых и дублирующихся записей соответственно. Для записей, не содержащих противоречий и дубликатов, эти поля отображаются пустыми. [3]
Рисунок 4.13 - Выявление дубликатов и противоречий
Так как добавленные ячейки остались пустыми, следовательно, данные не содержат дубликатов и противоречий.
5 Первичный анализ данных
5.1 Частотный анализ данных
5.1.1 Теоретические сведения
Анализ частотных распределений результатов исследования – это первый шаг при обработке информации. Первый шаг одномерного описательного анализа для объяснения какого-либо явления – его описание. Результаты любого исследования содержат множество данных и просто просмотр базы данных не дает возможности осмыслить такой массив информации.
В этом случае методы одномерного описательного анализа решают задачу сжатия исходной информации, ее компактного представления. Как правило, в процессе исследования бывает важно получить совокупные характеристики отдельных предметов через призму какого-либо конкретного свойства. Вместо большого числа отдельных показателей нам требуется одно значение, которое было бы типичным (репрезентативным) для всей совокупности объектов. Анализ одномерных распределений позволяет заодно установить, насколько типичное значение в действительности типично, репрезентативно по отношению к совокупности данных. [5]
