Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
OED_9[1].docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
5.78 Mб
Скачать

4.3 Выявление дубликатов и противоречий

Так как при оценке качества данных было выявлено, что у показателей отсутствуют выбросы, пропуски и экстремальные значения, поэтому не требуется выбирать обработчики «заполнение пропусков» и «редактирование выбросов». Однако, необходимо проверить данные на выявление возможных дубликатов и противоречий.

1 Шаг - для выявления дубликатов и противоречий необходимо на панели «Сценарии» нажимаем «Мастер обработки», предварительно в левой части окна выбрав необходимую для анализа базу данных. В появившемся окне выбираем соответствующий обработчик.

2 Шаг - в открывшемся окне для каждого показателя в графе «Назначение» выбираем «Входное» и нажимаем «Далее» (рисунок 4.10).

Рисунок 4.10 - Выявление дубликатов и противоречий

(назначение входных и выходных параметров)

3 Шаг - нажимаем «Пуск» и ждем, пока в графе «Название процесса» не отобразится «Успешное завершение», а в графе «Процент выполнения текущего процесса» - 100%, после чего нажимаем «Далее» (рисунок 4.11).

Рисунок 4.11 - Выявление дубликатов и противоречий (запуск процесса)

4 Шаг - в следующем окне выбираем способ отображения данных: для этого ставим галочки напротив «Отображает в виде таблицы информацию о дубликатах и противоречиях», нажимаем «Далее» (рисунок 4.12). При завершении назначаем имя и метку, нажимаем «Готово».

Рисунок 4.12 - Выявление дубликатов и противоречий (выбор способа отображения данных)

В отрывшемся окне (рисунок 4.13) видим, что в результирующий набор добавлены два поля логического типа «Противоречие» и «Дубликат», где для каждой записи исходных полей указывается признак дубликата или противоречия.

Если бы записи содержали противоречие, то в поле «Противоречие» для нее было установлен флажок «True» (истина). Аналогично и для поля «Дубликат».

Кроме того, в набор были включены два столбца целого типа «Группа противоречий» и «Группа дубликатов», содержащие номер группы для противоречивых и дублирующихся записей соответственно. Для записей, не содержащих противоречий и дубликатов, эти поля отображаются пустыми. [3]

Рисунок 4.13 - Выявление дубликатов и противоречий

Так как добавленные ячейки остались пустыми, следовательно, данные не содержат дубликатов и противоречий.

5 Первичный анализ данных

5.1 Частотный анализ данных

5.1.1 Теоретические сведения

Анализ частотных распределений результатов исследования – это первый шаг при обработке информации. Первый шаг одномерного описательного анализа для объяснения какого-либо явления – его описание. Результаты любого исследования содержат множество данных и просто просмотр базы данных не дает возможности осмыслить такой массив информации.

В этом случае методы одномерного описательного анализа решают задачу сжатия исходной информации, ее компактного представления. Как правило, в процессе исследования бывает важно получить совокупные характеристики отдельных предметов через призму какого-либо конкретного свойства. Вместо большого числа отдельных показателей нам требуется одно значение, которое было бы типичным (репрезентативным) для всей совокупности объектов. Анализ одномерных распределений позволяет заодно установить, насколько типичное значение в действительности типично, репрезентативно по отношению к совокупности данных. [5]

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]