- •0. Начало работы со средствами анализа таблиц Краткое содержание видеоролика
- •Введение
- •Образец рабочей книги Excel
- •Создание соединения
- •Заключение
- •1. «Анализ ключевых факторов влияния» Введение
- •2. «Поиск категорий» Введение
- •3. «Заполнение по примеру» Введение
- •4. «Прогноз» Введение
- •5. «Выделение исключений» Введение
5. «Выделение исключений» Введение
Этот видеоролик поможет вам приступить к работе с использованием средства «Выделение исключений». Средство «Выделение исключений» использует алгоритм кластеризации и анализ шаблонов для поиска нестандартных значений в наборе данных. Такие значения могут выходить за диапазон большинства других значений или даже могут быть неверными и, как следствие, повлиять на качество анализа. Средство «Выделение исключений» помогает найти эти значения, просмотреть их и предпринять то или иное действие.
Средство «Выделение исключений» может работать со всем диапазоном данных таблицы Excel или только с несколькими выбранными столбцами. Можно также настроить порог, управляющий изменчивостью данных, чтобы обнаруживать больше или меньше исключений.
В данном видеоролике мы будем использовать средство «Выделение исключений», чтобы определить данные, которые могут быть нестандартными. Такие значения называются выбросами. Они могут быть вызваны ошибками ввода данных или абсолютно нестандартными значениями, которые требуют дальнейшего анализа. Затем просмотрим выбросы и внесем изменения. И наконец, откорректируем порог исключений, чтобы из всех полученных выбросов остались только наиболее значимые.
Мастер
Сначала выберите вкладкуОбразцы данных для средств анализа таблиц (Table Analysis Tools) и щелкните любое место в таблице, чтобы активировать средства анализа таблиц.
В меню Работа с таблицами (Table Tools) выберите вкладку Анализ (Analyze), чтобы открыть ленту Средства анализа таблиц (Table Analysis Tools).
Дважды щелкните элемент Выделение исключений (Highlight Exceptions), чтобы запустить мастер.
В окне Выбор столбца (Column Selection) выберите столбцы для анализа исключений. Снимите флажки для входных столбцов, в которых заведомо содержится некачественная информация или которые вряд ли будут полезны для создания шаблона. Например, снимите флажки для столбцов, где значения отсутствуют или являются нулевыми, а также для столбцов, которые содержат уникальные значения, такие как идентификаторы или имена.
Нажмите кнопку Выполнить. Отчеты отображаются на новом листе.
Отчеты
Лист с выбросами отображает сводный отчет о количестве выбросов, найденных в каждом проанализированном столбце. Кроме того, это средство выделяет исключения в исходной таблице данных.
В нашем примере найдено 34 выброса, которые находились выше порога исключений, большинство из которых оказались в столбцах Children и Cars. Если вернуться к образцу данных, можно легко найти эти выбросы. Темная подсветка означает, что строка требует внимания. Светлая подсветка означает, что значение в этой ячейке рассматривается как подозрительное.
На листе Table Analysis Tools Samples отсортируйте значения в колонке Age от максимального до минимального. В третьей и шестой строке есть выбросы на основе возраста. Нечасто встречается 78-летний человек, зарабатывающий 100 000 долларов и купивший велосипед.
Прокрутите вниз до выброса 17657. Ясно, что здесь ошибка и что у этого 30-летнего клиента на самом деле всего двое детей.
Изменим значение с 4 на 2. Новое значение моментально анализируется, и теперь, поскольку оно находится в ожидаемых пределах, выделение снимается.
После просмотра выделенных ячеек можно вернуться к сводному отчету и изменить значения для параметра Порог исключений (больше или меньше исключений) (Exception threshold value), чтобы уменьшить число выбросов. Начальное значение для порога исключений всегда равно 75 и означает, что в вычисляемом здесь алгоритме вероятность того, что выделенные данные неправильны, составляет 75 %. Однако мы хотим увидеть лишь наиболее значимые выбросы. Увеличим Порог исключений (Exception threshold) до 90. Количество исключений снизилось до семи. Вернемся к исходному листу, теперь выделено только семь строк.
