Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ШПОРКИ.docx
Скачиваний:
3
Добавлен:
01.03.2025
Размер:
321.65 Кб
Скачать

17.(2)Визуализация данных. Диаграммы.

Визуализация – это представление различной информации с помощью изображений, графиков, схем, таблиц – всего того, что значительно упрощает восприятие. К задаче визуализации данных сводится проблема представления в наглядной форме данных эксперимента или результатов теоретического исследования. Традиционные инструменты в этой области – графики и диаграммы.

Диагра́мма — графическое представление данных, позволяющее быстро оценить соотношение нескольких величин. Представляет собой геометрическое символьное изображение информации с применением различных приёмов техники визуализации.

Диаграммы в основном состоят из геометрических объектов (точеклинийфигур различной формы и цвета) и вспомогательных элементов (осей координат, условных обозначений, заголовков и т. п.). Также диаграммы делятся на плоскостные (двумерные) и пространственные (трёхмерные или объёмные). Сравнение и сопоставление геометрических объектов на диаграммах может происходить по различным измерениям: по площади фигуры или её высоте, по местонахождению точек, по их густоте, по интенсивности цвета и т. д. Кроме того, данные могут быть представлены в прямоугольной или полярной системе координат

18.(2)Визуализация данных. Гистограммы и статистика

Гистограмма показывает распределение набора данных внутри выборки (на­пример, количество заемщиков банка в нескольких возрастных группах) в виде столбиков. Гистограмму также называют частотным полигоном.

Гистограммы широко используются в статистике для определения наиболее вероятных значений, которые может приобретать некоторая величина, а также для определения закона распределения, которому подчиняется случайная величина.

Что касается крайних элементов гистограммы, то они представляют редкие со­бытия — экстремально высокие или экстремально низкие.

Иногда используют нормированную гистограмму, что позволяет оперировать не значениями наблюдений, а их вероятностями. Для этого каждый элемент гис­тограммы делится на количество наблюдений. В нормированной гистограмме сумма значений всех ее элементов должна рав­няться 1, поскольку сумма вероятностей всех возможных событий (попадания значения в какой-либо диапазон) есть 1.

Обычно при построении гистограммы аналитик имеет возможность задать число поддиапазонов, на которое будет разбиваться исходный диапазон измене­ния величины (фактически это число столбцов гистограммы). Здесь существуют различные рекомендации, например: число поддиапазонов не должно быть мень­ше, чем log2 N, где N — число наблюдений. На практике можно руководствоваться следующим эмпирическим правилом. Количество столбцов в гистограмме должно быть таким, чтобы в ней не образовывались провалы, резкие выбросы или множе­ственные пики. Она должна быть достаточно гладкой, чтобы по ней можно было определить характер распределения наблюдаемой величины.

Статистика

Статистические характеристики обычно представляются в табличном виде и указываются для каждого поля выборки. Статистические характеристики по­зволяют выдвигать гипотезы о поведении данных и присущих им закономерностях, контролировать результаты обработки данных на различных этапах аналитического процесса.

Статистика, как правило, включает следующие характеристики:

  • Минимум и максимум позволяют определить диапазон изменения значений величины. Знание минимального и максимального значений дает возможность увидеть, лежит ли величина в диапазоне, допустимом для применения в той или иной аналитической модели, выбрать корректную методику сравнения величин и т. д.

  • Среднее значение и математическое ожидание позволяют выдвигать гипотезы о наиболее вероятных значениях, которые может принимать исследуемая вели­чина.

  • Стандартное (среднеквадратическое) отклонение и дисперсия показывают степень разброса значений величины относительно среднего. Знание этих харак­теристик позволяет оценивать гладкость рядов данных, наличие в них шумов, контролировать степень сглаживания данных в процессе их предобработки и т. д.

  • Распределение — указывается соответствие исследуемой выборки некоторому статистическому распределению (нормальному, равномерному, экспоненциаль­ному и т. д.). Знание распределения исследуемой величины позволяет объяснить особенности ее поведения, например определить, какие значения являются наи­более вероятными.

Кроме того, в набор определяемых статистических характеристик могут вклю­чаться медиана, коэффициенты асимметрии и эксцесса и др. Также визуализатор статистики часто содержит количество уникальных значений для дискретных ве­личин и количество пропущенных значений, обнаруженное в выборке.

19.(2)Визуализация данных. Матрицы классификации

Матрица Клaссификации, или таблица сопряженности (confusion matrix), применяется для оценки качества классификационных моделей. Как известно, задача

классификации заключается в отнесении предъявленного объекта к одному из заранее определенных классов на основе набора признаков данного объекта. Таким образом, входные данные для классификационной модели представляют собой признаки (атрибуты) классифицируемых объектов, а на выходе классификацианной модели должна формироваться метка класса, к которому относится объект с данным набором признаков. При этом она должжна быть категориального вида.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]