- •1(1). Информация. Данные и знания.
- •2(1). Адекватность информации. Синтаксическая. Семантическая. Прагматическая.
- •4(1). Эволюция технологий анализа данных.
- •5(1). Терминология анализа данных. Понятие модели и моделирования.
- •7(1). Алгоритмы сжатия. Словарное кодирование.
- •Объем требуемой памяти
- •8(1). Статистика. Machine Learning.
- •10(1). Предпосылки возникновения хранилищ данных. Архитектуры.
- •11(1). Oltp и olap системы.
- •12(1). Детализированные и агрегированные данные.
- •13(1). Сравнение схем хд. Звезда и снежинка.
- •14(1). Назначение etl системы.
- •15(1). Очистка данных. Назначение. Классификация проблем в «грязных» данных.
- •16(1). Обогащение данных. Назначение.
- •17(1). Трансформация данных. Назначение.
- •18(1). Цели квантования, выбор числа интервалов квантования, методы квантования.
- •19(1). Основные методы нормализации.
- •20(1). Нормализация с помощью поэлементных преобразований.
- •21(1). Кодирование категориальных данных.
- •22(2). Преобразование даты и времени, группировка и разгруппировка данных.
- •1.(2)Генетический алгоритм. Назначение. Плюсы и минусы
- •2.(2)Генетический алгоритм. Кодирование хромосом
- •3.(2)Генетический алгоритм. Алгоритмы скрещивания и мутации
- •4.(2) Генетический алгоритм. Стратегии. Элитизм. Островная модель
- •5.(2)Нечеткая логика. Фазификация и дефазификация.
- •Принцип построения алгоритма нечеткого вывода.
- •6.(2)Нечеткая логика. Нечеткий логический вывод.
- •8.(2)Регрессия. Назначение и применение
- •11.(2)Ассоциативные правила. Назначение и применение
- •13.(2)Модель нейрона. Сумматор. Функция активации
- •1 . Единичный скачок или жесткая пороговая функция
- •2 . Линейный порог или гистерезис
- •3. Сигмоидальная функция или сигмоид
- •14.(2)Нейронные сети. Многослойный персептрон (mlp).
- •Персептрон
- •15.(2)Нейронные сети. Карты Кохонена.
- •16.(2)Визуализация данных. Графики
- •График рассеивания
- •17.(2)Визуализация данных. Диаграммы.
- •18.(2)Визуализация данных. Гистограммы и статистика
- •20.(2)Визуализация данных. Диаграммы рассеяния
- •22.(2)Специализированые методы визуализации (в примерах).
17.(2)Визуализация данных. Диаграммы.
Визуализация – это представление различной информации с помощью изображений, графиков, схем, таблиц – всего того, что значительно упрощает восприятие. К задаче визуализации данных сводится проблема представления в наглядной форме данных эксперимента или результатов теоретического исследования. Традиционные инструменты в этой области – графики и диаграммы.
Диагра́мма — графическое представление данных, позволяющее быстро оценить соотношение нескольких величин. Представляет собой геометрическое символьное изображение информации с применением различных приёмов техники визуализации.
Диаграммы в основном состоят из геометрических объектов (точек, линий, фигур различной формы и цвета) и вспомогательных элементов (осей координат, условных обозначений, заголовков и т. п.). Также диаграммы делятся на плоскостные (двумерные) и пространственные (трёхмерные или объёмные). Сравнение и сопоставление геометрических объектов на диаграммах может происходить по различным измерениям: по площади фигуры или её высоте, по местонахождению точек, по их густоте, по интенсивности цвета и т. д. Кроме того, данные могут быть представлены в прямоугольной или полярной системе координат
18.(2)Визуализация данных. Гистограммы и статистика
Гистограмма показывает распределение набора данных внутри выборки (например, количество заемщиков банка в нескольких возрастных группах) в виде столбиков. Гистограмму также называют частотным полигоном.
Гистограммы широко используются в статистике для определения наиболее вероятных значений, которые может приобретать некоторая величина, а также для определения закона распределения, которому подчиняется случайная величина.
Что касается крайних элементов гистограммы, то они представляют редкие события — экстремально высокие или экстремально низкие.
Иногда используют нормированную гистограмму, что позволяет оперировать не значениями наблюдений, а их вероятностями. Для этого каждый элемент гистограммы делится на количество наблюдений. В нормированной гистограмме сумма значений всех ее элементов должна равняться 1, поскольку сумма вероятностей всех возможных событий (попадания значения в какой-либо диапазон) есть 1.
Обычно при построении гистограммы аналитик имеет возможность задать число поддиапазонов, на которое будет разбиваться исходный диапазон изменения величины (фактически это число столбцов гистограммы). Здесь существуют различные рекомендации, например: число поддиапазонов не должно быть меньше, чем log2 N, где N — число наблюдений. На практике можно руководствоваться следующим эмпирическим правилом. Количество столбцов в гистограмме должно быть таким, чтобы в ней не образовывались провалы, резкие выбросы или множественные пики. Она должна быть достаточно гладкой, чтобы по ней можно было определить характер распределения наблюдаемой величины.
Статистика
Статистические характеристики обычно представляются в табличном виде и указываются для каждого поля выборки. Статистические характеристики позволяют выдвигать гипотезы о поведении данных и присущих им закономерностях, контролировать результаты обработки данных на различных этапах аналитического процесса.
Статистика, как правило, включает следующие характеристики:
Минимум и максимум позволяют определить диапазон изменения значений величины. Знание минимального и максимального значений дает возможность увидеть, лежит ли величина в диапазоне, допустимом для применения в той или иной аналитической модели, выбрать корректную методику сравнения величин и т. д.
Среднее значение и математическое ожидание позволяют выдвигать гипотезы о наиболее вероятных значениях, которые может принимать исследуемая величина.
Стандартное (среднеквадратическое) отклонение и дисперсия показывают степень разброса значений величины относительно среднего. Знание этих характеристик позволяет оценивать гладкость рядов данных, наличие в них шумов, контролировать степень сглаживания данных в процессе их предобработки и т. д.
Распределение — указывается соответствие исследуемой выборки некоторому статистическому распределению (нормальному, равномерному, экспоненциальному и т. д.). Знание распределения исследуемой величины позволяет объяснить особенности ее поведения, например определить, какие значения являются наиболее вероятными.
Кроме того, в набор определяемых статистических характеристик могут включаться медиана, коэффициенты асимметрии и эксцесса и др. Также визуализатор статистики часто содержит количество уникальных значений для дискретных величин и количество пропущенных значений, обнаруженное в выборке.
19.(2)Визуализация данных. Матрицы классификации
Матрица Клaссификации, или таблица сопряженности (confusion matrix), применяется для оценки качества классификационных моделей. Как известно, задача
классификации заключается в отнесении предъявленного объекта к одному из заранее определенных классов на основе набора признаков данного объекта. Таким образом, входные данные для классификационной модели представляют собой признаки (атрибуты) классифицируемых объектов, а на выходе классификацианной модели должна формироваться метка класса, к которому относится объект с данным набором признаков. При этом она должжна быть категориального вида.
