
- •1(1). Информация. Данные и знания.
- •2(1). Адекватность информации. Синтаксическая. Семантическая. Прагматическая.
- •4(1). Эволюция технологий анализа данных.
- •5(1). Терминология анализа данных. Понятие модели и моделирования.
- •7(1). Алгоритмы сжатия. Словарное кодирование.
- •Объем требуемой памяти
- •8(1). Статистика. Machine Learning.
- •10(1). Предпосылки возникновения хранилищ данных. Архитектуры.
- •11(1). Oltp и olap системы.
- •12(1). Детализированные и агрегированные данные.
- •13(1). Сравнение схем хд. Звезда и снежинка.
- •14(1). Назначение etl системы.
- •15(1). Очистка данных. Назначение. Классификация проблем в «грязных» данных.
- •16(1). Обогащение данных. Назначение.
- •17(1). Трансформация данных. Назначение.
- •18(1). Цели квантования, выбор числа интервалов квантования, методы квантования.
- •19(1). Основные методы нормализации.
- •20(1). Нормализация с помощью поэлементных преобразований.
- •21(1). Кодирование категориальных данных.
- •22(2). Преобразование даты и времени, группировка и разгруппировка данных.
- •1.(2)Генетический алгоритм. Назначение. Плюсы и минусы
- •2.(2)Генетический алгоритм. Кодирование хромосом
- •3.(2)Генетический алгоритм. Алгоритмы скрещивания и мутации
- •4.(2) Генетический алгоритм. Стратегии. Элитизм. Островная модель
- •5.(2)Нечеткая логика. Фазификация и дефазификация.
- •Принцип построения алгоритма нечеткого вывода.
- •6.(2)Нечеткая логика. Нечеткий логический вывод.
- •8.(2)Регрессия. Назначение и применение
- •11.(2)Ассоциативные правила. Назначение и применение
- •13.(2)Модель нейрона. Сумматор. Функция активации
- •1 . Единичный скачок или жесткая пороговая функция
- •2 . Линейный порог или гистерезис
- •3. Сигмоидальная функция или сигмоид
- •14.(2)Нейронные сети. Многослойный персептрон (mlp).
- •Персептрон
- •15.(2)Нейронные сети. Карты Кохонена.
- •16.(2)Визуализация данных. Графики
- •График рассеивания
- •17.(2)Визуализация данных. Диаграммы.
- •18.(2)Визуализация данных. Гистограммы и статистика
- •20.(2)Визуализация данных. Диаграммы рассеяния
- •22.(2)Специализированые методы визуализации (в примерах).
18(1). Цели квантования, выбор числа интервалов квантования, методы квантования.
Квантование – один из способов трансформации данных при подготовке к анализу. В основе операции квантования лежит процедура, состоящая из двух шагов:
Диапазон значений, в пределах которого изменяется некоторая числовая величина (признак, показатель и т. д.), разбивается на заданное количество интервалов, каждому из которых присваивается определенный номер. Эти интервалы называются интервалами квантования, а присвоенные им номера — уровнями квантования.
Каждое значение заменяется номером интервала квантования, в который попало данное значение.
При необходимости вместо номера интервала квантования используются другие значения, связанные с этим интервалом. Это могут быть верхняя или нижняя границы интервала, его срединное значение или произвольная метка, выбранная пользователем.
При квантовании необходимо определить, какую из границ интервала следует включить в этот интервал. Поскольку нижняя граница диапазона всегда принадлежит нижнему интервалу, то и для других интервалов есть смысл условиться о включении нижней границы. Единственным исключением является самый верхний интервал, который включает в себя как верхнюю, так и нижнюю границу.
Цели использования квантования
Квантование широко используется во всех областях, где возникает необходимость в обработке, передаче и хранении данных. Квантование — неотъемлемая часть процесса преобразования аналоговых сигналов в цифровые. Квантование позволяет представлять и хранить данные в более компактном и защищенном от искажений виде. Процесс дискретизации заключается в представлении непрерывной функции в виде набора отдельных значений взятых в определенные моменты времени — отсчеты. В результате квантования значения отсчетов преобразуются в номера интервалов квантования, в которые эти значения попали.
Квантование может использоваться для сокращения размерности данных, а именно для уменьшения числа разнообразных значений признака. Например, если для анализа клиентов банка, получающих кредит, интерес представляют не отдельные клиенты и суммы кредитов, а группы, объединяющие клиентов по интервалам сумм, то в результате квантования можно получить более удобный для анализа ряд данных.
Нижняя граница интервала — вместо значения, попавшего в интервал, устанавливается значение его нижней границы.
Верхняя граница интервала — вместо значения, попавшего в интервал, устанавливается значение его верхней границы.
Середина интервала — вместо значения, попавшего в интервал, устанавливается его срединное значение.
Метка интервала — пользователь может задать произвольное значение, обозначающее интервал, например наименование категории, к которой будет относиться объект классификации.
Использование меток интервалов дает возможность сделать результаты квантования более наглядными и сразу определить метки классов, если целью квантования является разбиение признака по категориям.
В квантовании важно правильно выбрать число интервалов. В результате квантования осуществляется переход от точных данных к некоторой интервальной оценке, и при этом неизбежна потеря информации. Фактически ряд значений, полученных в результате квантования, просто выражает отношения между исходными значениями признака. То, что два значения расположены в двух соседних интервалах квантования, не позволяет точно определить, насколько одно из них больше или меньше другого. Можно сказать только, что они не различаются больше чем на две ширины интервала. Следовательно, чем больше интервалов используется при квантовании, тем точнее представление исходных значений данных.
Если квантование выполняется для преобразования непрерывных данных в дискретные, то число интервалов будет определяться числом уникальных значений (меток, категорий), которое используется при решении задачи анализа.
Необходимо учитывать требуемую точность описания данных. Иногда может потребоваться проведение экспериментов, чтобы определить лучшие параметры квантования с точки зрения решения конкретной задачи анализа.
Различают два основных метода квантования:
равномерное (однородное) квантование;
неравномерное (неоднородное) квантование.
При равномерном квантовании диапазон изменения значений признака разделяется на интервалы одинаковой ширины, а при неравномерном ширина интервалов может быть различной.
Первый метод используется, если данные равномерно распределены по всему диапазону их изменения, то есть в результате квантования не будет интервалов, в которых значения почти отсутствуют или заполнены очень плотно. В противном случае лучшие результаты даст второй метод.