
- •1(1). Информация. Данные и знания.
- •2(1). Адекватность информации. Синтаксическая. Семантическая. Прагматическая.
- •4(1). Эволюция технологий анализа данных.
- •5(1). Терминология анализа данных. Понятие модели и моделирования.
- •7(1). Алгоритмы сжатия. Словарное кодирование.
- •Объем требуемой памяти
- •8(1). Статистика. Machine Learning.
- •10(1). Предпосылки возникновения хранилищ данных. Архитектуры.
- •11(1). Oltp и olap системы.
- •12(1). Детализированные и агрегированные данные.
- •13(1). Сравнение схем хд. Звезда и снежинка.
- •14(1). Назначение etl системы.
- •15(1). Очистка данных. Назначение. Классификация проблем в «грязных» данных.
- •16(1). Обогащение данных. Назначение.
- •17(1). Трансформация данных. Назначение.
- •18(1). Цели квантования, выбор числа интервалов квантования, методы квантования.
- •19(1). Основные методы нормализации.
- •20(1). Нормализация с помощью поэлементных преобразований.
- •21(1). Кодирование категориальных данных.
- •22(2). Преобразование даты и времени, группировка и разгруппировка данных.
- •1.(2)Генетический алгоритм. Назначение. Плюсы и минусы
- •2.(2)Генетический алгоритм. Кодирование хромосом
- •3.(2)Генетический алгоритм. Алгоритмы скрещивания и мутации
- •4.(2) Генетический алгоритм. Стратегии. Элитизм. Островная модель
- •5.(2)Нечеткая логика. Фазификация и дефазификация.
- •Принцип построения алгоритма нечеткого вывода.
- •6.(2)Нечеткая логика. Нечеткий логический вывод.
- •8.(2)Регрессия. Назначение и применение
- •11.(2)Ассоциативные правила. Назначение и применение
- •13.(2)Модель нейрона. Сумматор. Функция активации
- •1 . Единичный скачок или жесткая пороговая функция
- •2 . Линейный порог или гистерезис
- •3. Сигмоидальная функция или сигмоид
- •14.(2)Нейронные сети. Многослойный персептрон (mlp).
- •Персептрон
- •15.(2)Нейронные сети. Карты Кохонена.
- •16.(2)Визуализация данных. Графики
- •График рассеивания
- •17.(2)Визуализация данных. Диаграммы.
- •18.(2)Визуализация данных. Гистограммы и статистика
- •20.(2)Визуализация данных. Диаграммы рассеяния
- •22.(2)Специализированые методы визуализации (в примерах).
5(1). Терминология анализа данных. Понятие модели и моделирования.
Анализ данных широкое понятие, Сегодня существуют десятки определений.
В самом общем смысле анализ данных это исследования, связанные с обсчетом многомерной системы данных, имеющей множество параметров.
Слово «модель» (лат, modelium) означает «мера», «способ», «сходство с какой-то вещью»,
Построение моделей универсальный способ изучения окружающего мира, позволяющий обнаруживать зависимости, прогнозировать, разбивать на группы и решать множество других задач. Основная цель моделирования в том, что модель должна достаточно хорошо отображать функционирование моделируемой системы.
Модель - объект или описание объекта, системы для замещения (при определенных условиях, предположениях, гипотезах) одной системы (то есть оригинала) другой системой для лучшего изучения оригинала или воспроизведения каких-либо его свойств.
Моделирование - универсальный метод получения, описания и использования знаний. Применяется в любой профессиональной деятельности.
По виду моделирования модели делят:
- эмпирические полученные на основе эмпирических фактов, зависимостей;
- теоретические полученные на основе математических описаний, законов;
- смешанные, полуэмпирические полученные на основе эмпирических зависимостей и математических описаний,
Таким образом, анализ данных тесно связан с моделированием. Отметим важные свойства любой модели
- Упрощенность. Модель отображает только существенные стороны объекта и, кроме того, должна быть проста для исследования или воспроизведения,
- Конечность. Модель отображает оригинал лишь в конечном числе ero отношений, и, кроме того, ресурсы моделирования конечны,
- Приближенность, Действительность отображается моделью грубо или приближенно.
- Адекватность. Модель должна успешно описывать моделируемую систему.
- Целостность, Модель реализует некоторую систему (то есть целое).
- Замкнутость, Модель учитывает и отображает замкнутую систему необходимых основных rипотез, связей и отношений.
- Управляемость, Модель должна иметь хотя бы один параметр, изменениями котopoгo можно имитировать поведение моделируемой системы в различных условиях.
6(1). Алгоритмы сжатия. Шеннона-Фено, Хафмена, арифметическое кодирование.
Сжатие данных — алгоритмическое преобразование данных, производимое с целью уменьшения их объёма. Обратная процедура называется восстановлением данных (распаковкой, декомпрессией).
Алгоритм Шеннона-Фано — один из первых алгоритмов сжатия. Алгоритм использует коды переменной длины: часто встречающийся символ кодируется кодом меньшей длины, редко встречающийся — кодом большей длины. Кодирование Шеннона — Фано — алгоритм префиксного (т.е. никакое кодовое слово не является префиксом любого другого) неоднородного кодирования. Относится к вероятностным методам сжатия (точнее, методам контекстного моделирования нулевого порядка). Алгоритм Шеннона — Фано использует избыточность сообщения, заключённую в неоднородном распределении частот символов его (первичного) алфавита, то есть заменяет коды более частых символов короткими двоичными последовательностями, а коды более редких символов — более длинными двоичными последовательностями.
Основные этапы:
Символы первичного алфавита m1 выписывают в порядке убывания вероятностей.
Символы полученного алфавита делят на две части, суммарные вероятности символов которых максимально близки друг другу.
В префиксном коде для первой части алфавита присваивается двоичная цифра «0», второй части — «1».
Полученные части рекурсивно делятся и их частям назначаются соответствующие двоичные цифры в префиксном коде.
Когда размер подалфавита становится равен 0 или 1, то дальнейшего удлинения префиксного кода для соответствующих ему символов первичного алфавита не происходит, т.о., алгоритм присваивает различным символам префиксные коды разной длины. На шаге деления алфавита существует неоднозначность, так как разность суммарных вероятностей (p0-p1) может быть одинакова для двух вариантов разделения (учитывая, что все символы первичного алфавита имеют вероятность больше нуля).
Алгоритм Хаффмана – адаптивный жадный алгоритм оптимального префиксного кодирования алфавита минимальной избыточности.
Идея алгоритма состоит в следующем: зная вероятности символов в сообщении, можно описать процедуру построения кодов переменной длины, состоящих из целого количества битов. Символам с большей вероятностью ставятся в соответствие более короткие коды. Коды Хаффмана обладают свойством префиксности (т.е. ни одно кодовое слово не является префиксом другого), что позволяет однозначно их декодировать.
Классический алгоритм Хаффмана на входе получает таблицу частот встречаемости символов в сообщении. Далее на основании этой таблицы строится дерево кодирования Хаффмана (Н-дерево).
Арифметическое кодирование — один из алгоритмов энтропийного сжатия.
В отличие от алгоритма Хаффмана, не имеет жесткого постоянного соответствия входных символов — группам бит выходного потока. Это даёт алгоритму большую гибкость в представлении дробных частот встречаемости символов.
Как правило, превосходит алгоритм Хаффмана по эффективности сжатия, позволяет сжимать данные с энтропией, меньшей 1 бита на кодируемый символ, но некоторые версии имеют патентные ограничения от компании IBM.
Обеспечивает почти оптимальную степень сжатия с точки зрения энтропийной оценки кодирования Шеннона. На каждый символ требуется почти Н бит, где Н —информационная энтропия источника.
Принцип действия:
Пусть имеется некий алфавит, а также данные о частотности использования символов. Тогда рассмотрим на координатной прямой отрезок от 0 до 1. Назовём этот отрезок рабочим. Расположим на нём точки, таким образом, что длины образованных отрезков будут равны частоте использования символа, и каждый такой отрезок будет соответствовать одному символу. Возьмём символ из потока и найдём для него отрезок среди только что сформированных, теперь отрезок для этого символа стал рабочим. Разобьём его таким же образом, как разбили отрезок от 0 до 1. Выполним эту операцию для некоторого числа последовательных символов. Затем выберем любое число из рабочего отрезка. Биты этого числа вместе с длиной его битовой записи и есть результат арифметического кодирования использованных символов потока.