
- •1(1). Информация. Данные и знания.
- •2(1). Адекватность информации. Синтаксическая. Семантическая. Прагматическая.
- •4(1). Эволюция технологий анализа данных.
- •5(1). Терминология анализа данных. Понятие модели и моделирования.
- •7(1). Алгоритмы сжатия. Словарное кодирование.
- •Объем требуемой памяти
- •8(1). Статистика. Machine Learning.
- •10(1). Предпосылки возникновения хранилищ данных. Архитектуры.
- •11(1). Oltp и olap системы.
- •12(1). Детализированные и агрегированные данные.
- •13(1). Сравнение схем хд. Звезда и снежинка.
- •14(1). Назначение etl системы.
- •15(1). Очистка данных. Назначение. Классификация проблем в «грязных» данных.
- •16(1). Обогащение данных. Назначение.
- •17(1). Трансформация данных. Назначение.
- •18(1). Цели квантования, выбор числа интервалов квантования, методы квантования.
- •19(1). Основные методы нормализации.
- •20(1). Нормализация с помощью поэлементных преобразований.
- •21(1). Кодирование категориальных данных.
- •22(2). Преобразование даты и времени, группировка и разгруппировка данных.
- •1.(2)Генетический алгоритм. Назначение. Плюсы и минусы
- •2.(2)Генетический алгоритм. Кодирование хромосом
- •3.(2)Генетический алгоритм. Алгоритмы скрещивания и мутации
- •4.(2) Генетический алгоритм. Стратегии. Элитизм. Островная модель
- •5.(2)Нечеткая логика. Фазификация и дефазификация.
- •Принцип построения алгоритма нечеткого вывода.
- •6.(2)Нечеткая логика. Нечеткий логический вывод.
- •8.(2)Регрессия. Назначение и применение
- •11.(2)Ассоциативные правила. Назначение и применение
- •13.(2)Модель нейрона. Сумматор. Функция активации
- •1 . Единичный скачок или жесткая пороговая функция
- •2 . Линейный порог или гистерезис
- •3. Сигмоидальная функция или сигмоид
- •14.(2)Нейронные сети. Многослойный персептрон (mlp).
- •Персептрон
- •15.(2)Нейронные сети. Карты Кохонена.
- •16.(2)Визуализация данных. Графики
- •График рассеивания
- •17.(2)Визуализация данных. Диаграммы.
- •18.(2)Визуализация данных. Гистограммы и статистика
- •20.(2)Визуализация данных. Диаграммы рассеяния
- •22.(2)Специализированые методы визуализации (в примерах).
7(1). Алгоритмы сжатия. Словарное кодирование.
Алгоритмы сжатия |
||
Без потерь(неискажающие) |
||
Общее описание |
Примеры алгоритмов |
|
гарантируют, что декодированные данные будут в точности совпадать с исходными;
|
Дельта-кодирование — эффективно для сжатия данных, в которых последовательности часто повторяются. Инкрементное кодирование — дельта-кодирование,применяемое к последовательности строк. Алгоритм Шеннона — Фано - часто встречающийся символ кодируется кодом меньшей длины, редко встречающийся — кодом большей длины. Алгоритм Хаффмана
|
|
С потерями(искажающие) |
||
Общее описание |
Примеры алгоритмов |
|
могут искажать исходные данные, например за счет удаления несущественной части данных, после чего полное восстановление невозможно |
Вейвлетное сжатие — общее название класса методов кодирования изображений, использующих двумерное вейвлет разложение кодируемого изображения или его частей. Обычно подразумевается сжатие с потерей качества.Фрактальное сжатие изображений — алгоритм сжатия изображений c потерями, основанный на применении систем итерируемых функций (как правило являющимися аффинными преобразованиями) к изображениям. Мю-закон - в телекоммуникациях (μ-закон) — алгоритм аналогового сжатия, используемый в системах цифровой связи Северной Америки и Японии для модификации динамического диапазона аналогового речевого сигнала до оцифровки.
|
Свойства алгоритмов сжатия
качество (коэффициент или степень) сжатия, т. е. отношение длины (в битах) сжатого представления данных к длине исходного представления;
скорость кодирования и декодирования, определяемые временем, затрачиваемым на кодирование и декодирование данных
Объем требуемой памяти
закон рычага: алгоритмы, использующие больше ресурсов (времени и памяти), обычно достигают лучшего качества сжатия, и наоборот: менее ресурсоемкие алгоритмы по качеству сжатия, как правило, уступают более ресурсоемким.
Алгоритмы словарного сжатия
Алгоритмы словарного сжатия заменяют подстроки кодируемой последовательности символов ссылками в словарь на идентичные подстроки. С практической точки зрения наилучшими представляются алгоритмы семейства LZ(впервые предложенные Лемпелом и Зивом в 1977г.), которые заменяют начало не просмотренной части кодируемого сообщения ссылкой на самое длинное вхождение идентичной подстроки в уже закодированной части.
Обычно для ускорения поиска совпадающих подстрок и ограничения объема требуемой памяти область поиска ограничивается определенным количеством последних символов закодированной части: такая модификация LZ77 называется LZ77 со скользящим окном (LZ77 with sliding window).
Алгоритмы семейства LZ в 1.3-1.7 раза уступают методам статистического моделирования по качеству сжатия, однако обладают очень высокой скоростью кодирования при сравнительно небольшом объеме требуемой памяти.
Огромное преимущество алгоритмов семейства LZ – чрезвычайно высокая скорость декодирования. Это позволяет применять их в тех случаях, когда декодирование осуществляется гораздо чаще кодирования или скорость декодирования очень важна (например, при хранении данных на CD-ROM, в файловых системах со сжатием и т. д.).
Большая часть современных промышленных систем сжатия данных построено на основе различных вариантов алгоритма LZ77, в течение многих лет заслуженно считавшихся наилучшими по соотношению скорости и качества сжатия.