9.5. Моделирование и энтропия

Одним из наиболее важных достижений в теории сжатия за последнее десятилетие явилась идея разделения процесса на две части: на кодирование, при котором непосредственно производится сжатый поток битов, и на моделирование, которое поставляет информацию кодированию. Эти две раздельные части названы кодированием и моделированием. Моделирование присваивает вероятности символам, а кодирование переводит эти вероятности в последовательность битов. К сожалению, последнее понятие нетрудно спутать, поскольку "кодирование" часто используют в широком смысле для обозначения всего процесса сжатия (включая моделирование). Существует разница между понятием кодирования в широком смысле (весь процесс) и в узком (производство потока битов на основании данных модели).

Связь между вероятностями и кодами установлена в теореме Шеннона кодирования истоточника, которая показывает, что символ, ожидаемая вероятность появления которого есть p, лучше всего представить -log p битами. Поэтому символ с высокой вероятностью кодируется несколькими битами, тогда как маловероятный требует многих битов. Мы можем получить ожидаемую длину кода посредством усреднения всех возможных символов, даваемого формулой:

H=-∑ p(i) log p(i) .

Это значение называется энтропией распределения вероятности, т.к. это мера количества порядка (или беспорядка) в символах.

Задачей моделирования является оценка вероятности для каждого символа. Из этих вероятностей может быть вычислена энтропия. Очень важно отметить, что энтропия есть свойство модели. В данной модели оцениваемая вероятность символа иногда называется кодовым пространством, выделяемым символу, и соответствует распределению интервала (0,1) между символами, и чем больше вероятность символа, тем больше такого "пространства" отбирается у других символов.

Наилучшая средняя длина кода достигается моделями, в которых оценки вероятности как можно более точны. Точность оценок зависит от широты использования контекстуальных знаний. Например, вероятность нахождения буквы "о" в тексте, о котором известно только то, что он на английском языке, может быть оценена на основании того, что в случайно выбранных образцах английских текстов 6% символов являются буквами "о". Это сводится к коду для "о", длиной 4.17. Для контраста, если мы имеем фразу "to be or not t", то оценка вероятности появления буквы "о" будет составлять 99% и ее можно закодировать через 0.014 бита. Большего можно достичь, формируя более точные модели текста. Практические модели лежат между двумя крайностями этих примеров.

Модель по существу есть набор вероятностей распределения, по одному на каждый контекст, на основании которого символ может быть закодирован. Контексты называются классами условий, т.к. они определяют оценки вероятности. Нетривиальная модель может содержать тысячи классов условий.

9.6. Адаптированные и неадаптированные модели

В порядке функционального соответствия декодировщик должен иметь доступ к той же модели, что и кодировщик. Для достижения этого есть три способа моделирования: статичное, полуадаптированное и адаптированное.

Статичное моделирование использует для всех текстов одну и ту же модель. Она задается при запуске кодировщика, возможно на основании образцов типа ожидаемого текста. Такая же копия модели хранится вместе с декодировщиком. Недостаток состоит в том, что схема будет давать неограниченно плохое сжатие всякий раз, когда кодируемый текст не вписывается в выбранную модель, поэтому статичное моделирование используют только тогда, когда важны в первую очередь скорость и простота реализации.

Полуадаптированное моделирование решает эту проблему, используя для каждого текста свою модель, которая строится еще до самого сжатия на основании результатов предварительного просмотра текста (или его образца). Перед тем как окончено формирование сжатого текста, модель должна быть передана pаскодиpовщику. Несмотря на дополнительные затраты по передаче модели, эта стратегия в общем случае окупается благодаря лучшему соответствию модели тексту.

Адаптированное (или динамическое) моделирование уходит от связанных с этой передачей расходов. Первоначально и кодировщик, и раскодировщик присваивают себе некоторую пустую модель, как если бы символы все были равновероятными. Кодировщик использует эту модель для сжатия очередного символа, а раскодировщик - для его разворачивания. Затем они оба изменяют свои модели одинаковым образом (например, наращивая вероятность рассматриваемого символа). Следующий символ кодируется и достается на основании новой модели, а затем снова изменяет модель. Кодирование продолжается аналогичным раскодированию образом, которое поддерживает идентичную модель за счет применения такого же алгоритма ее изменения, обеспечивает отсутствие ошибок во время кодирования. Используемая модель, которую к тому же не нужно передавать явно, будет хорошо соответствовать сжатому тексту.

Адаптированные модели представляют собой элегантную и эффективную технику и обеспечивают сжатие, по крайней мере не худшее производимого неадаптированными схемами. Оно может быть значительно лучше, чем у плохо соответствующих текстам статичных моделей. Адаптированные модели, в отличие от полуадаптиpованных, не производят их предварительного просмотра, являясь поэтому более привлекательными и с лучшим сжатием. Т.о. алгоритмы, описываемые в дальнейшем, при кодировании и декодировании будут выполняться одинаково. Модель никогда не передается явно, поэтому сбой происходит только в случае нехватки под нее памяти.

<<< < Предыдущая 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 2425 / 3125 26 27 28 29 30 31 > Следующая >>>

Соседние файлы в папке Структуры данных

#
23.02.2015189.44 Кб45Лабораторный практикум ДО.doc
#
23.02.20151.29 Mб47Си структуры данных1.doc
#
23.02.20151.36 Mб112Си структуры данных2.doc
#
23.02.20156.53 Mб46Сортировки доп.doc