- •Оглавление
- •Об информационно-библиотечной культуре
- •Информация, сведения, данные, знания
- •Появление и развитие информатики
- •Информатика и библиотековедение
- •Измерение и меры информации. Энтропия
- •Лекция 2: Документальные потоки и коммуникация Неформальные и формальные каналы коммуникации
- •Библиотеки, библиография и библиографическое описание
- •Библиотечная и информационная деятельность
- •Тенденции развития основных видов документов
- •Закономерности роста и старения
- •Оценка значимости (влиятельности) ученых и журналов
- •Закон рассеяния статей конкретной тематики по журналам
- •Лекция 3: Инструменты традиционного и сетевого информационного поиска Предыстория и сущность
- •Процедуры и понятия
- •Координатное индексирование
- •Цитирование, библиографическое сочетание, социтирование
- •Рубрикаторы информационных изданий
- •Лекция 4: Электронные ресурсы информации Электронные издания
- •Информационные ресурсы, структуры и инфраструктура
- •Информационные продукты и услуги
- •Лекция 5: Информатизация и информационное общество Основные понятия и проблемы становления информационного общества. Информатизация как процесс перехода к информационному обществу
- •Возникновение, этапы развития и технологические аспекты информатизации
- •Положительные и отрицательные последствия информатизации
- •Программы информатизации
- •Программы информатизации России
- •Электронное правительство
- •Контрольные вопросы
- •Лекция 6: Информационные технологии Представления информации Сообщение как материальная форма представления информации
- •Формы сообщений (сигналы, изображения, знаки, языковые сообщения)
- •Основные понятия теории формальных языков
- •Модели источников сообщений. Конечный вероятностный источник сообщений
- •Кодирование сообщений источника и текстов. Равномерное кодирование. Дерево кода
- •Префиксные коды
- •Необходимые и достаточные условия существования префиксного кода с заданными длинами кодовых слов. Неравенство Крафта
- •Методы построения кодов. Код Фано
- •Избыточность кодирования. Нижняя граница средней длины кодирования
- •Оптимальное кодирование, свойства оптимальных кодов, построение оптимальных кодов методом Хафмена
- •Лекция 7: Передача информации Модель процесса передачи. Двоичный симметричный канал
- •Способы повышения надежности передачи сообщений
- •Принципы обнаружения и исправления ошибок с использованием кодов
- •Расстояние Хеминга и корректирующие возможности кодов
- •Оценки верхних границ корректирующих способностей кодов
- •Особенности векторных пространств над конечным полем gf(2). Линейный групповой код
- •Построение линейного кода по заданной порождающей матрице
- •Декодирование линейного кода по синдрому
Модели источников сообщений. Конечный вероятностный источник сообщений
Большинство информационных процессов связано не с отдельными сообщениями, а с последовательностями (потоками) сообщений. Например, при чтении человек анализирует последовательность букв, образующих слова и текст в целом; данные, поступающие от измерительных устройств или передающиеся по каналам связи, представляют собой последовательности сообщений. Для описания (моделирования) подобных ситуаций удобно ввести формальное понятие конечного (комбинаторного)источника сообщений.
Конечным (комбинаторным) источником называется произвольное множество . Элементы множестваобычно называются сообщениями. Источник может породить любое из этих сообщений.
В некоторых случаях бывает известно, что в последовательностях сообщений одни сообщения встречаются чаще, чем другие. Например, в текстах на русском языке буквы "о", "е" встречаются более чем в 10 раз чаще букв "щ", "э", "ф" [30]. В других естественных языках наблюдается аналогичная ситуация. Использование дополнительной информации о частотах появления сообщений вероятностного источника может повысить эффективность обработки данных.
Формализацией понятия частоты появления того или иного события в математике является его вероятность. Вероятность события обозначают обычно символом. Вероятность некоторого события (сообщения) можно представлять себе как долю тех случаев, в которых оно появляется, от общего числа появившихся событий (сообщений).
Так, если заданы четыре сообщения с вероятностями, то это означает, что среди, например, 10000 переданных сообщений около 5000 раз появляется сообщение, около 3750 - сообщениеи примерно по 625 раз - каждое из сообщенийи.
Распределение вероятностей появления отдельных сообщений в последовательности является важной ее характеристикой и существенно влияет на дальнейшие процессы обработки сообщений. Для дальнейшего удобно ввести формальное понятие конечного вероятностного источника сообщений.
Вероятностным источником назовем произвольное множество (сообщений) с вероятностями (частотами) появления каждого из них. Удобно представлять вероятностный источник в виде таблицы.
Вероятностный источник сообщений
Сообщение | ||||
Вероятность появления сообщения |
С позиций теории вероятностей вероятностный источник представляет собой дискретное распределение.
Характерной особенностью вероятностного источника является отсутствие полной определенности в поступлении очередного сообщения источника. Степень неопределенности для различных источников может значительно отличаться. Например, если рассматривать в качестве источника номера лотерейных билетов, крайне трудно определить номер оче-редного выигрышного билета. Однако если сообщениями источника считать исходы розыгрыша крупного выигрыша (автомобиля или квартиры) для конкретного билета, то сообщение такого источника предсказать не трудно. Скорее всего, на данный лотерейный билет крупного выигрыша не будет.
Для практики желательно уметь оценивать степень неопределенности различных вероятностных источников. Рассмотрим источник с равновероятными сообщениями. Понятно, что степень неопределенности такого источника зависит от. Принеопределенность отсутствует, т. к. может появиться только одно единственное сообщение. При большихнеопределенность больше (трудно предсказать появление какого-то определенного сообщения извозможных). Из рассмотренного примера следует, что функция, описывающая неопределенность источника, должна принимать нулевое значение в случае отсутствия неопределенности (при), а при увеличенииона должна возрастать. Можно показать[31], что, наложив ряд простых и естественных требований на функцию, которая должна характеризовать неопределенность вероятностного источника, можно определить вид такой функции.
Неопределенность вероятностного источника с множеством сообщений, вероятности появления которых равнысоответственно, принято описывать функцией (величиной)
( 6.1) |
Величина называетсяэнтропией источника сообщений . К. Шеннон предложил использоватьэнтропию для описания источников информации [30].
Неопределенность источника можно трактовать как его информативность. Действительно, если неопределенность источника мала или даже равна 0, то очередное сообщение не несет новой информации, т. к. легко может быть предсказано заранее. И наоборот, очередное сообщение неопределенного источника плохо предсказуемо, скорей всего оно будет новым, отличным от любого ожидаемого сообщения.
Входящее в выражение (6.1) для энтропии выражение можно рассматривать как информативность (неопределенность)-го сообщения источника, поскольку оно вполне соответствует интуитивному представлению о неопределенности.Энтропию можно рассматривать как среднюю информативность всего источника .
От вероятностного источника зависит выбор оптимального в среднем способа кодирования сообщений.