- •Введение
- •1. Предмет информатики
- •1.1 Роль информации в современном обществе
- •1.2 Информационные барьеры в истории человечества
- •1.3 Предметная область информатики
- •2. Теория информации
- •2.1 Исходные понятия теории информации
- •2.2 Формы представления информации
- •2.3 Преобразование сообщений
- •3. Понятие информации в теории Шеннона
- •3.1 Понятие энтропии
- •3.2 Условная энтропия
- •3.3 Статистическое определение информации
- •3.4 Энтропия и информация
- •3.5 Информация и алфавит
- •4. Кодирование символьной информации
- •4.1 Постановка задачи кодирования. Первая теорема Шеннона
- •4.2 Алфавитное неравномерное двоичное кодирование сигналами равной длительности
- •4.2.1 Неравномерный код с разделителем
- •4.2.2 Префиксное неравномерное кодирование
- •4.3 Равномерное алфавитное двоичное кодирование. Байтовый код
- •4.4 Алфавитное кодирование с неравной длительностью элементарных сигналов. Код Морзе
- •4.5 Блочное двоичное кодирование
- •5. Кодирование и представление чисел в компьютере
- •5.1 Системы счисления
- •5.2 Перевод чисел из одной системы счисления в другую
- •5.3 Перевод чисел между системами счисления с основанием 2k
- •5.4 Формы представления вещественных чисел
- •5.5 Кодирование целых чисел в компьютере
- •5.5.1 Кодирование в компьютере целых чисел без знака
- •5.5.2 Кодирование в компьютере целых чисел со знаком
- •5.6 Кодирование в компьютере вещественных чисел
- •5.7 Двоично-десятичные коды
- •5.7.1 Код (8421) – код прямого замещения
- •6. Обработка чисел в компьютере
- •6.1 Выполнение операций сложения
- •6.2 Сложение нормализованных чисел
- •6.3 Выполнение операции умножения
- •6.3.1 Общий алгоритм умножения
- •6.3.2 Особенности умножения в форме с плавающей запятой
- •6.4 Деление чисел
- •7. Кодирование графической и звуковой информации
- •7.1 Представление изображений
- •7.2 Представление звука
- •Список литературы
- •Родина Наталья Васильевна Информатика
- •Часть 1
- •107846, Москва, ул.Стромынка, 20
3.5 Информация и алфавит
Рассматривая формы представления информации, отметили то обстоятельство, что естественным для органов чувств человека является аналоговая форма. Но универсальным все же следует считать дискретную форму представления информации с помощью некоторого набора знаков.
Сообщение – последовательность знаков некоторого алфавита. Появление конкретного знака в конкретном месте сообщения – явление случайное. Следовательно, узнавание знака требует получения некоторой информации. Можно связать эту информацию с самим знаком и считать, что знак несет в себе некоторое количество информации.
Попробуем оценить это количество.
Самое грубое (нулевое) приближение – предположим, что появление всех знаков алфавита – равновероятно.
Тогда для английского алфавита (26 букв + пробел):
I0 еn= log227 = 4.755 бит, для русского – I0 ru= log234 = 5.087.
Получается, что со знаком русского алфавита в среднем связано больше информации, чем со знаком английского. (В русской букве «а» информации больше, чем в английской). Это, конечно, не означает, что английский язык беднее русского (лингвистическое богатство языка определяется количеством слов и их сочетаний, и никак не связано с числом букв в алфавите).
С точки зрения техники это означает, что сообщения из равного количества символов будут иметь различную длину (и время передачи) и большими они окажутся у сообщения на русском языке.
Уточним нулевую оценку.
Относительная частота, то есть вероятность появления различных букв в тексте (сообщении) – различна. Средние частоты букв для русского алфавита (не различаются е/ё и ь/ъ знаки – то есть 32 символа) приведены в табл.3.1. (Яглом А.М., Яглом И.М. Вероятность и информация)
Таблица 3.1
Буква |
Пробел |
о |
е, ё |
а |
и |
т |
н |
с |
р |
в |
л |
Относительная частота |
0,175 |
0,090 |
0,072 |
0,062 |
0,062 |
0,053 |
0,053 |
0,045 |
0,040 |
0,038 |
0,035 |
Буква |
к |
м |
д |
п |
у |
л |
ы |
з |
ь, ъ |
б |
г |
Относительная частота |
0,028 |
0,026 |
0,025 |
0,023 |
0,021 |
0,018 |
0,016 |
0,016 |
0,014 |
0,014 |
0,013 |
Буква |
ч |
й |
х |
ж |
ю |
ш |
ц |
щ |
э |
ф |
|
Относительная частота |
0,012 |
0,010 |
0,009 |
0,007 |
0,006 |
0,006 |
0,004 |
0,003 |
0,003 |
0,002 |
|
Если рi – вероятность знака с номером i данного алфавита из N знаков, то среднее количество информации, приходящееся на один знак, равно:
. (3.8)
Это и есть знаменитая формула К. Шеннона, с работы которого: «Математическая теория связи» (1948 г.) принято начинать отсчет возраста информатики как самостоятельной науки.
В нашей стране практически одновременно с Шенноном велись подобные исследования, например, в 1948 г. вышла работа А.И. Колмогорова «Математическая теория передачи информации».
Сообщения, в которых вероятность появления каждого отдельного знака не меняется со временем, называется шенноновским, а порождающий их отправитель – шенноновский источник.
Если сообщение является шенноновским, то набор знаков и связанная с каждым знаком информация известны заранее. В этом случае интерпретация сообщения сводится к задаче распознавания знака. А такая задача может быть решена серией парных выборов. При этом количество информации, содержащееся в знаке, служит мерой затрат по его выявлению.
Для русского языка значение средней информации на знак бит, английского бит, французского бит, немецкого бит, испанского .
Несовпадение средних значений информации для английского, французского и немецкого языков, основанных на одном алфавите, связано с тем, что частоты появления одинаковых букв в них различны.
Следующее приближение при оценке значения информации на знак учитывает корреляции (то есть связи между буквами) в словах. В словах буквы появляются не в любых сочетаниях; это понижает неопределенность угадывания следующей буквы. Например, в русском языке нет слов, в которых встречаются сочетания «фш», «шц» или «фъ». И, напротив, после некоторых сочетаний можно с большей определенностью судить о появлении следующей буквы. Например, после сочетания пр- всегда следует гласная буква, а их всего 10 и, следовательно, вероятность угадывания следующей буквы 1/10, а не 1/33.
Учет двухбуквенных сочетаний дает оценку для английского языка , а трехбуквенных .
Шеннон дал приближенные оценки для пяти- бит, и восьми- бит буквенных сочетаний английского языка.
Аналогичные исследования для русского языка дают
бит, бит.
Последовательность I0, I1, …, In – является убывающей в любом языке.
Можно оценить предельную информацию на знак в данном языке I , которая будет отражать минимальную неопределенность, связанную с выбором знака алфавита без учета семантических особенностей языка. В то же время I0 является другим предельным случаем, поскольку характеризует наибольшую информацию, которая может содержаться в знаке данного алфавита.
Шеннон ввел величину, которую назвал относительной избыточностью языков R= 1 .
Избыточность является мерой бесполезно совершаемых альтернативных выборов при чтении текста. Эта величина показывает, какую долю лишней информации содержат тексты данного языка; лишней в том отношении, что она определяется структурой самого языка и, следовательно, может быть восстановлена без явного указания в буквенном виде.
Исследования Шеннона для английского языка дали значение
I=1.4 1.5 бит, что дает R=0,68.
Подобные оценки показывают, что и для других европейских языков, в том числе русского, избыточность составляет 60-70%. Это означает, что в принципе возможно почти трехкратное (!!) сокращение текстов без ущерба для их содержательной стороны и выразительности.
Например, текст «Таким образом, минимальное содержание уровня кислоты определяется температурой окружающей среды» может быть без ущерба для понимания сокращен до текста «Т.о. мин. сод-е ур-ня кислоты опр-ся темп-рой окруж. среды»
Такое «экономичное» представление слов снижает разборчивость языка, уменьшает возможность понимания речи при наличии шума (помех), а также исключает возможность локализации и исправления ошибки при ее возникновении.
Именно избыточность языка позволяет легко восстановить текст, даже если он содержит большое число ошибок или неполон (кроссворды, поле чудес). Избыточность – определенная страховка и гарантия разборчивости.
Контрольные вопросы.
1. Мы отгадываем задуманное кем-то двузначное число.
а) Какое количество информации требуется для отгадывания всего числа?
б) Какова оптимальная последовательность вопросов?
в) Изменится ли требуемое количество информации, если будем отгадывать не всё число сразу, а по очереди – сначала первую цифру, потом вторую?
г) Одинакова ли информация, необходимая для отгадывания первой и второй цифр?
2. Источник порождает множество шестизначных сообщений, каждое из которых содержит 1 знак *, 2 знака % и 3 знака !. Какое количество информации содержится в каждом сообщении?
3. С какой буквой русского алфавита «а» или «б» связано больше информации? Найдите ее.
4. Средняя длина слова в русском языке 5.3 буквы, в английском 4.5. Найдите вероятности появления в соответствующих текстах пробелов. Какое количество информации связано с пробелом в обоих языках?
5. Считая частоту появления символов постоянной, определить количество информации, приходящееся на букву для сообщения «МАМА МЫЛА РАМУ»