Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информатика учебное пособие часть 1.doc
Скачиваний:
31
Добавлен:
16.09.2019
Размер:
882.18 Кб
Скачать

3.5 Информация и алфавит

Рассматривая формы представления информации, отметили то обстоятельство, что естественным для органов чувств человека является аналоговая форма. Но универсальным все же следует считать дискретную форму представления информации с помощью некоторого набора знаков.

Сообщение – последовательность знаков некоторого алфавита. Появление конкретного знака в конкретном месте сообщения – явление случайное. Следовательно, узнавание знака требует получения некоторой информации. Можно связать эту информацию с самим знаком и считать, что знак несет в себе некоторое количество информации.

Попробуем оценить это количество.

Самое грубое (нулевое) приближение – предположим, что появление всех знаков алфавита – равновероятно.

Тогда для английского алфавита (26 букв + пробел):

I0 еn= log227 = 4.755 бит, для русского – I0 ru= log234 = 5.087.

Получается, что со знаком русского алфавита в среднем связано больше информации, чем со знаком английского. (В русской букве «а» информации больше, чем в английской). Это, конечно, не означает, что английский язык беднее русского (лингвистическое богатство языка определяется количеством слов и их сочетаний, и никак не связано с числом букв в алфавите).

С точки зрения техники это означает, что сообщения из равного количества символов будут иметь различную длину (и время передачи) и большими они окажутся у сообщения на русском языке.

Уточним нулевую оценку.

Относительная частота, то есть вероятность появления различных букв в тексте (сообщении) – различна. Средние частоты букв для русского алфавита (не различаются е/ё и ь/ъ знаки – то есть 32 символа) приведены в табл.3.1. (Яглом А.М., Яглом И.М. Вероятность и информация)

Таблица 3.1

Буква

Пробел

о

е, ё

а

и

т

н

с

р

в

л

Относительная частота

0,175

0,090

0,072

0,062

0,062

0,053

0,053

0,045

0,040

0,038

0,035

Буква

к

м

д

п

у

л

ы

з

ь, ъ

б

г

Относительная частота

0,028

0,026

0,025

0,023

0,021

0,018

0,016

0,016

0,014

0,014

0,013

Буква

ч

й

х

ж

ю

ш

ц

щ

э

ф

Относительная частота

0,012

0,010

0,009

0,007

0,006

0,006

0,004

0,003

0,003

0,002

Если рi – вероятность знака с номером i данного алфавита из N знаков, то среднее количество информации, приходящееся на один знак, равно:

. (3.8)

Это и есть знаменитая формула К. Шеннона, с работы которого: «Математическая теория связи» (1948 г.) принято начинать отсчет возраста информатики как самостоятельной науки.

В нашей стране практически одновременно с Шенноном велись подобные исследования, например, в 1948 г. вышла работа А.И. Колмогорова «Математическая теория передачи информации».

Сообщения, в которых вероятность появления каждого отдельного знака не меняется со временем, называется шенноновским, а порождающий их отправитель – шенноновский источник.

Если сообщение является шенноновским, то набор знаков и связанная с каждым знаком информация известны заранее. В этом случае интерпретация сообщения сводится к задаче распознавания знака. А такая задача может быть решена серией парных выборов. При этом количество информации, содержащееся в знаке, служит мерой затрат по его выявлению.

Для русского языка значение средней информации на знак бит, английского бит, французского бит, немецкого бит, испанского .

Несовпадение средних значений информации для английского, французского и немецкого языков, основанных на одном алфавите, связано с тем, что частоты появления одинаковых букв в них различны.

Следующее приближение при оценке значения информации на знак учитывает корреляции (то есть связи между буквами) в словах. В словах буквы появляются не в любых сочетаниях; это понижает неопределенность угадывания следующей буквы. Например, в русском языке нет слов, в которых встречаются сочетания «фш», «шц» или «фъ». И, напротив, после некоторых сочетаний можно с большей определенностью судить о появлении следующей буквы. Например, после сочетания пр- всегда следует гласная буква, а их всего 10 и, следовательно, вероятность угадывания следующей буквы 1/10, а не 1/33.

Учет двухбуквенных сочетаний дает оценку для английского языка , а трехбуквенных .

Шеннон дал приближенные оценки для пяти- бит, и восьми- бит буквенных сочетаний английского языка.

Аналогичные исследования для русского языка дают

бит, бит.

Последовательность I0, I1, …, In – является убывающей в любом языке.

Можно оценить предельную информацию на знак в данном языке I , которая будет отражать минимальную неопределенность, связанную с выбором знака алфавита без учета семантических особенностей языка. В то же время I0 является другим предельным случаем, поскольку характеризует наибольшую информацию, которая может содержаться в знаке данного алфавита.

Шеннон ввел величину, которую назвал относительной избыточностью языков R= 1 .

Избыточность является мерой бесполезно совершаемых альтернативных выборов при чтении текста. Эта величина показывает, какую долю лишней информации содержат тексты данного языка; лишней в том отношении, что она определяется структурой самого языка и, следовательно, может быть восстановлена без явного указания в буквенном виде.

Исследования Шеннона для английского языка дали значение

I=1.4 1.5 бит, что дает R=0,68.

Подобные оценки показывают, что и для других европейских языков, в том числе русского, избыточность составляет 60-70%. Это означает, что в принципе возможно почти трехкратное (!!) сокращение текстов без ущерба для их содержательной стороны и выразительности.

Например, текст «Таким образом, минимальное содержание уровня кислоты определяется температурой окружающей среды» может быть без ущерба для понимания сокращен до текста «Т.о. мин. сод-е ур-ня кислоты опр-ся темп-рой окруж. среды»

Такое «экономичное» представление слов снижает разборчивость языка, уменьшает возможность понимания речи при наличии шума (помех), а также исключает возможность локализации и исправления ошибки при ее возникновении.

Именно избыточность языка позволяет легко восстановить текст, даже если он содержит большое число ошибок или неполон (кроссворды, поле чудес). Избыточность – определенная страховка и гарантия разборчивости.

Контрольные вопросы.

1. Мы отгадываем задуманное кем-то двузначное число.

а) Какое количество информации требуется для отгадывания всего числа?

б) Какова оптимальная последовательность вопросов?

в) Изменится ли требуемое количество информации, если будем отгадывать не всё число сразу, а по очереди – сначала первую цифру, потом вторую?

г) Одинакова ли информация, необходимая для отгадывания первой и второй цифр?

2. Источник порождает множество шестизначных сообщений, каждое из которых содержит 1 знак *, 2 знака % и 3 знака !. Какое количество информации содержится в каждом сообщении?

3. С какой буквой русского алфавита «а» или «б» связано больше информации? Найдите ее.

4. Средняя длина слова в русском языке 5.3 буквы, в английском 4.5. Найдите вероятности появления в соответствующих текстах пробелов. Какое количество информации связано с пробелом в обоих языках?

5. Считая частоту появления символов постоянной, определить количество информации, приходящееся на букву для сообщения «МАМА МЫЛА РАМУ»