Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский гуманитарно-экономический институт

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Информатика учебное пособие часть 1.doc

Скачиваний:

Добавлен:

16.09.2019

Размер:

882.18 Кб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 910 / 2810 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

3.5 Информация и алфавит

Рассматривая формы представления информации, отметили то обстоятельство, что естественным для органов чувств человека является аналоговая форма. Но универсальным все же следует считать дискретную форму представления информации с помощью некоторого набора знаков.

Сообщение – последовательность знаков некоторого алфавита. Появление конкретного знака в конкретном месте сообщения – явление случайное. Следовательно, узнавание знака требует получения некоторой информации. Можно связать эту информацию с самим знаком и считать, что знак несет в себе некоторое количество информации.

Попробуем оценить это количество.

Самое грубое (нулевое) приближение – предположим, что появление всех знаков алфавита – равновероятно.

Тогда для английского алфавита (26 букв + пробел):

I₀ ^еⁿ= log₂27 = 4.755 бит, для русского – I₀ ^ru= log₂34 = 5.087.

Получается, что со знаком русского алфавита в среднем связано больше информации, чем со знаком английского. (В русской букве «а» информации больше, чем в английской). Это, конечно, не означает, что английский язык беднее русского (лингвистическое богатство языка определяется количеством слов и их сочетаний, и никак не связано с числом букв в алфавите).

С точки зрения техники это означает, что сообщения из равного количества символов будут иметь различную длину (и время передачи) и большими они окажутся у сообщения на русском языке.

Уточним нулевую оценку.

Относительная частота, то есть вероятность появления различных букв в тексте (сообщении) – различна. Средние частоты букв для русского алфавита (не различаются е/ё и ь/ъ знаки – то есть 32 символа) приведены в табл.3.1. (Яглом А.М., Яглом И.М. Вероятность и информация)

Таблица 3.1

Буква	Пробел	о	е, ё	а	и	т	н	с	р	в	л
Относительная частота	0,175	0,090	0,072	0,062	0,062	0,053	0,053	0,045	0,040	0,038	0,035
Буква	к	м	д	п	у	л	ы	з	ь, ъ	б	г
Относительная частота	0,028	0,026	0,025	0,023	0,021	0,018	0,016	0,016	0,014	0,014	0,013
Буква	ч	й	х	ж	ю	ш	ц	щ	э	ф
Относительная частота	0,012	0,010	0,009	0,007	0,006	0,006	0,004	0,003	0,003	0,002

Если р_i – вероятность знака с номером i данного алфавита из N знаков, то среднее количество информации, приходящееся на один знак, равно:

. (3.8)

Это и есть знаменитая формула К. Шеннона, с работы которого: «Математическая теория связи» (1948 г.) принято начинать отсчет возраста информатики как самостоятельной науки.

В нашей стране практически одновременно с Шенноном велись подобные исследования, например, в 1948 г. вышла работа А.И. Колмогорова «Математическая теория передачи информации».

Сообщения, в которых вероятность появления каждого отдельного знака не меняется со временем, называется шенноновским, а порождающий их отправитель – шенноновский источник.

Если сообщение является шенноновским, то набор знаков и связанная с каждым знаком информация известны заранее. В этом случае интерпретация сообщения сводится к задаче распознавания знака. А такая задача может быть решена серией парных выборов. При этом количество информации, содержащееся в знаке, служит мерой затрат по его выявлению.

Для русского языка значение средней информации на знак бит, английского бит, французского бит, немецкого бит, испанского .

Несовпадение средних значений информации для английского, французского и немецкого языков, основанных на одном алфавите, связано с тем, что частоты появления одинаковых букв в них различны.

Следующее приближение при оценке значения информации на знак учитывает корреляции (то есть связи между буквами) в словах. В словах буквы появляются не в любых сочетаниях; это понижает неопределенность угадывания следующей буквы. Например, в русском языке нет слов, в которых встречаются сочетания «фш», «шц» или «фъ». И, напротив, после некоторых сочетаний можно с большей определенностью судить о появлении следующей буквы. Например, после сочетания пр- всегда следует гласная буква, а их всего 10 и, следовательно, вероятность угадывания следующей буквы 1/10, а не 1/33.

Учет двухбуквенных сочетаний дает оценку для английского языка , а трехбуквенных .

Шеннон дал приближенные оценки для пяти- бит, и восьми- бит буквенных сочетаний английского языка.

Аналогичные исследования для русского языка дают

бит, бит.

Последовательность I₀, I₁, …, I_n – является убывающей в любом языке.

Можно оценить предельную информацию на знак в данном языке I_, которая будет отражать минимальную неопределенность, связанную с выбором знака алфавита без учета семантических особенностей языка. В то же время I₀является другим предельным случаем, поскольку характеризует наибольшую информацию, которая может содержаться в знаке данного алфавита.

Шеннон ввел величину, которую назвал относительной избыточностью языков R= 1 .

Избыточность является мерой бесполезно совершаемых альтернативных выборов при чтении текста. Эта величина показывает, какую долю лишней информации содержат тексты данного языка; лишней в том отношении, что она определяется структурой самого языка и, следовательно, может быть восстановлена без явного указания в буквенном виде.

Исследования Шеннона для английского языка дали значение

I_=1.4 1.5 бит, что дает R=0,68.

Подобные оценки показывают, что и для других европейских языков, в том числе русского, избыточность составляет 60-70%. Это означает, что в принципе возможно почти трехкратное (!!) сокращение текстов без ущерба для их содержательной стороны и выразительности.

Например, текст «Таким образом, минимальное содержание уровня кислоты определяется температурой окружающей среды» может быть без ущерба для понимания сокращен до текста «Т.о. мин. сод-е ур-ня кислоты опр-ся темп-рой окруж. среды»

Такое «экономичное» представление слов снижает разборчивость языка, уменьшает возможность понимания речи при наличии шума (помех), а также исключает возможность локализации и исправления ошибки при ее возникновении.

Именно избыточность языка позволяет легко восстановить текст, даже если он содержит большое число ошибок или неполон (кроссворды, поле чудес). Избыточность – определенная страховка и гарантия разборчивости.

Контрольные вопросы.

1. Мы отгадываем задуманное кем-то двузначное число.

а) Какое количество информации требуется для отгадывания всего числа?

б) Какова оптимальная последовательность вопросов?

в) Изменится ли требуемое количество информации, если будем отгадывать не всё число сразу, а по очереди – сначала первую цифру, потом вторую?

г) Одинакова ли информация, необходимая для отгадывания первой и второй цифр?

2. Источник порождает множество шестизначных сообщений, каждое из которых содержит 1 знак *, 2 знака % и 3 знака !. Какое количество информации содержится в каждом сообщении?

3. С какой буквой русского алфавита «а» или «б» связано больше информации? Найдите ее.

4. Средняя длина слова в русском языке 5.3 буквы, в английском 4.5. Найдите вероятности появления в соответствующих текстах пробелов. Какое количество информации связано с пробелом в обоих языках?

5. Считая частоту появления символов постоянной, определить количество информации, приходящееся на букву для сообщения «МАМА МЫЛА РАМУ»

<<< < Предыдущая 1 2 3 4 5 6 7 8 910 / 2810 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
29.05.201531.32 Кб53Инвестиционный анализМГЭИ.docx
#
02.05.2019260.61 Кб52Индивидуальное лидерство.doc
#
22.11.2019489.08 Кб22Интегральное исчислени2.docx
#
17.08.2019908.29 Кб17Информатика - Контрольные работы в методичке.doc
#
18.09.20191.28 Mб14Информатика 37-49.docx
#
16.09.2019882.18 Кб31Информатика учебное пособие часть 1.doc
#
16.09.20191.14 Mб27Информатика учебное пособие часть2.doc
#
29.05.2015369.66 Кб69Информационная сфера.doc
#
29.05.201535.85 Кб29Информационные технологии в юриспруденции.docx
#
29.05.2015101.89 Кб6Информационный справочник-2013.doc
#
29.05.201541.47 Кб11ИОГП Перечень билетов.doc