Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
3.ПРАКТИКА / SEM3 / Literatura / INFORMATIKA_18_2003.doc
Скачиваний:
65
Добавлен:
21.03.2015
Размер:
357.89 Кб
Скачать

Пылесос

(мощность)

Телевизор

(диагональ экрана, количество каналов)

Телефон

(цвет)

Радиотелефон

(радиус действия)

В скобках указаны свойства.

Дополнить каждый класс поведением. Описать экзем­пляры классов и значения их свойств.

  1. Заданы классы: фигура, эллипс, закрашенный квад­рат, равносторонний треугольник, треугольник, круг, равно­бедренный треугольник, прямоугольник, квадрат. Класси­фицировать эти объекты, используя механизм наследования. Описать свойства и поведение каждого класса.

  2. Для предметной области "Туристические фирмы" описать набор классов, которые должны содержать све­дения о различных фирмах, а также ассортименте пре­доставляемых туров и услуг.

Приоритет фундаментального содержания курса (5-й принцип из списка в начале статьи) усилен дополнительным материалом, который следует отнести к содержательной линии "Пред­ставление информации". Это разделы во вто­рой части учебника: 1.3 "Алфавитный подход и вероятность" и 3.1 "Сжатие текстовой ин­формации". Напомним, что вторая часть вклю­чает в себя материал для углубленного изуче­ния. В свою очередь, и в этой части учебника учитель должен видеть различие в уровнях сложности отдельных тем. Наиболее сложным является материал раздела 1.3. Здесь от уча­щихся требуется повышенный уровень мате­матической подготовки. Включать его в учеб­ный план или нет — решает учитель. И все-таки авторы сочли полезным ввести эти разде­лы в учебник, поскольку они показывают воз­можные направления развития фундаменталь­ной составляющей базового курса информати­ки. Если в дальнейшем реализуются планы обя­зательного введения в школьную программу пропедевтического этапа изучения информати­ки, то возникнет возможность углубления на­учного содержания базового курса.

1.3. Алфавитный подход и вероятность

Рассмотрим, как с понятием вероятности связан ал­фавитный подход к измерению информации. Обсуждая этот подход в § 4, мы исходили из предположения, что появление в любой позиции текста любого из символов используемого алфавита равновероятно. На самом деле для естественных языков это не так. Легко доказать, что одни символы появляются чаще, а другие — реже. В табл. 1.2 приведены частотные характеристики букв ла­тинского алфавита в английских текстах, а в табл. 1.3 — русских букв (кириллицы) в текстах на русском языке (символ "_" означает пробел).

Буква

Частота

0,175

О

0,090

Е,Ё

0,072

А

0,062

И

0,062

Т

0,053

Н

0,053

С

0,045

Р

0,040

В

0,038

Л

0,035

К

0,028

м

0,026

д

0,025

п

0,023

У

0,021

я

0,018

ы

0,016

3

0,016

ь, ъ

0,014

Б

0,014

Г

0,013

Ч

0,013

й

0,012

X

0,009

ж

0,007

ю

0,006

ш

0,006

ц

0,003

щ

0,003

э

0,003

ф

0,002

Таблица 1.2 Таблица 1.3

Буква

Частота

Е

0,130

Т

0,105

А

0,081

О

0,079

N

0,071

R

0,068

I

0,063

S

0,061

Н

0,052

D

0,038

L

0,034

F

0,029

С

0,027

м

0,025

U

0,024

G

0,020

Y

0,019

Р

"0,019

W

0,015

В

0,014

V

0,009

К

0,004

X

0,0015

J

0,0013

Q

0,0011

Z

0,0007

Как видно из этих таблиц, наи­более часто употребляемая буква в английском тексте — "Е", а наи­менее "популярная" — "Z". Со­ответственно, в русском тексте это буквы О и Ф .

По аналогии с тем, что было рассмотрено выше, вам должно быть понятно, что часто­та встречаемости буквы — это вероятность ее появления в определенной позиции текста — Р. Отсюда следует, что информационный вес символа вычисляется по формуле:

*Эта формула вводится в разделе 1.2.

По этой формуле для русской буквы "О" получаем: i = bg (1/0,09) = 3,47 бита. A для буквы "ф": i = log (1/0,002) = 8,97 бита. Разница весьма существенная! Принцип прежний: чем меньше вероятность, тем больше информация.

Для оценки средней информативности символов ал­фавита с учетом разной вероятности их встречаемости используется формула Клода Шеннона H=P1log2(l/P1) + P2log2(l/P2) + ... + Р1о82(1/Р„), где Н — средняя информативность, Рк — вероятность (частота) встречаемости к-го символа алфавита, N — мощность алфавита. В частном случае, когда

P,= P2=...= PN =1/N, формула К.Шеннона переходит в формулу Р.Хартли.

Воспользовавшись данными из таблиц 1.2 и 1.3, по формуле Шеннона можно определить среднюю инфор­мативность букв алфавита английского и русского язы­ков. Результаты вычислений для английского языка дают величину 4,09 бита, а для русского — 4,36 бита. При допущении, что все буквы встречаются равновероят­но, по формуле Р.Хартли получается для английского языка Ншгл = Iog2(26) = 4,70 бита, а для русского языка — Н1 с — Iog2(32) = 5 бит. Как видите, учет различия частоты встречаемости букв алфавита приво­дит к снижению их средней информативности.

Из полученных результатов следует, что и полный ин­формационный объем текста будет разным, если аая его вычисления использовать формулы Хартли и Шеннона. На­пример, текст на русском языке, состоящий из 1000 букв, по Хартли будет содержать 5 • 1000 — 5000 бит инфор­мации, а по Шеннону: 4,36 • 1000 =4360 бит.