- •1. Концепция
- •Часть 1 — основное содержание базового курса,
- •Часть 2 — дополнительный материал для углубленного изучения.
- •2. Содержание
- •Глава 11. Искусственный интеллект и базы знаний (перенесено из 1-й части)
- •§ 13. Пользовательский интерфейс
- •6.2. Объектно-информационные модели
- •Пылесос
- •Телевизор
- •Телефон
- •1.3. Алфавитный подход и вероятность
- •3.1. Сжатие текстовой информации
Пылесос
(мощность)
Телевизор
(диагональ экрана, количество каналов)
Телефон
(цвет)
Радиотелефон
(радиус действия)
В скобках указаны свойства.
Дополнить каждый класс поведением. Описать экземпляры классов и значения их свойств.
Заданы классы: фигура, эллипс, закрашенный квадрат, равносторонний треугольник, треугольник, круг, равнобедренный треугольник, прямоугольник, квадрат. Классифицировать эти объекты, используя механизм наследования. Описать свойства и поведение каждого класса.
Для предметной области "Туристические фирмы" описать набор классов, которые должны содержать сведения о различных фирмах, а также ассортименте предоставляемых туров и услуг.
Приоритет фундаментального содержания курса (5-й принцип из списка в начале статьи) усилен дополнительным материалом, который следует отнести к содержательной линии "Представление информации". Это разделы во второй части учебника: 1.3 "Алфавитный подход и вероятность" и 3.1 "Сжатие текстовой информации". Напомним, что вторая часть включает в себя материал для углубленного изучения. В свою очередь, и в этой части учебника учитель должен видеть различие в уровнях сложности отдельных тем. Наиболее сложным является материал раздела 1.3. Здесь от учащихся требуется повышенный уровень математической подготовки. Включать его в учебный план или нет — решает учитель. И все-таки авторы сочли полезным ввести эти разделы в учебник, поскольку они показывают возможные направления развития фундаментальной составляющей базового курса информатики. Если в дальнейшем реализуются планы обязательного введения в школьную программу пропедевтического этапа изучения информатики, то возникнет возможность углубления научного содержания базового курса.
1.3. Алфавитный подход и вероятность
Рассмотрим, как с понятием вероятности связан алфавитный подход к измерению информации. Обсуждая этот подход в § 4, мы исходили из предположения, что появление в любой позиции текста любого из символов используемого алфавита равновероятно. На самом деле для естественных языков это не так. Легко доказать, что одни символы появляются чаще, а другие — реже. В табл. 1.2 приведены частотные характеристики букв латинского алфавита в английских текстах, а в табл. 1.3 — русских букв (кириллицы) в текстах на русском языке (символ "_" означает пробел).
Буква |
Частота |
|
0,175 |
О |
0,090 |
Е,Ё |
0,072 |
А |
0,062 |
И |
0,062 |
Т |
0,053 |
Н |
0,053 |
С |
0,045 |
Р |
0,040 |
В |
0,038 |
Л |
0,035 |
К |
0,028 |
м |
0,026 |
д |
0,025 |
п |
0,023 |
У |
0,021 |
я |
0,018 |
ы |
0,016 |
3 |
0,016 |
ь, ъ |
0,014 |
Б |
0,014 |
Г |
0,013 |
Ч |
0,013 |
й |
0,012 |
X |
0,009 |
ж |
0,007 |
ю |
0,006 |
ш |
0,006 |
ц |
0,003 |
щ |
0,003 |
э |
0,003 |
ф |
0,002 |
Буква |
Частота |
Е |
0,130 |
Т |
0,105 |
А |
0,081 |
О |
0,079 |
N |
0,071 |
R |
0,068 |
I |
0,063 |
S |
0,061 |
Н |
0,052 |
D |
0,038 |
L |
0,034 |
F |
0,029 |
С |
0,027 |
м |
0,025 |
U |
0,024 |
G |
0,020 |
Y |
0,019 |
Р |
"0,019 |
W |
0,015 |
В |
0,014 |
V |
0,009 |
К |
0,004 |
X |
0,0015 |
J |
0,0013 |
Q |
0,0011 |
Z |
0,0007 |
Как видно из этих таблиц, наиболее часто употребляемая буква в английском тексте — "Е", а наименее "популярная" — "Z". Соответственно, в русском тексте это буквы О и Ф .
По аналогии с тем, что было рассмотрено выше, вам должно быть понятно, что частота встречаемости буквы — это вероятность ее появления в определенной позиции текста — Р. Отсюда следует, что информационный вес символа вычисляется по формуле:
*Эта формула вводится в разделе 1.2.
По этой формуле для русской буквы "О" получаем: i = bg (1/0,09) = 3,47 бита. A для буквы "ф": i = log (1/0,002) = 8,97 бита. Разница весьма существенная! Принцип прежний: чем меньше вероятность, тем больше информация.
Для оценки средней информативности символов алфавита с учетом разной вероятности их встречаемости используется формула Клода Шеннона H=P1log2(l/P1) + P2log2(l/P2) + ... + Р1о82(1/Р„), где Н — средняя информативность, Рк — вероятность (частота) встречаемости к-го символа алфавита, N — мощность алфавита. В частном случае, когда
P,= P2=...= PN =1/N, формула К.Шеннона переходит в формулу Р.Хартли.
Воспользовавшись данными из таблиц 1.2 и 1.3, по формуле Шеннона можно определить среднюю информативность букв алфавита английского и русского языков. Результаты вычислений для английского языка дают величину 4,09 бита, а для русского — 4,36 бита. При допущении, что все буквы встречаются равновероятно, по формуле Р.Хартли получается для английского языка Ншгл = Iog2(26) = 4,70 бита, а для русского языка — Н1 с — Iog2(32) = 5 бит. Как видите, учет различия частоты встречаемости букв алфавита приводит к снижению их средней информативности.
Из полученных результатов следует, что и полный информационный объем текста будет разным, если аая его вычисления использовать формулы Хартли и Шеннона. Например, текст на русском языке, состоящий из 1000 букв, по Хартли будет содержать 5 • 1000 — 5000 бит информации, а по Шеннону: 4,36 • 1000 =4360 бит.