
- •032900 – Русский язык и литература;
- •032600 – История;
- •033200 – Иностранный язык;
- •Пояснительная записка
- •032900 – Русский язык и литература;
- •032600 – История;
- •033200 – Иностранный язык;
- •Программа курса
- •Математические и логические основы информатики.
- •II. Арифметические и логические основы персонального компьютера.
- •III. Теория алгоритмов и формальных грамматик.
- •IV. Программные средства персонального компьютера.
- •Учебный план
- •I лекции (20 часов)
- •Методические указания к лекциям
- •Лекция 1
- •Лексические функции как пример математизации объектов лингвистики
- •Функция как математическое понятие
- •Функция в лексике
- •Отличие лексической функции от числовой
- •Обозначение
- •«Склеенные» функции
- •Типы лексических функций
- •Возможности использования лексических функций
- •Лекция 2-3 Алгебра высказываний. Логические функции. Законы булевой алгебры
- •Лекция 4 Перевод чисел из одной позиционной системы счисления в другую. Арифметика в различных системах счисления.
- •Лекция 5 Количество информации
- •Лекция 6 Архитектура эвм
- •4. Алгоритм решения любой задачи представляется в виде последовательности слов, называемых командами, которые определяют наименование операции и слова информации, участвующие в операции.
- •Устройство процессора
- •Лекция 7 Алгоритм
- •Нормальный алгоритм
- •Лекция 9 Понятие операционных систем
- •Приложение к лекции 1 Синтаксический граф
- •Синтаксическое дерево
- •Типы синтаксических деревьев
- •Дерево подчинения
- •Стилистическая диагностика Индивидуальный синтаксис писателя
- •Перевод особенностей авторского стиля на формальный язык синтаксических деревьев
- •Пушкинская, лермонтовская и гоголевская фразы — сходства и различия
- •Компьютерный практикум.
- •Частотный анализ в филологических исследованиях (на базе словарей)
- •Работа с программой PhotoShop 6
- •Создание шаблона титульного листа диплома в программе word. Лабораторная работа № 1. Изучение макрокоманд программы Word
- •Общие навыки Включение компьютера
- •Нажатие левой клавиши устройства «Мышь».
- •Установка текстового курсора в нужную позицию
- •Работа с оконным интерфейсом операционной системы Windows
- •Переход на вкладку в окне.
- •Работа с файловой системой операционной системы Windows 2000 Открытие окна Microsoft Word.
- •Закрытие окна программы Microsoft Word
- •Сохранение документа (файла) на диске.
- •Создание новой папки.
- •Открытие папки.
- •Поиск нужной папки
- •Открытие документа.
- •Создание нового документа
- •Копирование выделенного объекта.
- •Вырезание выделенного объекта.
- •Вставка скопированного (вырезанного) объекта.
- •Работа с файловой системой операционной системы Windows 2003 Открытие окна программы Microsoft Word
- •Закрытие окна программы Microsoft Word
- •Создание новой папки.
- •Открытие папки.
- •Поиск нужной папки
- •Открытие документа.
- •Сохранение документа (файла) на диске.
- •Создание нового документа
- •Копирование выделенного объекта в буфер обмена.
- •Вставка скопированного (вырезанного) объекта из буфера обмена.
- •Работа в программе Word Форматирование текста Установка автоматического переноса слов.
- •Установка параметров страницы.
- •Нумерация страниц.
- •Установка левой границы текста с помощью бегунка
- •Установка параметров абзаца.
- •Установка режима выравнивания.
- •Установка размера шрифта (кегля).
- •Выбор гарнитуры шрифта
- •Установка типа шрифта
- •Переход в режим набора текста курсивом (полужирным, с подчеркиванием).
- •Отмена набора текста курсивом (полужирным, с подчеркиванием).
- •Выделение текста (строки, слова, символа).
- •Гашение выделения текста (строки, слова, символа).
- •Изменение регистра букв текста
- •Изменение настройки автотекста: «Делать первые буквы предложений прописными.»
- •Маркировка и нумерация списка
- •Установка уровня вложенности заголовка.
- •Создание оглавления
- •Вставка объектов Вставка рисунка из библиотеки рисунков.
- •Перемещение объекта
- •Выделение объекта иди группы объектов
- •Вырезание выделенного объекта.
- •Изменение размера картинки
- •Вставка надписи.
- •Выделение надписи.
- •Заведение текста в надпись
- •Изменение размера надписи
- •Создание эффекта тени сзади надписи.
- •Установка режимов обтекания текстом картинок.
- •Установка режимов обтекания текстом объектов.
- •Вставка подписи к рисункам
- •Группировка объектов
- •Рисование стрелок и отрезков прямых линий.
- •Удаление объекта
- •Изменение направления текста в надписи.
- •Закрашивание фона надписи
- •Работа с таблицами Вставка таблицы
- •Выделение ячеек таблицы.
- •Вызов редактора формул.
- •Статистика Установка параметра проверки статистика удобочитаемости.
- •Подсчет количества вхождений заданного фрагмента текста в документ.
- •Выполнить сканирование и распознавание документов в программе Fine Reader 7.
- •Лабораторная работа №2 Создание текстового документа в редакторе Microsoft Word.
- •Лабораторная работа № 3 Набор филологических текстов.
- •Лабораторная работа №4 Создание таблиц.
- •Лабораторная работа № 5 Вставка объектов (рисунков и надписей) в текст.
- •Система высшего и центрального управления в Российской империи в первой половине XIX в.
- •Лабораторная работа 6. Набор математических объектов и формул.
- •Лабораторная работа № 7 Анализ удобочитаемости текста. Выбор тематической и удобочитаемой литературы с помощью команд программы Microsoft Word.
- •§ 1. Сущность методов осуществления целостного педагогического процесса и их классификация
- •Задание 3 .Выбор удобочитаемого тематического текста из сети Интернет с помощью команд программы Microsoft Word.
- •Лабораторная работа № 8 Расчет простых и сложных процентов
- •Основные определения.
- •Задача №1:
- •Задания для самостоятельной работы:
- •Лабораторная работа № 9 Расчеты итоговых сумм выплат при покупках в кредит
- •Основные определения.
- •Лабораторная работа № 10 Частотный анализ поэтических текстов по начальной букве
- •Лабораторная работа №11 Частотный анализ поэтических текстов по всем буквам.
- •Лабораторная работа № 12 Частотный анализ при обработке исторических фактов и географических названий.
- •Строка заголовков столбцов
- •Лабораторная работа № 13 Частотный анализ в филологических исследованиях (на базе словарей)
- •Лабораторная работа № 14 Создание иллюстративных материалов к уроку с помощью программы Power Point –2000 с использованием Internet ресурсов.
- •Лабораторная работа №15 Работа с программой PhotoShop 6
- •Лабораторная работа № 16 Обработка материалов тестовых опросов в программе excel
- •Лабораторная работа № 17 Создание шаблона титульного листа диплома в программе word.
Лабораторная работа №11 Частотный анализ поэтических текстов по всем буквам.
Математизация любой науки связана со следующими двумя уровнями развития. Первый уровень обусловлен переходом науки к абстрактному осмысливанию накопленных фактов и к созданию языка для классификации эмпирических знаний. На втором уровне в языке науки все больше проявляется основное свойство, ради которого он создается, – возможность выражать внутренние закономерности, связи между отдельными фактами и явлениями, изучаемые данной наукой, а также служить орудием познавательной деятельности специалистов. Это требует развития не только выразительных средств языка, но и его исчисленческой стороны, т. е. различного рода формальных (математических) преобразований, которым можно подвергнуть те или иные слова, фразы и другие языковые конструкции.
Таким образом, следует считать, что язык любой науки состоит из двух частей. Первая, основная – это информативная часть языка, непосредственная информация, даже не классифицированная, а просто отобранная каким-то образом совокупность фактов, которые надлежит помнить, чтобы быть эрудированным в данной области знания. Вторая часть – это соответствующее исчисление, под которым, как правило, понимается сжатая форма выражения связей, позволяющих переходить от аксиом к следствиям, от них – к каким-то теоремам, фиксирующим знания в сжатой форме.
Язык математически вводится в язык конкретной науки для выполнения следующих функций:
-
Описание и систематизация знаний;
-
Получение результатов, сопоставимых с экспериментом;
-
Осуществление проверки исходных понятий и функциональных зависимостей между ними;
-
Формулировка законов науки, что дает средства не только для описания и проверки существующего положения, но и для различных видов предсказания.
Математизацию науки можно считать завершенной, если язык этой науки позволяет выполнить все перечисленные функции. К таким наукам можно отнести, прежде всего, физические: отнять у них математику – значит умертвить их.
Однако далеко не во всех науках до сих пор успешно применяются математические методы, хотя, казалось бы, они должны использоваться в любой науке, вступающей в этап абстрактного мышления, поскольку в этом случае наряду с информативной частью языка возникает его исчисленческая часть, позволяющая беспрестрасно оценивать факты и явления.
Появление кибернетики и развитие вычислительной техники стимулировало формирование исчисленческой части языка в гуманитарных науках. Например, использование математических методов при изучении естественных языков способствовало возникновению математической лингвистики.
Рассмотрим поэтический текст Н. Рубцова «Видения на холме»:
Взбегу на холм
и упаду
в траву.
И древностью повеет вдруг из дола!
И вдруг картины грозного раздора
Я в этот миг увижу наяву.
Пустынный свет на звёздных берегах
И вереницы птиц твоих, Россия,
Затмит на миг
В крови и в жемчугах
Тупой башмак скуластого Батыя...
Россия, Русь - куда я ни взгляну... 3а все твои страдания и битвы Люблю твою, Россия, старину, Твои леса, погосты и молитвы, Люблю твои избушки и цветы,
И небеса, горящие от зноя, И шепот ив у омутной воды, Люблю навек, до вечного покоя... Россия, Русь! Храни себя, храни! Смотри, опять в леса твои и долы Со всех сторон нагрянули они, Иных времён татары и монголы. Они несут на флагах чёрный крест, Они крестами небо закрестили,
И не леса мне видятся окрест, А лес крестов
в окрестностях
России.
Кресты, кресты...
Я больше не могу
Я резко отниму от глаз ладони
И вдруг увижу: смирно на лугу Траву жуют стреноженные кони. Заржут они и где-то у осин Подхватит эхо медленное ржанье,
И надо мной –
бессмертных звёзд Руси,
Спокойных звёзд безбрежное мерцанье.
В рамках информативной части языка об этом тексте можно сказать следующее.
Это стихотворение во многом программное, в нем сконцентрированы основные мотивы творчества Рубцова. Прежде всего - тема исторической, национальной памяти, помогающая воспроизвести в сознании события от времени Батыя до наших дней. 3десь и мотив духовной, нравственной крепости народа, сумевшего выстоять в тягчайших испытаниях, отстоять свою независимость, и призыв к современникам исполнять свой долг перед отечеством. Так протягивается нить от Пушкинского стихотворения «Клеветникам России», Лермонтовского «Бородино», Блоковских «Скифов» к стихотворению «Видения на холме» с его особым символическим историко-философским осмыслением новой эпохи. Для Рубцова важно не только то, что выражено словами, но и то, что в подтексте, не высказано, но напето самой мелодией души. Приглашая учиться высокому искусству гармонии у природы, поэт прекрасно понимал жгучую связь между человеком и родной природой, которая может, оборвавшись, привести к трагедии, не только экологической, но и нравственной. Отсюда и трагические тона, усиливающие внутренний драматизм его поэзии.
С вышесказанной оценкой текста «Видения на холме» согласится, прежде всего, человек, глубоко любящий родину, переживающий ее невзгоды и радующийся успехам своей страны. Для человека с иными взглядами анализируемый текст не вызовет никаких эмоций и может быть отнесен к обычной посредственности. Вполне очевидно, что оценка поэтических текстов информативным языком страдает субъективностью.
Возникает вопрос: можно ли найти формальные, не субъективные оценки поэтических текстов. С позиции исчисленческой части языка любой текст – это множество (набор) слов. Слова образуют группы слов по какому-либо признаку. В качестве такого признака можно выбрать, например, начальную букву слова. Если число всех слов в тексте обозначить через N1, а число слов на конкретную начальную букву – через ni, то можно определить величину
(1),
которую назовем частотой появления слова на данную i-ю букву. В число ni будем включать и слова, состоящие из одной буквы.
По набору частот pi можно вычислить энтропию информации по известной формуле Шеннона
(2)
Величина Н1 известна также как количественная мера информации, и она измеряется в битах.
Впервые в [1] этот критерий был использован для количественных оценок поэтических текстов Н. Рубцова. Там же и дана технология обработки текста и проведения расчетов по (2) в программе Microsoft Excel.
Рассчитанная по технологии [1] величина Н1 для текста «Видения на холме» оказалось равной 4,2077. Само по себе это число пока не о чем не говорит. Однако оказалось, что есть тексты других авторов, энтропия информации которых близка к вышеприведенному числу (см. таблица 1).
Таблица 1
Автор |
Название (первая строка) |
N1 |
Н1, бит |
Рубцов Н. |
Видения на холме |
174 |
4,2077 |
Блок А. А. |
В ресторане |
108 |
4,1897 |
Есенин С. А. |
Отговорила роща золотая |
233 |
4,2539 |
Лермонтов М. Ю. |
Бородино Завещание Пророк Родина Смерть поэта |
372 140 127 124 356 |
4,2169 4,1541 4,2091 4,0142 4,0900 |
Некрасов Н. А. |
Кому на Руси жить хорошо |
267 |
4,0119 |
Пушкин А. С. |
Кипренскому Цветок |
55 74 |
4,1177 4, 0646 |
Фет А. А. |
Ель рукавом мне тропинку завесила |
54 |
4,0298 |
Цветаева М. И. |
Стихи о Москве |
149 |
4, 1734 |
Возникает вопрос: что означают близкие числовые значения энтропии информации для текстов различных авторов? Ответ с формальной точки зрения таков: все тексты из таблицы 1 имеют примерно одинаковые средние статистические длины слов.
Вполне очевидно, что неформальный ответ на поставленный вопрос могут давать эксперты, занимающиеся оценкой поэтического творчества.
В [1] произведен расчет Н1 для сорока пяти поэтических текстов Н. Рубцова. Результаты этих расчетов, заимствованные из [1], воспроизведены в таблице 2. Оказалось, что числовые значения Н1 для текстов Н. Рубцова изменяются в широких пределах. Возможно, это объясняется и тем обстоятельством, что среди этих текстов есть ранние стихи, как правило, подражательные, более зрелые и, наконец, совершенные, выдвинувшие Н. Рубцова в число лучших поэтов.
Таблица 2
№ номер текст. |
Название стихотворения |
Колич. слов N1 |
Н1 бит |
Колич. букв N2 |
H2 бит
|
1 |
2 |
3 |
4 |
5 |
6 |
1 |
Элегия |
70 |
3,6294 |
361 |
4,3116 |
2 |
Ось |
86 |
4,0043 |
426 |
4,4513 |
3 |
На вокзале |
125 |
3,9064 |
560 |
4,4802 |
4 |
Весна на берегу Бии |
131 |
4,0055 |
634 |
4,5382 |
5 |
Прощальная песня |
182 |
4,0215 |
783 |
4,5462 |
6 |
В лесу |
84 |
3,1878 |
587 |
4,3346 |
7 |
Ветер всхлипывал словно дитя |
74 |
3,8950 |
367 |
4,3763 |
8 |
У церковных берез |
130 |
3,9637 |
703 |
4,4996 |
9 |
В московском кремле |
148 |
7,1349 |
742 |
4,4231 |
10 |
Поэзия |
133 |
3,4573 |
678 |
4,5084 |
11 |
Сентябрь |
62 |
3,7171 |
292 |
4,4649 |
12 |
По дороге к морю |
114 |
8,2939 |
504 |
4,6126 |
13 |
Стоит жара |
57 |
4,0368 |
247 |
4,4342 |
14 |
Плыть, плыть |
84 |
6,4871 |
392 |
4,4778 |
15 |
Волнуется море |
69 |
4,1101 |
345 |
4,5217 |
16 |
Гость молчит и я ни слова |
79 |
3,7901 |
358 |
4,4911 |
17 |
В пустыне |
77 |
3,7915 |
277 |
4,4016 |
Таблица 2(продолжение)
18 |
Увлекаюсь нечаянно |
50 |
3,4473 |
285 |
4,2204 |
19 |
В горной деревне |
80 |
4,0075 |
385 |
4,5289 |
20 |
Мечты |
76 |
3,7149 |
370 |
4,4679 |
21 |
Видения на холме |
174 |
4,2156 |
788 |
4,4618 |
21 |
Грани |
70 |
4,0147 |
344 |
4,1788 |
23 |
По мокрым скверам проходит осень |
93 |
3,8397 |
454 |
4,2117 |
24 |
В полях смеркалось. Близилась гроза |
65 |
3,6658 |
359 |
4,1651 |
25 |
Привет Россия |
114 |
3,9456 |
695 |
3,8839 |
26 |
В горнице |
57 |
3,8638 |
278 |
4,3709 |
27 |
Родная деревня |
66 |
4,1048 |
366 |
4,4437 |
28 |
Вологодский пейзаж |
128 |
4,1059 |
644 |
4,4986 |
29 |
Далекое |
85 |
7,1822 |
422 |
4,5458 |
30 |
На вокзале |
123 |
3,7422 |
558 |
4,4782 |
31 |
Старик |
101 |
3, 7852 |
487 |
4,4542 |
32 |
Сапоги мои - скрип да скрип |
125 |
3,8066 |
587 |
4,4202 |
33 |
Памяти матери |
84 |
3,8700 |
354 |
4,3806 |
34 |
В сибирской деревне |
90 |
4,0113 |
519 |
4,4737 |
35 |
Зимним вечерком |
60 |
3,9955 |
266 |
4,4054 |
||
36 |
Журавли |
102 |
3,9847 |
|
4,4701 |
||
37 |
Синенький платочек |
89 |
3,9445 |
521 |
4,1398 |
||
38 |
Острова свои оберегаем |
82 |
3,9407 |
470 |
4,4129 |
||
39 |
А между прочим осень на дворе |
121 |
4,0818 |
781 |
4,1676 |
||
40 |
Слез не лей … |
79 |
4,2165 |
|
4,4475 |
||
41 |
Старый конь |
72 |
3,9524 |
360 |
4,2452 |
||
42 |
Прекрасное небо голубое |
92 |
4,0479 |
419 |
4,4840 |
||
43 |
На реке Сухоне |
112 |
3,6389 |
577 |
4,3361 |
||
44 |
Добрый Филя |
56 |
3,9008 |
259 |
4,5050 |
||
45 |
Оттепель |
113 |
3,7292 |
|
4,4821 |
Одним из фундаментальнейших понятий математики является понятие меры. В данном случае определение меры сводится к установлению такого диапазона числовых значений Н1, который определит высокохудожественный или непоэтический текст безотносительно к тому – каким автором он написан. Таким образом можно установить числовую шкалу значений Н1, с помощью которой можно будет осуществлять безсубъективные оценки поэтических текстов.
В таблице 1 кроме текста Н. Рубцова представлены тексты классиков русской поэзии, поэтому возможно число четыре на указанной шкале будет соответствовать высокохудожественным поэтическим текстам.
При проведении информационных измерений в текстах русского языка, поэтический текст можно считать как набор (множество) букв русского алфавита. Каждый элемент этого множества (каждую букву) можно привести в соответствие с числами натурального ряда в результате чего получим конечное множество, над элементами которого можно производить измерения. Если общее число букв данного текста обозначить через N2, а через Ni – количество конкретной i-ой буквы, то можно рассчитать
(3)
как частоту появления конкретной буквы в рассматриваемом поэтическом тексте.
При расчете энтропии информации не конкретизируется методика расчета частот, поэтому и к частотам (3) применима формула Шеннона. В данном случае энтропию информации обозначим через Н2 и ее будем рассчитывать по следующей формуле
(4)
Вернемся снова к тексту «Видения на холме» и для него определим Н2 по формуле (4). Для этого используем программы MS Word и MS Excel пакета MS Office XP.
В
начале необходимо запустить программу
Microsoft
Word,
ввести в компьютер текст стихотворения
и сохранить его с использованием
общеизвестных команд программы. В
отличие от ввода прозаического текста,
при вводе стихотворения после каждой
строки необходимо нажимать клавишу
Enter.
Чтобы ввести рваную строку в начале
стихотворения, нужно отпечатать на
отдельных строках слова из предложения,
как показано на рис. 1. Затем с помощью
перетаскивания
элемента линейки в форме перевернутого треугольника, для каждой строки установить нужный отступ. Для последующих строк вернуть отступ в первоначальное положение. На рис. 3 представлено как должно получиться стихотворение.
Для оформления текста стихотворения по центру листа необходимо выделить текст стихотворения для чего необходимо одновременно нажать
клавиши Ctrl и ф. Затем в меню Формат выбрать команду Абзац и на
вкладке Отступы и интервалы установить отступ слева 6 см, после чего щелкнуть мышью на кнопке ОК. (рис. 2) В этом случае строка начнется в 7-8 см от края листа. Для дальнейшей работы желательно сохранить стихотворение на диске.
Для проведения
расчетов по формулам (3) и (4) удобно
разместить рядом на рабочем столе окна
программ MS
Word
и MS
Excel
. Для этого в строке заголовка щелкнем
по кнопке (
), затем подводим
мышь к правому краю окна программы,
чтобы указатель имел вид (
)
и, не отпуская левую кнопку мыши, двигаем
указатель, изменяя размер окна, до тех
пор, пока размеры окна не станут такими,
как показано на рис. 4. После этого
запускаем программу MS
Excel
и проделываем те же процедуры, в результате
чего получаем вид экрана, изображенный
на рис. 4.
Теперь установим
соответствия между числами натурального
ряда и буквами русского алфавита,
сохраняя их традиционное расположение,
указанное в словарях русского алфавита.
Для этого выбираем столбец А и заносим
значения 1 и 2 в ячейки А2 и А3 соответственно,
а затем выделяем их и размножаем до
ячейки А34. Чтобы размножить ячейки,
подведите указатель мыши к правому
нижнему углу выделенных ячеек, нажмите
левую кнопку мыши и, не отпуская ее,
опустите указатель мыши до ячейки А34,
как показано на рис. 5. В столбец В заносим
буквы алфавита с клавиатуры. (см. таблицу
3, столбцы А и В). В дальнейшем номер буквы
будем отождествлять с переменной
величиной
,
поэтому в ячейки А1 занесем символ
.
Вслед за этим
щелкнем по рабочему полю окна MS
Word.
В начале подсчитаем количество буква
«а» в стихотворении и перенесем данные
в таблицу. Для этого нужно в меню Правка
выбрать
команду
Заменить.
В окне диалога
Заменить
после слова Найти
пишем а
и щелкаем по кнопке заменить
все. (рис.6)
Программа сообщает нам, как показано
на рис. 7, сколько произведено замен. Это
число 47 и есть количество букв а
в тексте.
Переходим
на рабочий стол MS
Excel.
Для этого щелкнем в любом месте окнаMS
Excel
мышкой. Заносим количества букв а
с клавиатуры в таблицу MS
Excel,
в ячейку С2, слева от ячейки со «а»
Проделываем эту операцию с остальными
буквами, после чего окажутся заполненными
три первых столбца
рабочего стола
MS
Excel.
(см. Таблицу 3, столбцы А, В, С)
Далее в MS
Excel
проводим подсчет количества всех букв
в стихотворении. Для этого щелкаем по
ячейке С35. В меню
Вставка выбираем
команду Функция.
Выбираем в категории математические
функцию СУММ
и щелкаем ОК, для перехода к шагу 2. (рис.
8). В появившемся окне Аргументы
функции набираем
с клавиатура напротив надписи Число
1 диапазон
ячеек С2:С34 и щелкаем ОК (рис. 9). В результате
чего в ячейке С35 оказалось число 788
равное числу всех букв в тексте
стихотворения «Видения на холме». В
ячейку В35 вводим с клавиатуры «N2=»,
так как число букв нами обозначено через
N2.
(см. столбец В таблицы 3).
После этого вычислим частоту Pi для каждой буквы по формуле (3). В ячейке D2 вводим =С2/С$35, а затем размножаем до конца таблицы. Чтобы записать индекс i для Р, нужно ввести в ячейку D1 буквы Pi, сделать двойной щелчок по этой ячейке, выделить букву i, в меню Формат выбрать диалоговое окно Ячейки и поставит галочку рядом с надписью Нижний индекс (рис. 10). После чего нажать кнопку ОК. В результате этих операций должен получиться столбец D таблицы 3.
Теперь вычислим энтропию информации Н2 по формуле (4). Для этого в ячейку Е2 вводим =ЕСЛИ(D2=0;0;-D2*Log(D2;2)), а затем размножаем формулу этой ячейки до конца таблицы. Данные этих вычислений оказываются в столбце Е. Затем в ячейку D35 вводим Н2=. В ячейку Е35 вставляется формула автосуммы для диапазона ячеек Е2:Е34, как это было показано выше. В результате получается столбец Е Таблицы 3, в которой энтропия информации Н2 оказывается равной 4,461807.
В гистограмме 3
(Рис. 17) нумерация букв соответствует
столбцам G
и Н из таблицы 4. Для всех трех гистограмм
(рис. 14, 16, 17) данные таблицы 4 позволяют
по величине
восстановить
соответствующую ей букву русского
алфавита. Гистограмма нормального
распределения частот иллюстрирует
процесс группирования частот относительно
максимальной частоты. Характер такой
группировки может также характеризовать
индивидуальность текста.
Действительно, гистограмма на рис. 17 представляет распределение частот букв русского алфавита для текста «Видения на холме». Однако из сочетания букв образуются такие составляющие слова, как слоги и корни. Поэтому представляется реальным создание определенного алгоритма, по которому из частотного распределения букв можно определить частоты появления определенных слогов и корней.
В таблице 2 представлены рассчитанные по вышеуказанной технологии величины Н2 для различных текстов Н. Рубцова. Диапазон изменения чисел Н2 оказался меньшим по сравнению с диапазоном Н1. Однако оказались такие тексты, для которых числовые значения Н1 и Н2 близки. Например, текст «Видения на холме». Возможно, этот факт служит еще одним доказательством того, что число четыре на числовой шкале соответствует высоко художественным текстам.
Для каждого из текстов из таблицы 2 были построены гистограммы распределения частот букв в порядке возрастания частоты. Эти гистограммы строились так же как и гистограммы на рис. 16. Из указанных гистограмм оказалось возможным получить для каждой из букв предельные значения частот, которые имеют место в текстах из таблицы 2.
Таблица 6 иллюстрирует значения предельных частот для каждой из букв русского алфавита.
Оказалось, что существуют такие поэтические тексты Н. Рубцова, в которых отсутствуют некоторые буквы алфавита. Это тексты, для которых Pmin=0. В данном случае к указанным буквам относятся следующие: ё, ф, х, ц, ш, щ, ъ, э, ю (см. таблицу 6). Кроме того, можно выделить буквы, для которых имеет место закон устойчивости частот.
Таблица 6
Буква |
Экстремальные |
Буква |
Экстремальные |
||
|
частоты |
|
частоты |
||
|
Pmax |
Pmin |
|
Pmax |
Pmin |
а |
0,1015 |
0,0374 |
п |
0,0528 |
0,0081 |
б |
0,0406 |
0,0027 |
р |
0,0651 |
0,0222 |
в |
0,0683 |
0,0028 |
с |
0,1022 |
0,0232 |
г |
0,1922 |
0,0019 |
т |
0,3036 |
0,0051 |
д |
0,0612 |
0,0134 |
у |
0,0665 |
0,0044 |
е |
0,1187 |
0,0055 |
ф |
0,0193 |
0 |
ё |
0,2026 |
0 |
х |
0,0355 |
0 |
ж |
0,0364 |
0,0014 |
ц |
0,0137 |
0 |
з |
0,0347 |
0,0022 |
ч |
0,0324 |
0,0029 |
и |
0,1005 |
0,0246 |
ш |
0,0167 |
0 |
й |
0,0445 |
0,0051 |
щ |
0,0156 |
0 |
к |
0,0583 |
0,0156 |
ь |
0,0459 |
0,0019 |
л |
0,2265 |
0,0189 |
ы |
0,242 |
0,0022 |
м |
0,0765 |
0,0134 |
ъ |
0,0036 |
0 |
н |
0,1228 |
0,0338 |
э |
0,0075 |
0 |
о |
0,1833 |
0,0363 |
ю |
0,0324 |
0 |
|
|
|
я |
0,0351 |
0,0056 |
К таким буквам следует отнести только те, у которых предельные частоты различаются в одном и том же числовом знаке после запятой. Данные таблицы 6 позволяют к указанным буквам отнести следующие: д, к, м, р.
Для этих согласных характер изменения частот в зависимости от номера N текста иллюстрирует таблица 7. Заметим, что нумерация текстов Н. Рубцова в таблице 7 совпадает с их нумерацией в таблице 2.
Построим
гистограммы распределения частот для
букв д, к, м, р. Для этого введем с клавиатуры
таблицу 7 в программу MS
Excel,
используя технику ввода, описанную
выше. Чтобы вписать в ячейку А1: «N
номер текста», нажмите после ввода N
клавишу Alt
и, держа ее, клавишу Enter.
Чтобы ввести заглавие столбцов «частота
появления букв», выделите диапазон
ячеек В1:Е1, а затем щелкните мышью по
кнопке объединить ()
на панели инструментов. Для заполнения
диапазона А3:А47 используем автозаполнение.
Для этого введем значения 1и 2 в ячейки
А3 и А4, выделим их и размножим до ячейки
А48, как это было показано выше. Остальные
ячейки заполним с клавиатуры. Далее
скопируем диапазон ячеек А2:В47 в столбцы
F,G
и сортируем эти столбцы по возрастании
по столбцу G.
Затем выделим столбец G
и построим гистограмму на отдельном
листе по вышеописанной технологии.
Должна получиться гистограмма, показанная
на рис. 18.
Таблица 7
N номер текста |
частота появления букв |
N номер текста |
частота появления букв |
||||||||
|
Д |
к |
м |
р |
23 |
0,0176 |
0,0463 |
0,0441 |
0,0529 |
||
1 |
0,036 |
0,036 |
0,0249 |
0,0305 |
24 |
0,0334 |
0,039 |
0,0251 |
0,0418 |
||
2 |
0,0305 |
0,0446 |
0,054 |
0,0563 |
25 |
0,0173 |
0,0259 |
0,0331 |
0,0317 |
||
3 |
0,0286 |
0,0161 |
0,0321 |
0,0411 |
26 |
0,0612 |
0,0252 |
0,0432 |
0,036 |
||
4 |
0,0221 |
0,0363 |
0,0315 |
0,0599 |
27 |
0,0383 |
0,0355 |
0,0164 |
0,0464 |
||
5 |
0,0409 |
0,0498 |
0,0396 |
0,0434 |
28 |
0,0311 |
0,0342 |
0,0404 |
0,0559 |
||
6 |
0,0341 |
0,0409 |
0,0221 |
0,0443 |
29 |
0,0237 |
0,0379 |
0,0355 |
0,0355 |
||
7 |
0,0327 |
0,0245 |
0,0436 |
0,0381 |
30 |
0,0287 |
0,0161 |
0,0323 |
0,0412 |
||
8 |
0,037 |
0,0398 |
0,0299 |
0,0441 |
31 |
0,0513 |
0,0493 |
0,0287 |
0,037 |
||
9 |
0,035 |
0,0337 |
0,0391 |
0,0445 |
32 |
0,0562 |
0,0545 |
0,0221 |
0,0511 |
||
10 |
0,031 |
0,0487 |
0,0398 |
0,0413 |
33 |
0,0254 |
0,0226 |
0,0565 |
0,0367 |
||
11 |
0,024 |
0,0377 |
0,0171 |
0,0651 |
34 |
0,0289 |
0,0578 |
0,0193 |
0,0385 |
||
12 |
0,0278 |
0,0298 |
0,0575 |
0,0496 |
35 |
0,0338 |
0,0451 |
0,0489 |
0,0602 |
||
13 |
0,0202 |
0,0567 |
0,0324 |
0,0445 |
36 |
0,0282 |
0,0465 |
0,0183 |
0,0548 |
||
14 |
0,0357 |
0,0204 |
0,0765 |
0,051 |
37 |
0,0134 |
0,0403 |
0,0134 |
0,0345 |
||
15 |
0,0377 |
0,0493 |
0,0464 |
0,0493 |
38 |
0,0447 |
0,0404 |
0,0383 |
0,0404 |
||
16 |
0,0363 |
0,0391 |
0,0503 |
0,0475 |
39 |
0,0192 |
0,0282 |
0,0282 |
0,0435 |
||
17 |
0,0144 |
0,0542 |
0,0361 |
0,0469 |
40 |
0,0453 |
0,0283 |
0,034 |
0,0482 |
||
18 |
0,0316 |
0,0281 |
0,0175 |
0,0632 |
41 |
0,0417 |
0,0583 |
0,0222 |
0,0222 |
||
19 |
0,0338 |
0,0286 |
0,0338 |
0,0571 |
42 |
0,0263 |
0,0286 |
0,031 |
0,0597 |
||
20 |
0,0297 |
0,027 |
0,0514 |
0,0432 |
43 |
0,0399 |
0,0156 |
0,0676 |
0,0433 |
||
21 |
0,0266 |
0,0241 |
0,0254 |
0,0609 |
44 |
0,0502 |
0,027 |
0,027 |
0,0425 |
||
22 |
0,0349 |
0,0349 |
0,0407 |
0,064 |
45 |
0,0354 |
0,0314 |
0,0511 |
0,0413 |
Теперь будем копировать в столбец Н ячейки из столбца G по возрастанию и по убыванию поочередно, т. е. скопируем сначала ячейку с наименьшим значением частоты (G2), затем с наибольшим (G47), после – со следующим наименьшим значением (G3) и со следующим наибольшим (G46). Так копируем все остальные ячейки столбца G в столбец Н. После этого выделяем столбец Н и строим для него гистограмму, как и для столбца G. Должна получиться гистограмма изображенная на рис. 19.
Таблица 8. Закон устойчивости частот для буквы «д» (Р5).
Рис. 19 Закон устойчивости частот для буквы «д» (Р5)
Рис. 18 Закон распределения буквы «д» в порядке возрастания частоты.


Для букв к, м, р аналогичны таблицы 9, 10, 11 соответственно.
Таблица 9.
Закон устойчивости частот для буквы
«к» (Р12).
Таблица 10.
Закон устойчивости частот для буквы
«р» (Р18).
Таблица 11. Закон устойчивости частот для буквы «м» (Р14).
На
гистограмме рисунков 19-22 по оси абсцисс
отложен номер
текста, который может и не совпадать с
номером того же текста в таблице 2; а по
оси ординат дается значение частоты
появления данной буквы в стихотворении,
рассматриваемого номера. При построении
указанных гистограмм тексты перенумерованы
так, что поведение частот носит
колебательный характер, а с ростом
номера частоты букв стремятся к средним
частотам равным
(5).
Значения средних частот, рассчитанных по (5) предоставляются таблицей 12.
Таблица 12
Буква |
Pmax |
Pmin |
∆ |
д |
0,061 |
0,013 |
0,048 |
к |
0,058 |
0,016 |
0,043 |
м |
0,077 |
0,013 |
0,063 |
р |
0,065 |
0,022 |
0,043 |
Представленные таким образом колебательные поведения частот (рис. 19-22) представляют графическую форму закона устойчивости частот.
Таблица 13 |
||
Буква |
Число текстов n |
Частота |
ъ ф э |
40 36 20 |
0,8899 0,8000 0,4444 |
щ ц ю |
20 15 8 |
0,4444 0,3333 0,1778 |
ё х |
4 1 |
0,0889 0,0222 |
Уже отмечалось, что среди рассматриваемых текстов (табл. 2) были и такие, в которых некоторые буквы не встречаются вообще. В таблице 13 приводятся эти буквы и число n текстов, в которых они не встречаются. Так как всего рассмотрено сорок пять текстов Н. Рубцова, то по формуле
(6)
можно вычислить частоту появления текстов, в которых данные буквы отсутствуют. Результаты расчетов по (6) приведены в таблице 13.
Оказалось, что одной из редко встречающихся букв оказалась буква «ф» (см. табл. 13). За разъяснением этого обстоятельства обратимся к исследованиям выдающегося советского филолога Льва Васильевича Успенского (1900 – 1990). В его научно-занимательной книге [3] отмечается, что в поэтических произведениях Пушкина, Лермонтова, Крылова и других русских классиков буква «ф» почти не встречается. Обнаруживается и другое – каждое слово русского языка, в котором в начале, на конце или в середине пишется буква «ф», на поверку оказывается словом не исконно русским, а пришедшим к нам из других языков. По мнению Успенского, редкость буквы «ф» в русской литературе не случайность. Она – свидетельство глубокой народности, высокой чистоты русского языка у наших великих писателей.
Следовательно, указанная традиция великих русских классиков сохранена и в творчестве Н. Рубцова.
В настоящее время наметилась тенденция изучения поэтических текстов методами паралингвистики [3]. В этих исследованиях паралингвистические интонации, обнаруженные на основе частотного анализа буквосочетаний, обобщаются в модели эмоционально выразительных интонаций поэта.
Несомненно, что применение информационных технологий может активизировать исследования в паралингвистике.