- •Кафедра математики и информатики Глазачев Владимир Васильевич элементы вычислительной математики и кибернетики для численного анализа поэтических текстов
- •Глава 1. Основные возможности и характеристики Python 5
- •Глава 2. Основные понятия лингвистической статистики 27
- •Глава 3. Частотные словари 51
- •Введение
- •Глава 1. Основные возможности и характеристики Python
- •Философия языка
- •История языка
- •Влияние других языков на Python
- •Портируемость
- •Установка
- •1.2. Описание Типы и структуры данных
- •Синтаксис и семантика
- •Операторы
- •Выражения
- •Строки документации
- •Директивы
- •1.3. Возможности Интерактивный режим
- •Объектно-ориентированное программирование
- •Возможности и особенности:
- •Функциональное программирование
- •Модули и пакеты
- •Интроспекция
- •Обработка исключений
- •Итераторы
- •Генераторы
- •Управление контекстом выполнения
- •Декораторы
- •1.4. Библиотеки Стандартная библиотека
- •Модули расширения и программные интерфейсы
- •Графические библиотеки
- •1.5. Недостатки Низкое быстродействие
- •Отсутствие статической типизации
- •Невозможность модификации встроенных классов
- •Глобальная блокировка интерпретатора (gil)
- •Источники
- •Глава 2. Основные понятия лингвистической статистики
- •2.1. Индексы (коэффициенты, формулы) и энтропия
- •2.2. Описание выполненной работы. Экспериментальная часть
- •2.3. Алгоритм программы
- •2.4. Реализация программы на примере корпуса текстов поэтов Золотого и Серебряного века
- •Глава 3. Частотные словари
- •3.1. Приемы составления частотных словарей лексики русских текстов
- •3.2. Оценка надежности частотного словаря.
- •3.3. Описание программы «Текстовый анализатор»
- •Заключение
- •1. Анализ корпуса текста.
- •2. Частичный разбор
- •3. Разбор (сущ, глаг, прил) (бд)
- •Список литературы:
- •Приложение а. Листинг программы
2.1. Индексы (коэффициенты, формулы) и энтропия
Hi = - fi log fi - удельная энтропия ЛЕ.
H*k
=
- накопленная энтропия текста, равная
сумме Hi.
IC = (fr12+ L2)^1/2 - индекс дистрибуции (чем IC больше, тем богаче словарь текста).
Ii = индекс итерации (повторения ЛЕ в замкнутом тексте) Ii= N/L.
Ie = индекс исключительности (специфичности) лексики Ie=20*Lf1/N.
Iq = Lfk/N - индекс плотности текста (чем богаче тематика, тем выше Iq, чем однообразнее тема, тем Iq ниже ).
IP = индекс предсказуемости (предполагается, что чем IP меньше, тем привлекательнее текст) IP = 100 - (Lf1*100)/N .
n = число абзацев в тексте.
m = число абзацев текста, в которых встретилась ЛЕ.
K i = Fi * m / (N * n) коэффициент важности ЛЕ.
Iext = объем экстенсивности словаря текста. Пропорционален широте лексики, разнообразию выражения.
If = индекс стереотипности текста. Длина интервала средней части повторяющихся ЛЕ. Если If больше, то главное не форма, а содержание (для беглого нестилизованного чтения, спонтанная речь). If меньше у художественных текстов, беллетристики.
IColeman-Liau
=
= индекс Колемана–Лиау предназначен
для оценки удобочитаемости текста
[Coleman–Liau].
IFlesch
= 206.835
– 84.6
= позволяет
установить уровень удобочитаемости
текста и приблизительный уровень
образования, необходимый для того, чтобы
понять написанное. Индекс FRES (Flesch Reading
Ease Score) получил широкое распространение
после принятия в ряде штатов США
законодательных норм, требующих, чтобы
текст договора страхования мог быть
понятен лицам со средним образованием.
Обрабатывается фрагмент текста размером
около 100 слов. Аббревиатуры, символы и
слова, написанные через дефис,
рассматриваются как отдельные слова.
IFlesch <
30
сложен
для восприятия людям с высшим образованием;
«понятный английский язык» имеет индекс
IFlesch
>
60; разговорный английский язык
80. Текст с индексом IFlesch
> 90 понятен школьникам средних классов.
Рудольф Флеш является автором изданной
в 1951 году книги «Искусство ясного
мышления», которая учит думать быстрее,
глубже и творчески. В ней Флеш утверждает,
что все сбои в логическом построении
текста можно распознать с помощью двух
формул «Ну и что?» и «Конкретизируйте».
Он же создал в 1943 г. "формулу Flesch",
по которой можно проверить уровень
доходчивости текста. Поскольку количество
слогов и длина предложений в английском
и русском языках отличаются, И. Оборнева
(Оборнева И.В., 2005) предлагает базовую
индекс IFlesch
со следующими, подходящими для русских
текстов, коэффициентами: IFlesch
= 206,836-65,14
Nsyllable
— 1,52 Lclause,
где Nsyllable
= средняя длина предложений в словах,
Lclause
= число
слогов. Оценка трудности текста выражается
в значениях от 100 (очень легкие тексты)
до 0 (очень сложные тексты). Для русского
языка шкала 0-30 соответствует уровню
выпускника института, 31-50 - студент,
51-60 - выпускник средней школы, 61-70 - 8-9
класс, 71-80 - 7 класс, 81-90 - 6 класс, 91-100 - 5
класс. Рекомендации Р Флеша для
читабельности текста: 1) используйте
допустимые сокращения; 2) по возможности
составляйте предложения без использования
слова "что"; 3) используйте местоимения
"я", "мы", "они" и "вы";
4) при необходимости повторяйте
существительное и не ищите ему красочную
замену; 5) используйте краткие, ясные
предложения; 6) в параграфе освещайте
только один вопрос; 7) используйте
активный залог.
= "индекс
туманности" ("fog index"), разработанный
в 1952 году американским ученым Р. Ганнингом
[Miles T.H., 1990], позволяет определить
минимальный возраст читателя, которому
будет понятен данный текст. Используется
этот индекс для оценки текстов,
ориентированных на широкую аудиторию,
и предполагает некоторые среднестатистические
оценки образовательного уровня и
интеллекта читателей. Индекс туманности
измеряет сложность чтения, исходя из
средней длины предложения и процента
слов, состоящих из трех и более слогов.
Чем выше индекс туманности, тем сложнее
читать текст. Для оценки выбирается как
минимум два произвольных фрагмента
текста, содержащие приблизительно по
100 слов. Учитывается средняя длина
предложения (в словах) и среднее число
слогов в словах. Напр., для текстов на
английском языке, понятных большинству
населения, индекс туманности должен
быть ниже 12. (Рогушина Ю.В. 2006). Этот индекс
необходимо корректировать с учетом
того, что среднее число слогов в русском
языке больше, чем в английском. Индекс
туманости: - для любовных романов = 7; -
для учеников 8-9 классов средней
общеобразовательной школы =8; - сложность
языка газет = 9; - для коммерческих и
избирательных кампаний =10; для людей с
высшим профессиональным образованием
= 16. Р.Ганнинг рекомендовал писать
предложения, содержащие не более 20 слов,
при этом, предполагая опыт читающего,
выражать мысли, а не производить
впечатление высокопарным слогом, в
частности, употреблять глаголы,
обозначающие активные действия.
Kcons = консонансный коэффициент = отношение числа согласных к числу гласных в слове (функциональная нагрузка согласных в речи определяется их ролью в организации звуковой цепи).
где - n
- ключевое слово; c
- коллокат; f(n,c)
- частота встречаемости ключевого слова
в паре с коллокатом; f(n)
- абсолютные (независимые) частоты
ключевого слова и f(c)
- коллоката в тексте = коэффициент
взаимной информации (зависимости) =
сравнение зависимых контекстно-связанных
частот с независимыми, как если бы слова
появлялись в тексте совершенно случайно.
,
где - n
- ключевое слово; c
- коллокат; f(n,c)
- частота встречаемости ключевого слова
в паре с коллокатом; f(n)
- абсолютные (независимые) частоты
ключевого слова и f(c)
- коллоката в тексте. Мера
,
учитывая частоту совместной встречаемости
ключевого слова и его коллоката,
показывает насколько неслучайной
является сила ассоциации (связанности)
между коллокатами (коллокацией
(полуфраземой) называется словосочетание,
состоящее из двух или более слов, имеющее
признаки синтаксически и семантически
целостной единицы, значение которой не
может быть получено из значений или
коннотаций ее компонентов).
В качестве примера расчета энтропии и некоторых статистических индексов текста приведем результаты компьютерной обработки текстов русской поэзии XIX-XX веков, отдельно выделив поэтов, представленных на сайте «Машинного фонда русского языка /МФРЯ/» [http://cfrl.ru/, http://МФРЯ.РФ, http://cfrl.ruslang.ru/, http://nature.syktsu.ru/cfrl, http://www.irlras-cfrl.rema.ru/, http://www.artint.ru/cfrl, http://www.tractor.de/].
