Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Глазачев Дипломная Коряжма 2010.docx
Скачиваний:
19
Добавлен:
27.09.2019
Размер:
1.12 Mб
Скачать

МИНОБРНАУКИ РОССИИ

ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ

ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«ПОМОРСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени М.В. ЛОМОНОСОВА»

КОРЯЖЕМСКИЙ ФИЛИАЛ

МАТЕМАТИЧЕСКИЙ ФАКУЛЬТЕТ

Кафедра математики и информатики Глазачев Владимир Васильевич элементы вычислительной математики и кибернетики для численного анализа поэтических текстов

выпускная квалификационная работа

по специальности 010501 – «Прикладная математика и информатика»

Научный руководитель:

Лесников Сергей Владимирович,

к.ф.н., доцент кафедры

математики и информатики

Допустить в защите в ГАК

заведующий кафедрой математики и

информатики к.ф.-м.н., доцент

___________________В.В. Сушков

Коряжма

2012

Оглавление

Введение 3

Глава 1. Основные возможности и характеристики Python 5

1.1 Python 5

1.2. Описание 9

1.3. Возможности 13

1.4. Библиотеки 19

1.5. Недостатки 22

Глава 2. Основные понятия лингвистической статистики 27

2.1. Индексы (коэффициенты, формулы) и энтропия 34

2.2. Описание выполненной работы. Экспериментальная часть 38

2.3. Алгоритм программы 39

2.4. Реализация программы на примере корпуса текстов поэтов Золотого и Серебряного века 40

Глава 3. Частотные словари 51

3.1. Приемы составления частотных словарей лексики русских текстов 53

3.2. Оценка надежности частотного словаря. 53

3.3. Описание программы «Текстовый анализатор» 55

Заключение 62

Список литературы: 64

Приложение А. Листинг программы 66

Введение

На сегодняшний день имеются много формул для статистической обработки текстов, выведенные как в теории, так и выдвинутые как гипотеза. Только эти формулы находятся в разных источниках и не собраны воедино.

Передо мной стояли основные задачи:

  1. собрать эти формулы,

  2. разобраться в них,

  3. реализовать их в программном коде.

Что и было сделано в настоящей выпускной квалификационной работе. Разработанная программа позволяет разбирать тексты на части речи и анализировать их корпуса. Программа полезна заинтересованным пользователям ПК, информатикам, математикам, и, в частности, лингвистам.

В первой главе рассказывается об основных возможностях, характеристиках, недостатках и библиотеках языка программирования Python.

Вторая глава посвящена основным понятиям лингвистической статистики. Приведены индексы, коэффициенты и формулы для расчёта количественных показателей текстов. В этой же главе описан алгоритм программы и использование этой программы для количественной обработки корпуса текстов поэтов Золотого и Серебряного веков.

В третьей главе описан комплекс программ для составления частотных словарей корпусов текстов и программа «Текстовый анализатор» для интерактивной обработки текстов.

В заключении описывается вывод о проделанной работе.

В приложении представлен листинг программы, а также приведены комментарии к программному коду и описано предназначение отдельных процедур.

Предполагается, что вооруженный такой методикой исследователь сможет узнать из текста больше, чем хотел сказать его автор, ибо, скажем, настойчивое повторение в тексте каких-то тем или употребление каких-то характерных формальных элементов или конструкций может не осознаваться автором, но обнаруживает и определенным образом интерпретируется исследователем - отсюда принадлежащее социологу А.Г.Здравомыслову полушутливое определение контент-анализа как "научно обоснованного метода чтения между строк".

Во многих контент-аналитических проектах осуществляется не только оценка степени представленности в тексте тех или иных единиц, но и одновременная оценка этих единиц по тем или иным градуированным качественным шкалам. Обработка, презентация и интерпретация результатов.

Преимущества компьютерного анализа перед аналогичным исследованием тестов в ручную, на мой взгляд, очевидны. Он позволяет сэкономить время на структурировании результатов, оформлении их в таблицах, графиках, определениях.

Актуальность данной работы обусловлена, в частности, финансовой поддержкой Российского фонда фундаментальных исследований по исследовательскому проекту (грант) N 11-07-00733 (2011-2013) «Гипертекстовый информационно-поисковый тезаурус /ИПТ/ «Метаязык науки» (структура; математическое, лингвистическое и программное обеспечения; разделы лингвистика, математика, экономика) (научный руководитель С.В. Лесников)».