Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Северный (Арктический) федеральный университет им. М. В. Ломоносова

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Глазачев Дипломная Коряжма 2010.docx

Скачиваний:

Добавлен:

27.09.2019

Размер:

1 Мб

Скачать

☆

1 / 191 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 > Следующая >>>

МИНОБРНАУКИ РОССИИ

ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ

ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«ПОМОРСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени М.В. ЛОМОНОСОВА»

КОРЯЖЕМСКИЙ ФИЛИАЛ

МАТЕМАТИЧЕСКИЙ ФАКУЛЬТЕТ

Кафедра математики и информатики Глазачев Владимир Васильевич элементы вычислительной математики и кибернетики для численного анализа поэтических текстов

выпускная квалификационная работа

по специальности 010501 – «Прикладная математика и информатика»

Научный руководитель:

Лесников Сергей Владимирович,

к.ф.н., доцент кафедры

математики и информатики

Допустить в защите в ГАК

заведующий кафедрой математики и

информатики к.ф.-м.н., доцент

___________________В.В. Сушков

Коряжма

2012

Оглавление

Введение 3

Глава 1. Основные возможности и характеристики Python 5

1.1 Python 5

1.2. Описание 9

1.3. Возможности 13

1.4. Библиотеки 19

1.5. Недостатки 22

Глава 2. Основные понятия лингвистической статистики 27

2.1. Индексы (коэффициенты, формулы) и энтропия 34

2.2. Описание выполненной работы. Экспериментальная часть 38

2.3. Алгоритм программы 39

2.4. Реализация программы на примере корпуса текстов поэтов Золотого и Серебряного века 40

Глава 3. Частотные словари 51

3.1. Приемы составления частотных словарей лексики русских текстов 53

3.2. Оценка надежности частотного словаря. 53

3.3. Описание программы «Текстовый анализатор» 55

Заключение 62

Список литературы: 64

Приложение А. Листинг программы 66

Введение

На сегодняшний день имеются много формул для статистической обработки текстов, выведенные как в теории, так и выдвинутые как гипотеза. Только эти формулы находятся в разных источниках и не собраны воедино.

Передо мной стояли основные задачи:

собрать эти формулы,
разобраться в них,
реализовать их в программном коде.

Что и было сделано в настоящей выпускной квалификационной работе. Разработанная программа позволяет разбирать тексты на части речи и анализировать их корпуса. Программа полезна заинтересованным пользователям ПК, информатикам, математикам, и, в частности, лингвистам.

В первой главе рассказывается об основных возможностях, характеристиках, недостатках и библиотеках языка программирования Python.

Вторая глава посвящена основным понятиям лингвистической статистики. Приведены индексы, коэффициенты и формулы для расчёта количественных показателей текстов. В этой же главе описан алгоритм программы и использование этой программы для количественной обработки корпуса текстов поэтов Золотого и Серебряного веков.

В третьей главе описан комплекс программ для составления частотных словарей корпусов текстов и программа «Текстовый анализатор» для интерактивной обработки текстов.

В заключении описывается вывод о проделанной работе.

В приложении представлен листинг программы, а также приведены комментарии к программному коду и описано предназначение отдельных процедур.

Предполагается, что вооруженный такой методикой исследователь сможет узнать из текста больше, чем хотел сказать его автор, ибо, скажем, настойчивое повторение в тексте каких-то тем или употребление каких-то характерных формальных элементов или конструкций может не осознаваться автором, но обнаруживает и определенным образом интерпретируется исследователем - отсюда принадлежащее социологу А.Г.Здравомыслову полушутливое определение контент-анализа как "научно обоснованного метода чтения между строк".

Во многих контент-аналитических проектах осуществляется не только оценка степени представленности в тексте тех или иных единиц, но и одновременная оценка этих единиц по тем или иным градуированным качественным шкалам. Обработка, презентация и интерпретация результатов.

Преимущества компьютерного анализа перед аналогичным исследованием тестов в ручную, на мой взгляд, очевидны. Он позволяет сэкономить время на структурировании результатов, оформлении их в таблицах, графиках, определениях.

Актуальность данной работы обусловлена, в частности, финансовой поддержкой Российского фонда фундаментальных исследований по исследовательскому проекту (грант) N 11-07-00733 (2011-2013) «Гипертекстовый информационно-поисковый тезаурус /ИПТ/ «Метаязык науки» (структура; математическое, лингвистическое и программное обеспечения; разделы лингвистика, математика, экономика) (научный руководитель С.В. Лесников)».

1 / 191 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
05.12.2018160 Кб4ГЛАВА 6 ДЕТИ С ЦЕРЕБРАЛЬНЫМ ПАРАЛИЧОМ.doc
#
01.04.20254 Мб6Глава 8.doc
#
01.04.20254 Мб5Глава 9.doc
#
27.11.2019246 Кб5ГЛАВА IV НОРМАЛЬНЫЙ ЗАКОН РАСПРЕДЕЛЕНИЯ.docx
#
01.07.2025343 Кб1Главатских Математика.doc
#
27.09.20191 Мб32Глазачев Дипломная Коряжма 2010.docx
#
01.05.202557 Кб3Глазычев В. и др. Челябинская агломерация. 2008...docx
#
11.03.2016373 Кб138Глушак начало.doc
#
13.02.2015872 Кб17ГМиТП.pdf
#
13.02.201539 Кб512гнвп.docx
#
01.07.202550 Кб5Годовой реферат по биологии.docx