Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Глазачев Дипломная Коряжма 2010.docx
Скачиваний:
19
Добавлен:
27.09.2019
Размер:
1.12 Mб
Скачать

2.4. Реализация программы на примере корпуса текстов поэтов Золотого и Серебряного века

Результат работы программы – файл с расширением .csv, предназначенный для представления табличных данных. Каждая строка файла - это одна строка таблицы. Каждая строка файла содержит название входного текстового файла с расширением .txt, информацию по подсчитанным параметрам, время обработки файла. Все это перечислено через запятую, которая является разделительным символом. Этот csv-файл затем может импортироваться в Excel, куда он загружается в виде электронной таблицы.

 

Поэты

N

L

Lf1

H*k

Ii

Ie

Iq

IC

IP

1

1880-1921_Блок А.А.

207394

33188

16135

11,8923

6,25

1,56

0,08

34206

92,2201

2

1799-1837_Пушкин А.С.

208199

38438

21363

12,17

5,42

2,05

0,08

39383

89,7391

3

1821-1876_Некрасов Н.А.

218188

45116

26580

12,2598

4,84

2,44

0,08

45828

87,8178

4

1783-1852_Жуковский В.А.

133609

26886

15662

11,7089

4,97

2,34

0,08

27526

88,2777

5

1814-1841_Лермонтов М.Ю.

120803

22487

12540

11,5011

5,37

2,08

0,08

23229

89,6195

6

1892-1941_Цветаева М.И.

146057

36430

23266

12,2324

4,01

3,19

0,09

36727

84,0706

7

1890-1960_Пастернак Б.Л.

142639

36191

20250

12,1367

3,94

2,84

0,11

36954

85,8033

8

1804-1860_Хомяков А.С.

71972

15449

9058

11,2442

4,66

2,52

0,09

15766

87,4146

9

1820-1892_Фет А.А.

77832

20081

12745

11,6031

3,88

3,28

0,09

20407

83,625

10

1885-1992_Хлебников В.

80275

23579

14897

12,1551

3,41

3,71

0,11

23877

81,4425

11

1822-1864_Григорьев А.А.

54227

12869

7993

11,0561

4,21

2,95

0,09

13075

85,2601

12

1822-1862_Мей Л.А.

72011

20559

13676

11,6517

3,5

3,8

0,1

20868

81,0085

13

1872-1936_Кузмин М.А.

65277

19678

13048

11,8355

3,32

4

0,1

19846

80,0113

14

1824-1861_Никитин И.С.

54584

14472

8925

11,3865

3,77

3,27

0,1

14729

83,6491

15

1870-1953_Бунин И.А.

55128

15428

9505

11,5478

3,57

3,45

0,11

15696

82,7583

16

1792-1878_Вяземский П.А.

58594

18486

12559

11,6737

3,17

4,29

0,1

18722

78,5661

17

1825-1893_Плещеев А.Н.

42538

11303

7091

11,0872

3,76

3,33

0,1

11468

83,3302

18

1895-1925_Есенин С.А.

47653

14676

9800

11,4621

3,25

4,11

0,1

14781

79,4347

19

1889-1966_Ахматова А.А.

48871

14244

9548

11,2706

3,43

3,91

0,1

14448

80,4628

20

1807-1873_Бенедиктов В.Г.

50398

16525

11227

11,7093

3,05

4,46

0,11

16711

77,7233

21

1800-1844_Баратынский Е.А.

40347

12933

8800

11,4138

3,12

4,36

0,1

13004

78,1892

22

1891-1938_Мандельштам О.Э.

48899

16108

10035

11,8223

3,04

4,1

0,12

16304

79,4781

23

1893-1930_Маяковский В.В.

51909

20044

14825

12,0596

2,59

5,71

0,1

20143

71,4404

24

1840-1893_Апухтин А.Н.

31620

9888

6612

11,0456

3,2

4,18

0,1

9989

79,0891

25

1787-1855_Батюшков К.Н.

34864

11228

7333

11,3306

3,11

4,21

0,11

11377

78,9668

26

1795-1826_Рылеев К.Ф.

34470

11216

7400

11,301

3,07

4,29

0,11

11342

78,5321

27

1743-1803_Богданович И.Ф.

29156

9226

6244

10,9975

3,16

4,28

0,1

9331

78,5842

28

1803-1873_Тютчев Ф.И.

33497

10591

6980

11,1751

3,16

4,17

0,11

10745

79,1623

29

1862-1911_Фофанов К.М.

32433

10898

7184

11,3501

2,98

4,43

0,11

11046

77,8497

30

1821-1908_Жемчужников А.М.

29793

10194

7188

11,1259

2,92

4,83

0,1

10278

75,8735

31

1809-1842_Кольцов А.В.

23321

7669

5154

10,9213

3,04

4,42

0,11

7709

77,8997

32

1798-1831_Дельвиг А.И.

28359

9924

6856

11,14

2,86

4,84

0,11

10008

75,8243

33

1855-1909_Анненский И.Ф.

20651

7869

5621

11,0095

2,62

5,44

0,11

7921

72,7809

34

1797-1837_Бестужев-Марлинский А.А.

20895

8673

6239

11,3438

2,41

5,97

0,12

8728

70,1412

Вычисление дополнительных параметров

Для каждой из рассматриваемых характеристик (накопленная энтропия, индекс итерации, индекс исключительности, индекс плотности, индекс дистрибуции, индекс предсказуемости) с помощью встроенных формул вычислены следующие показатели: максимальное значение, минимальное значение, дисперсия, дисперсия для генеральной совокупности, медиана, среднее значение.

Алгоритм вычисления для каждого показателя использовался один и тот же. Данный алгоритм действителен при работе в MS Excel 2007.

Интегральная оценка

Получение интегральной оценки подразумевает свертывание системы показателей в единый интегральный показатель (возможно заменить показатель на значение). Использование интегрального показателя переводит ситуацию поликритериального оценивания к ситуации монокритериального оценивания и соответственно упрощает процесс оценивания общего вклада поэтов в культуру.

Рассматриваемые характеристики (накопленная энтропия, индекс итерации, индекс исключительности, индекс плотности, индекс дистрибуции, индекс предсказуемости) имеют несопоставимые диапазоны измерения. Поэтому предварительно необходимо перейти к нормированным частным показателям для каждой характеристики. Нормирование — это монотонное преобразование шкал измерения показателей. Наиболее часто используют преобразование, переводящее частные показатели в интервал [0,1]. Частные показатели подбираются так, чтобы все они имели одинаковую направленность и соответствовали принципу “больше значение – лучше результат”.

Для накопленной энтропии, индекса итерации, индекса дистрибуции, индекса предсказуемости частные показатели вычисляются по формуле:

для индекса исключительности и индекса плотности по формуле:

где – нормированный частный i-ый показатель для j-го поэта, – показатель i-ой характеристики для j-го поэта, – минимальный показатель для i-ой характеристики, – максимальный показатель для i-ой характеристики.

Для объединения нормированных значений в единый интегральный показатель используется формула:

где – интегральный показатель для j-го поэта, – k-ый показатель для j-го поэта, n – количество нормированных частных показателей.

После вычисления интегральных показателей для каждого поэта производится сортировка таблицы в порядке убывания полученных результатов с целью ранжирования поэтов по вкладу в культуру.

Вторая глава посвящена основным понятиям лингвистической статистики. Приведены индексы, коэффициенты и формулы для расчёта количественных показателей текстов. В этой же главе описан алгоритм программы и использование этой программы для количественной обработки корпуса текстов поэтов Золотого и Серебряного веков.

График 1

График 2

График 3

График 4

График 5

График 6

Итоговый график