Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Володина М.Н. - Язык СМИ как объект междисципли...doc
Скачиваний:
2
Добавлен:
01.03.2025
Размер:
3.5 Mб
Скачать

4. Автоматизированный анализ лексических, морфологических и морфемных характеристик газетных текстов различных жанров

На основе анализа подобным образом категоризованных текстов и единиц удалось создать целое семейство частотных и частотно-распределительных словарей, демонстрирующих специфику поведения различных языковых единиц в текстах различных жанровых типов.

Общий объем лексемного словаря по всему корпусу – 169 тыс. лексем

Лексемный словарь инф. жанров

– 56303 лексемы.

Лексемный словарь публ. жанров

– 75721 лексема.

Лексемный словарь инф.-публ.

– 126259 лексем.

Лексемный словарь худ

– 15200 лексем.

Лексемный словарь худ.-пуб

– 126236 лексем.

Лексемный словарь оф.-дел.

– 17525 лексем

Лексемный словарь рекл. ж.

– 19224 лексемы.

Лексемный словарь разг ж.

– 1130 лексем

Лексемный словарь остальных жанров

– 49394 лексемы.

в начало статьи << >> в начало

5. Частотно-распределительный

(ПО ЖАНРОВЫМ ТИПАМ)

СЛОВАРЬ ЛЕКСИЧЕСКИХ ЕДИНИЦ ПО ВСЕМУ КОРПУСУ

На основе анализа текстов Большого корпуса получен полный распределительно-частотный словарь лексем.

Небольшой фрагмент его приводится ниже Полный текст словаря, содержащий 159 тыс. разных лексем корпуса, готовится к печати.

Таблица 4

Фрагмент Частотного словаря по Большому корпусу

№№

Слово

Гр. х-ка

Инф.

Собст.-публ.

Инф.-публ.

Худож.

Худож.-публ.

Реклам.

Офиц.-дел.

Разг.-пис.

Ост.

Все жанры

1

в

v

40104

72705

223130

7760

24912

4852

4475

229

28511

406678

2

и

юи

26368

69056

185954

10287

24957

3207

4105

527

25185

349646

3

на

v

17612

30230

94984

4255

11497

2008

2190

124

12445

175345

4

не

ho

9305

34316

95905

5449

13457

818

1856

345

13254

174705

5

с

v

10917

22892

69794

3140

8945

1618

1672

359

9549

128886

6

этот

пэ

7872

23143

68714

2695

7602

722

1275

88

9166

121277

7

быть

г

8273

21125

63479

3065

8365

684

1068

130

8651

114840

8

что

мcu

6829

20870

66187

2969

7509

460

1035

92

8373

114324

9

тот

пой

5092

17878

51373

68

5618

431

823

60

6714

88057

10

а

юа

4426

14587

40683

2840

6044

767

772

200

6516

76835

11

по

v

8691

12943

41813

1275

4131

874

966

33

5586

76332

12

весь

пз

4540

14711

41630

2338

5805

557

761

145

5762

76249

13

как

нбя

3908

12176

34148

2179

4831

305

543

57

4357

62504

14

к

v

4288

10962

30311

1486

3737

439

620

168

3937

55968

15

о

v

4329

10653

30735

1012

3013

386

617

77

3888

54730

16

из

v

5172

9692

28316

1116

3594

495

471

398

3937

53211

17

но

юн

2398

10201

29354

1581

4073

249

528

60

4034

52478

Кроме того, подготовлены к печати, полученные на том же материале:

1.       Частотный словарь словоформ.

2.       Частотный словарь корней.

3.       Частотный словарь аффиксальных моделей слов.

4.       Частотный словарь новых слов (не зафиксированных в ранее изданных толковых словарях).

в начало статьи << >> в начало

6. ОБЩАЯ СТАТИСТИКА ЛЕКСИКО-ГРАММАТИЧЕСКИХ КАТЕГОРИЙ В БОЛЬШОМ И ЯДЕРНОМ КОРПУСАХ

На Большом корпусе получены следующие статистические данные о распределении в нем лексико-грамматических категорий слов по основным жанровым типам.

Таблица 5

Распределение употребительности слов различных грамматических категорий по текстам основных жанровых типов в Большом корпусе (абсолютные цифры)

Часть речи

Ин-форм.

Собст.-пуб.

Инф.-пуб.

Худ.

Худ,-пуб.

Реклама

Оф. дел.

Разг.-п.

Все жанры (за искл. ост.)

Вводн. слово

2643

10120

28771

676

2457

326

506

7

45506

Глагол

119983

280785

9823

47563

114754

11018

16794

5392

606112

Инояз. вкрапление на кириллице

7

540

1765

43

167

67

76

0

3117

Лат. ном.

4749

2627

8634

202

469

740

647

87

18155

Междометие

3113

8112

9649

1994

4389

283

339

61

27940

Мест.-прилаг.

129694

276708

725049

27752

87059

15662

17946l

0

1279870

Мест.-сущ.

26483

94750

260472

18844

46114

4421

5348

1911

458343

Наречие

34791

105929

281797

17584

44155

3533

5157

784

493730

Предикатив

3785

12473

36733

1815

4430

426

917

38

60617

Предлог

116444

223133

460221

22614

79561

13457

14896

776

931102

Прилаг.

1043

4186

12966

709

1828

97

256

6

21091

Союз подчинит.

3930

13333

25480

1830

4558

667

1172

77

51047

Союз сочинит.

33997

96654

235020

346

36083

4314

5531

4

411949

Компаратив

2255

6169

1266

480

2203

284

550

55

13762

Сущ.

407501

673285

2039283

348

218056

50405

49470

12

3438360

Цифра

71009

35481

104234

679

7361

12868

6358

257

238247

Частица

19921

74206

178973

11575

28496

2038

3755

531

319495

Числит.

6840

11559

37554

1617

4888

632

753

22

63865

Порядк. числит.

4396

8151

21827

745

2651

520

426

43

38759

Все части речи

993036

1938201

4479517

157916

689679

121758

130897

10063

8521067

Таблица 6

Распределение употребительности слов различных грамматических категорий по текстам основных жанровых типов в Большом корпусе (в процентах)

Часть речи

Ин-форм.

Собст.-пуб.

Инф.-пуб.

Худ.

Худ.-пуб.

Реклама

Оф.-дел.

Разг.-п.

Все жанры (за искл. ост.)

Вводн. слово

0,2661

0.522134

0,642279

0,42808

0,35625

0,26774

0,38656

0,06956

0,53404

Глагол

12,0824

14,48689

0,219287

30,1192

16,6388

9,0491

12,8299

53,5824

7,1131

Инояз. вкрапление на кириллице

0,0462

0,027861

0,039402

0,02723

0,02421

0,05503

0,05806

0

0,03658

Лат. ном.

0,4782

0,13553

0,19274

0,1279

0,068

0,6077

0,4942

0,8645

0,21306

Междометие

0,3134

0,41853

0,21540

1,2627

0,6363

0,2324

0,2589

0,6061

0,32789

Мест.-прилаг.

13,0604

14,27654

16,18587

17,5739

12,6231

12,8632

13,71

0

15,0201

Мест.-сущ.

2,6668

4,88855

5,81473

11,9329

6,6863

3,6309

4,0856

18,9904

5,37894

Наречие

3,5035

5,46532

6,29079

11,135

6,4022

2,9016

3,9397

7,7909

5,79423

Предикатив

0,3811

0,64353

0,82002

1,1493

0,6423

0.3498

0,7005

0,3776

0,71138

Предлог

11,7261

11,51238

10,2739

14,3203

11,5359

11,0523

11,3799

7,7114

10,9271

Прилаг.

0,1050

0,21597

0,28945

0,4489

0,2650

0,0796

0,1955

0,0596

0,24752

Союз подчинит.

0,3957

0,68790

0,56881

1,1588

0,6608

0,5478

0,8953

0,7651

0,59907

Союз сочинит.

3,4235

4,98678

5,24654

0,2191

5,2318

3,5430

4,2254

0,0397

4,83448

Компаратив

0,2270

0,31828

0,02826

0,6205

0,3194

0,2332

0,4201

0,5465

0,16151

Сущ.

41,0359

34,73763

45,52462

0,2203

31,617

41,3977

37,7931

0,1192

40,3513

Цифра

7,1507

1,83061

2,32690

0,4299

1,0673

10,5685

4,8572

2,5539

2,79598

Частица

2,0060

3,82860

3,99536

7,3298

4,1317

1,6738

2,8686

5,2767

3,74947

Числит.

0,6888

0,59637

0,83834

1,0239

0,7087

0,5190

0,5752

0,2186

0,7495

Порядк. числит.

0,4426

0,42054

0,48726

0,4717

0,3843

0,4270

0,3254

0,4273

0,45486

Все части речи 100%

993036

1938201

4479517

157916

689679

121758

130897

10063

8521067

Более подробная статистика употребительности слов различных грамматических и лексико-грамматических категорий и других текстовых единиц получена по Ядерному корпусу.

Таблица 7

Статистика употребительности слов различных грамматических и лексико-грамматических категорий и других текстовых единиц по Ядерному корпусу

Разные единицы

Количество их употреблений

Всего «словоформ» различного рода

160318

1343537

из них: собственно словоформы (без цифр и лат. написаний)

156827

1310424

собственно лексемы (без цифр и лат. написаний)

57628

1310424

цифрообозначения

2191

27865

слова, напис. латиницей

1231

5162

слова с сочетанием латинск. и русск. букв

69

86

Существительные

32846

464109

из них: одуш. нарицательные

3534

67330

неодуш. нарицательные

16827

309353

МУЖСК. РОД

13281

204701

из них: имена

1577

12301

отчества

147

1236

географ, назв.

1008

1236

ЖЕНСК. РОД

7297

143993

из них: имена

494

3065

отчества

56

436

географ, назв.

557

11377

СРЕДН. РОД

3689

76915

из них: географ, назв.

240

688

PLUR. TANTUM

390

6770

из них: геогр. назв.

240

1133

ФАМИЛИИ

5638

21249

ИНИЦИАЛЫ

28

2975

Остальное (неоформл. по роду слова, аббревиатуры, индексы, сокращ. и др.)

2523

31730

Прилагательные (с порядк. и местоим.)

11609

196215

из них: порядковые

347

5366

местоименные (включая который)

44

40054

сложные типа «цифра + аффиксоид» (9-струнный и т.п.)

205

409

Глаголы

10022

189785

Переходность/непереходность

ПЕРЕХОДНЫЕ

5344

99741

НЕПЕРЕХОДНЫЕ

4559

86567

ОМОНИМЫ*

119

3477

*«Омоним» – случаи, когда пара омонимичных по виду слов а не в корпусе), имеет два грамматических значения – перех. и неперех.

Вид

НСВ

4569

95571

СВ

4890

85824

ДВУВИДОВЫЕ

404

3707

ОМОНИМЫ*

159

4683

*«Омоним» – последовательность букв, обозначающая два глагола, один из которых имеет значение СВ, другой – НСВ (в т.ч. глаголы с различиями в месте ударения типа разрéзать/разрезáть, спеши       ть/спéшить и т.п.)

Неопред, колич. слова типа много

11

1645

Местоимения-существительные (в т.ч. омоним это мест./част.)

35

67814

Наречные слова (в т.ч. омонимы «союз/союзное слово»)

864

52749

из них: местоим. нареч. (в т.ч. омонимы с союзом)

59

12330

наречия с временной сем. (в т.ч. местоим.)

136

18875

наречия степени (в т.ч. местоим.)

132

5828

наречия с семантикой места (в т.ч. местоим.)

97

7238

Омонимы «наречие/кратк. прилаг.»

1204

21751

Сравнит. степень прилаг./нареч. (в т.ч. омонимы типа «сравн./вводн.»)

383

7030

Предикативы (в т. ч. омонимы с преоблад. предик, функции)

185

7062

из них: местоим. слова типа некуда

10

243

Предлоги (простые, в т.ч. омон. типа «предлог/нареч.»)

83

153668

Частицы (в т.ч. бы-формообраз., -то (не в сост. неопр. мест.), -ка, -с, -де)

71

46685

Союзы (простые)

34

81428

из них: сочинит.

13

62842

подчинит.

19

18586

Междометия

74

430

Вводные слова (в т.ч. омонимы с преобл. вводной функции)

45

5773

Слова с предметной и признаковой семантикой

(среди знаменат. част. речи)

предметные (в. т.ч. и местоим.)

3298

531922

признаковые (в т.ч. и местоим.)

31089

490604

Слова с местоименной семантикой

164

123524

в начало статьи << >> в начало