Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Пиотровский

.pdf
Скачиваний:
174
Добавлен:
06.06.2015
Размер:
9.13 Mб
Скачать

Xi, x2, ..., XN и y l t уг,..., yN . Эти выборки взяты либо из одной, либо

из разных генеральных совокупностей.

_

Согласно теореме Ляпунова

(см. гл. 6, § 4, п. 4), средняя х пер-

вой выборки есть нормально распределенная

случайная

величина

с параметрами М (х) =

и D

(х) = ог|/Л^1( а

средняя у

второй вы-

борки аналогично является нормально распределенной случайной

величиной с параметрами М

Q) -= щ и D (у) =

Оу/Ыг.

 

Необходимо определить

существенность

расхождения средних

х и у. Для

этого зададим нулевую гипотезу Н0,

состоящую в пред-

положении,

что х н у

различаются несущественным

образом,

т. е.

их математические ожидания равны: М (ж) =

М

(у), или Ц! =

ца.

Принятие гипотезы Н0

означает, что выборки

 

и

принадлежат

не к разным, а к одной и той же генеральной совокупности. Отклонение этой гипотезы свидетельствует о том, что расхождение между

х и у существенно, М (х) Ф М

(у), а выборки

Nt

и

взяты из

разных генеральных совокупностей.

 

 

_

 

Для проверки гипотезы Нй введем величину

б =

х — у, которая

также является

случайной величиной с математическим

ожиданием

АГ(б)

= М(х — у) =

М{х) — Мф)

«

^

— Щ

и дисперсией

 

 

 

 

 

 

D (б) = a' = D (х) + D (у) - oi/Ni

+

 

 

 

Рассмотрим нормированную случайную величину

 

 

б—М(б) У£>(8)

которая также распределена по нормальному закону с математи-

ческим ожиданием 0 и дисперсией 1. В силу соотношения

(6.127)

можно считать, что

 

Р

(9.12)

Выбор статистического критерия снова зависит от того, известны ли нам дисперсии D (х) = of и D (у) of или нет.

Пусть (Tj и а | известны. Тогда в качестве статистической характеристики можно взять величину

которая получается из (9.12) в предположении, что ^ = ц, (гипотеза Н0). Затем назначается уровень значимости Й, по которому из табл. VI берется величина zq, выступающая в качестве границы критической области. Если имеет место неравенство \г\ <

320

т. е. статистическая характеристика лежит в области приемлемости гипотезы Н0 , то это означает, что мы можем принять с надежностью ц гипотезу о том, что различие между математическими ожиданиями средних х и у имеет характер случайной статистической флуктуации, откуда М (я) = М {у). Из равенства математических ожиданий следует, что выборки, по которым получены эти средние, взяты из одной генеральной совокупности.

В том случае, если | г | ^ и значение статистической характеристики попадает в критическую область, гипотеза Н0 должна быть отвергнута в пользу альтернативной гипотезы Нъ согласно которой различия между и у существенны, л &L (хУ Ф М (у). Принятие альтернативной гипотезы означает, ч ю ередние взяты из выборок, не принадлежащих одной генеральной совокупности.

Обычно теоретические дисперсии и о^ в распределениях лингвистических объектов остаются неизвестными, а вместо них используются выборочные дисперсии «т и sf . Поэтому проверка лиигво-статистических гипотез осуществляется не с помощью Z-критерия, а путем применения критерия Стьюдента. Переход к этому критерию осуществляется здесь исходя из следующих соображений.

Сперва предполагается, что <та = сг£ + сг*. Тогда для разности х — у имеем дисперсию

а также нормально распределенную нормированную случайную величину

(х—у)—М(х—у) _

(л:—у)—(щ—ца)

(9.13)

У о ( х - у )

a V l / N i + l / N ,

 

Среднее квадратическое отклонение а можно заменить стандартом sXiU, полученным из величины являющейся средневзвешенной выборочных дисперсий

н

 

 

 

 

 

Иными

словами,

 

 

 

 

 

N,

о

N,

 

 

 

2

(*<-*)*+

2

ffli— 1)

—1) s-

*. у

f

Ni-i-Ni—2

Nx+Nt—2

 

U Зак. 1287

 

 

 

321

Заменяя в равенстве (9.13) а на s~x можно прийти к величине

 

 

 

 

 

t*=

 

fc—j/)-(Hi—|Л2)

'

 

 

 

 

 

 

 

 

 

 

%-iVUNi+l/Ni

 

 

 

 

 

имеющей распределение Стьюдента с v =

Л^ +

— 2 степенями

свободы. Проверка нулевой гипотезы Н0,

заключающейся

в

пред-

положении,

что

М

(х) =

М (у)

(т. е. рх

=

ц2),

предусматривает

определение

величины

 

 

 

 

 

 

 

 

 

 

 

 

 

t =

 

х ~ у

 

 

 

 

 

(9.14)

и

сравнение

 

ее

с

табличным

значением

t ^ v .

Если UI <

,

то

гипотеза

 

Н0

принимается

и различия между х и у

рас-

сматриваются

как

несущественные, т. е. М (х) = М (у),

а вы-

борки N у и

 

Л/ 2

считаются принадлежащими одной

генеральной

совокупности.

Если

же

|/| ^

то гипотеза

Н„

отвергается

и принимается альтернативная гипотеза Ни

согласно которой раз-

личия между

х и у

считаются существенными, т. е. М (х)фМ

(у),

а выборки -Л^ и N t

принадлежат к разным лингвистическим

гене-

ральным совокупностям.

Критерий Стьюдента может быть исполь-

зован как при малых, так и при больших значениях Л^ и

N2.

 

 

Познакомившись

со схемой сравнения

двух средних,

перейдем

к исследованию расхождений между средними значениями избыточ-

ности в разговорной, беллетристической и деловой речи шести

евро-

пейских языков.

 

Т а б л и ц а

9.3

Сравнение избыточностей стилей по шести европейским языкам

 

Избыточность [R+R)/2 по языкам

 

Разновидно-

Русский

Польский

Английский

Немецкий

Французский

-Румын ский

сти

языка

 

 

 

 

 

 

 

(1)

(2)

(3)

(4)

(5)

(6)

(7)

Разговор-

0 , 7 7 7

0 , 8 1 3

0 , 7 5 3

0 , 7 9 2

0 , 7 5 7

0 , 8 0 1

ная

речь(р)

 

 

 

 

 

 

Беллетрис- 0 , 8 1 2

0 , 7 9 1

0 , 8 1 8

0 , 7 4 5

0 , 7 7 3

0 , 7 8 8

тика

(б)

 

 

 

 

 

 

Деловая

0 , 8 6 8

0 , 8 6 6

0 , 8 7 5

0 , 8 3 5

0 , 8 7 2

0 , 8 0 2

речь

(д)

 

 

 

 

 

 

R

s

S-

-

 

У

(S)

(9)

(10)

0 , 7 8 2

0 , 0 2 4

 

 

0 , 7 8 8

0 , 0 2 7

0 , 0 2 5 5

)

 

0 , 0 2 6 6

 

 

 

0 , 8 5 3

0 , 0 2 9

0 , 0 2 9 0

J

 

 

С згой целью возьмем средние арифметические нижних и верхних значений избыточности = (Rt + Ri)/2 [столбцы (2) — (7) табл. 9.3] и будем рассматривать их как случайные значения нормально распределенной величины избыточности по каждому из указанных выше стилей. Вычислив среднюю избыточность R и стан-

322

дарт s для каждого стиля [столбцы (8) и (9)1, попытаемся выяснить, насколько существенны расхождения между значениями средней избыточности по каждому из названных стилей. С этой целью будем проверять с помощью критерия Стьюдента нулевую гипотезу Н0, согласно которой расхождения в значениях Rt и Rj являются несущественными. Уровень значимости примем равным 0,05, число сте-

пеней свободы в нашем случае составляет v =

6 + 6 —

2 = 1 0 .

При.

этих условиях граница критической

области

равна

^0,05;ю =

2,23.

 

 

Попарное сравнение средних избыточностей стилей с помощью выражения (9.14) дает следующие результаты.

1) Для

пары

разговорная

речь — беллетристический стиль

имеем

 

 

 

 

,

 

Я р — #б

 

0 , 7 8 2 — 0 , 7 8 8

'р,

б =

 

~~

 

 

ъ У Ш + Т т

0 , 0 2 5 5 1 / 1 / 6 + 1 / 6

 

 

0,006-Уз

_

0,014

 

 

0,0255

 

0,0255

В связи с тем, что

 

 

 

 

 

U p . б I <

А),05! 10 = 2 , 2 3 ,

нулевая гипотеза о несущественности различий средней избыточности разговорного и беллетристического стилей в шести европейских языках принимается как вполне правдоподобная.

2) Для пары разговорная речь— деловая речь аналогичным образом находим

t

0,782 — 0,853

_

0,071 -1,732

 

^

 

Р , Д

0 , 0 2 6 6 1 / 1 / 6 + 1 / 6

~

0,0266

~

'

Полученное значение t здесь выше порога критической области, т. е.

Up, б I > ^ > , 0 5 ; хо = 2 , 2 3 .

Это говорит о существенности расхождений между разговорной и деловой речью. Иными словами, гипотезу о несущественности расхождений избыточности указанных разновидностей следует отвергнуть.

3) Пара беллетристика — деловая речь дает

t

=

0 , 7 8 8 - 0 , 8 5 3

_

0,065 - 1,732 ^

^ 0 2

 

С , Д

0 , 0 2 9 0 1 / 1 / 6 + 1 / 6

 

0,0290

~

Здесь снова имеем неравенство

,05! 10»

говорящее о том, что значение t попадает в критическую область отвержения нулевой гипотезы.

К аналогичным результатам можно прийти, используя вместо критерия Стьюдента Z-критерий (в этом случае предполагается, что а - = s-, а а- — sz). Итак, попарное сравнение средних избыточно-

11*

Ш

стей по трем стилям шести европейских языков показывает, . что различия величин R письменной фиксации разговорной речи и беллетристической речи несущественны*, в то время как расхождения в значениях R для деловой речи, с одной стороны, и разговор- но-беллетристической разновидности в ее письменной форме, с другой, существенны. Причины этих существенных расхождений следует искать в статистико-дистрибутивных характеристиках деловой речи, отражающих ее качественные особенности. Среди этих особенностей, противопоставляющих ее разговорной и беллетристической речи, основное место, очевидно, занимает использование в деловой речи большого числа клише и штампов, нормированность синтаксиса, а также более или менее фиксированный выбор лексики. Все это значительно увеличивает избыточность деловой речи.

3.

Оценка лексических

расхождений между

публицистикой

ГДР

и газетными текстами

ФРГ. Использование

статистических

критериев дает возможность не только исследовать нормированность текста или сравнивать разные функциональные стили по таким усредненным характеристикам, как избыточность. Метод статистической проверки гипотез дает возможность выявлять и оценивать качественные расхождения в лексике, грамматике и фонологии двух разновидностей одного языка или двух близкородственных языков.

Оценка этих расхождений осуществляется путем сравнения частостей употребления лингвистических единиц Lu Ь2, ..., Ln в двух выборках N1 и N2, каждая из которых представляет определенный язык или его разновидность.

Для каждой лингвистической единицы L вычисляются две относительные частоты:/х = /УЛ^ для первой и f2 = F2/N2 для второй выборки. Кроме того, предполагается, что в первом говорении

(т. е. языке, варианте или диалекте)

единица L имеет вероятность

рь

а во втором — вероятность р2.

 

 

 

 

 

Затем выдвигаются две гипотезы: нулевая # 0 ,

предполагающая,

что

ру

=

р2, и альтернативная Нъ

утверждающая, что

рг Ф р2.

Так как

функция распределения

разности Д — /2 имеет

меньшие

скачки

и

меньшую асимметрию,

чем функции

распределений /х

и /2, то можно утверждать, что разность /х — /2 имеет нормальное распределение с математическим ожиданием М (Д — /2) = рг — р2 и дисперсией** (Тр.-р, = ст? + (TJ.

*Если бы в ходе эксперимента по определению энтропии и избыточности текста можно было бы учесть такие дополнительные средства устной речи как жест, мимика, интонация, то не исключено, что мы получили бы иные оценки

ееизбыточности. В этом случае сравнение величин Rp, Re и Ra могло бы привести к другим результатам.

**Хотя точные значения дисперсий нам неизвестны, но при достаточно большом N можно заменить неизвестные величины a j , о | их эмпирическими оценками

1

iVj-1 '

1

iV2-l

Дисперсия же ар,—р, заменяется в этом случае оценкой s2 = s\ + s^.

324

Из рассуждений, приведенных в гл. 6, § 4, п. 4, следует, что нормированное отклонение

Ui—f.i)—(Pi—Pii

распределено нормально. Отсюда при заданном уровне значимости q имеем

Если величина г такова, что

4

то можно считать, что вероятности рх и р% статистически неразличимы (т. е. рх = р2). Если же |г| > zq, то гипотеза Н0 отвергается и принимается альтернативная гипотеза Hl t утверждающая, что

Pi Ф Рг-

С помощью описанного аппарата А. С. Ротарь [33, с. 163 — 199] исследовала соотношение частостей у 1000 наиболее частых словоформ в двух выборках немецких публицистических текстов. Первая выборка охватывает газетные текста ГДР, а вторая — тексты из газет ФРГ за 1965 — 1969 г. Каждая выборка содержит 100 тыс. словоупотреблений. Для повышения надежности исследования взят

трехсигмовый критерий (zq = 3,

Р = 0,9973, q =

0,0027).

Всю процедуру определения

существенности

расхождения ча-

стостей в обоих литературных вариантах рассмотрим на примере

словоформы nach

'после,

через, по', которая, согласно данным ча-

стотного

словаря А.

 

С.

 

Ротарь, имеет

в

выборке

ГДР

=

317

 

(fx = 0,00317),

а

в

выборке

ФРГ

дает F,

= 538

(/2 =

0,00538).

 

 

частостей вычисляются дисперсия и сред-

1) После определения

нее квадратическое отклонение по каждой

выборке в

отдельности

и по обеим выборкам, взятым вместе:

 

 

 

 

 

 

 

г

- а = =

/г(1

к )

_

0,00317 - 0,99683 _

0,0032

 

 

 

°

l

- S l -

Л/j

 

 

 

10?

 

 

105

'

 

 

 

 

2

 

 

0,00538 - 0,99462

0,0053

 

 

 

 

 

 

СГг =

— —

10^

ю?

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

с ^ - р , = (0,0032 +

0,0053)/ 10s =

0,0085/Ю5;

 

 

 

 

 

 

7P l _P i

= у

0,0085/10*= 0,0003.

 

 

 

 

325

2) Вычисляется абсолютная величина г:

| z | = 10,00317—0,005381/0,0003 = 7,03.

Поскольку | z | > 3, следует отвергнуть гипотезу о том, что предлог nach имеет одинаковую вероятность употребления в публицистических текстах ГДР и ФРГ. Более правдоподобной является гипотеза о существенном расхождении этих вероятностей, которое следует искать в дистрибутивно-статистических особенностях употребления этого предлога в восточно- и западногерманской публицистической прозе (ср. ниже).

По только что описанной схеме были сопоставлены частости остальных словоформ списка. Это сопоставление показало следующие результаты.

1. Более восьмисот словоформ дало либо полное совпадение частостей в обеих выборках, либо показало несущественные рас-

хождения

величин Ъ

и /2. В эту группу вошли такие общеупотре-

бительные

существительные,

прилагательные

и глаголы, как

Land

'страна', Mittel

'средство', Ziel

'цель',

kleinen 'малые',

letzte

'последний', brauchen

'нуждаться'.

Общенемецкие дистрибу-

тивно-вероятностные нормы употребления показали также многие артиклевые формы, предлоги, союзы и вспомогательные формы глагола.

2.Существенное расхождение частостей Д и f2 обнаружено почти

удвухсот словоформ, покрывающих около 10% текста. Разные вероятности употребления в газетах ГДР и ФРГ имеют сложносокра-

щенные словоформы и буквенные аббревиатуры (см. табл. 9.4), а также существительные и прилагательные терминологического значения, которые обозначают общественно-политические и экономические понятия, использующиеся преимущественно либо в ГДР, либо в ФРГ (табл. 9.5). Разные вероятности употребления дают географические названия (табл. 9.6), что объясняется либо расположением самих географических объектов, либо нормами географических терминологий, используемых в ГДР и ФРГ, либо преобладанием определенной тематики на страницах восточноили западногерманской прессы.

Менее очевидны причины, порождающие существенные расхождения в частостях количественных числительных и названий месяцев (табл. 9.7), а также у глаголов (табл. 9.8), личных местоимений (табл. 9.9), предлогов и союзов (табл. 9.10). Эти вероятностные различия языка можно отнести за счет разной стилевой ориентации норм восточно- и западногерманских газет. В газетах ГДР печатаются тексты речей, произносимых от первого лица, здесь широко используются нормы деловой речи с ее именными конструкциями; даты, включая названия месяцев, чаще всего записываются в цифровой форме. Газеты ФРГ больше ориентируются на беллетристическую речь, поэтому в западногерманской публицистике преобладают глагольные обороты со сложным предложным управлением, а также широко используются сочинительные и подчинительные конструкции.

326

Т а б л и ц а .9.7

М>

Аббревиатуры и словоформы

Г, (ГДР)

h (ФРГ)

1*1

 

DDR ' Г Д Р '

0 , 0 0 2 5 0

0 , 0 0 0 0 5

1 5 , 3

 

DM

'марка

Г Д Р '

0 , 0 0 0 2 1

0 , 0 0 0 8 9

6 , 5

 

USA

'США'

0 , 0 0 0 9 3

0 , 0 0 0 3 9

4 , 9

4

N A T O 'НАТО'

0 , 0 0 0 2 1

0 , 0 0 0 0 2

3 . 8

5

Prof,

' п р о ф . '

0 , 0 0 0 2 7

0 , 0 0 0 7 7

4 . 9

6

SED

'СЕПГ'

0 , 0 0 0 2 9

0 , 0 0 0 0 9

3 , 3

7

F D J

'Союз

немецкой молодежи'

0 , 0 0 0 3 2

 

 

 

 

 

 

 

 

 

 

 

Т а б л и ц а

9 . 5

 

 

 

 

 

Словоформы

и

f=

1*1

1

Republik

'республика'

 

 

0,00113

0,00007

9,6

2

Genosse

'товарищ'

 

 

0,00047

0,00001

6,7

3

Frieden

'мир'

 

 

 

 

0,00055

0,00004

6,4

4

Einheit

'единство'

 

 

0,00038

0,00003

5 , 5

5

Socialismus

'социализм'

 

0,00038

0,00003

5,5

6

soziа 1 istischen

'социалистические'

0,00055

0,00008

5 , 9

7

Betriebe

'предприятия'

 

0,00037

0,00003

5,4

8

demok га tischen

'демократические'

0,00042

0,00003

5,8

9

Friedens

'мира'

 

 

 

0,00036

0,00002

5,6

10

Betrieb

'предприятие'

 

 

0,00043

0,00005

5,4

11

Werktatigen

'трудящиеся'

0,00034

0,00002

5 , 3

12

Zone

'зона'

 

 

 

 

0,00001

0,00030

5 , 3

13

Staaten

'государство'

 

 

0,00087

0,00030

5,2

14

Prozente

'проценты'

 

 

0,00034

0,00005

4 , 8

15

Steigerung

'повышение'

 

0,00027

0,00003

4,4

16

StelIvertreter

'заместитель*

0,00027

0,00003

4,4

17

Polizei 'полиция'

 

 

0,00005

0,00032

4,4

18

Bundesregierung

'правительство Ф Р Г '

0,00007

0,00038

4,4

19

Konferenz

'конференция'

 

0,00006

0,00032

4 , 3

20

Bau 'стройка'

 

 

 

 

0,00004

0,00025

4,0

21

Ministerrates

'Совета

Министров'

0,00022

0,00001

4,2

22

. Arbeiterklasse

'рабочий

класс'

0,00027

23

Staatsrates

'Государственного Совета'

0,00022

.

24

Volkskammer

'Народная

палата'

0,00022

 

 

 

 

 

 

 

 

 

Т а б л и ц а

9.6

 

 

 

 

 

Словоформы

h

 

1*1

1

Bonner

'бонский'

 

 

0,00069

0,00009

6 , 8

2

Westberlin

'Западный

Берлин'

0,00073

0,00013

6,6

3

Westdeutschland

'Западная Германия'

0,00060

0,00006

6,6

4

Miinchen

'Мюнхен'

 

 

0,00001

0,00039

6 , 3

5

Berlin

'Берлин'

 

 

 

0,00070

0,00152

5 , 5

6

westdeutschen

'западногерманские'

0,00054

0,00009

5,5

7

amerikanischen

'американские'

0,00016

0,00055

4,8

8

Bremen

'Бремен'

 

 

0,00028

 

 

 

 

 

 

 

 

 

 

 

 

9

Istambul

'Стамбул'

 

 

0,00021

 

10

Mill

'Нил'

 

 

 

 

 

0,00099

 

327

 

 

 

 

 

 

 

Т а б л и ц а

.9.7

 

 

 

Словоформу

!

\

1:

12 1

1

drei

'три'

 

 

0,00013

0,00093

8,1

2

zwei

'два'

 

 

0,00026

0,00108

7,1

3

elf 'одиннадцать'

 

0,00001

0,00032

5,7

4

sieben

'семь'

 

0,00002

0,00025

4 . 6

5

funf

'пять'

 

 

0,00011

0,00042

4 . 4

6

sechs

'шесть'

 

0,00009

0,00039

4,3

7

vier

'четыре'

 

 

0,00012

0,00035

3 . 3

8

August

'август'

 

0,00011

0,00086

7 . 5

9

Februar

'февраль'

 

0,00008

0,00048

5.7

10

September 'сентябрь'

 

0 , 0 0 0 0 8

0,00035

4,1

11

Juli

'июль'

 

 

0,00006

0,00023

3.4

 

 

 

 

 

 

 

Т а б л и ц а

9 . 8

 

 

 

Словоформы

 

h

f .

1*1

1

wird

'становится'

 

0,00356

0,00487

4,4

2

seien

'будьте'

 

0,00012

0,00042

4 , 3

3

sieht

'видит'

 

 

0,00009

0,00032

3 , 8

4

unternehmen

'предпринимать'

 

0,00001

0,00020

4,2

5

konnte

'мог

бы'

 

0,00018

0,00045

3,4

6

diirfte

'мог

бы'

 

0,00003

0,00019

3,2

 

 

 

 

 

Т а б л и ц а

9.9

 

 

Словоформы

h

h

M l

1

wir

'мы'

0,00454

0,00096

15,3

2

unserer

'наших'

0,00166

0,00013

11,7

3

ich

' я '

 

0,00271

0,00067

11,3

4

alle

'все'

0,00239

0,00065

10,0

5

unsere

'наши'

0,00143

0,00015

10,0

6

mir

'мне'

0,00045

0,00007

5,4

7

du

'ты'

0,00057

0,00009

6,0

8

unser

'наш'

0,00050

0,00019

3,9

328

 

 

 

 

 

 

 

 

Т а б л и ц а

.9.7

 

 

 

 

Словоформы

h

и

1*1

1

nach (ргр)

'после,

через, по, согласно'

0,00317

0,00538

7,6

2

bis

'пока'

 

 

 

 

0,00004

0,00046

6,0

3

zuriick

'назад,

обратно'

0,00011

0,00059

6 , 0

4

гиг

( z u + d e r )

'к, за,

в'

0,00191

0,00312

5,4

5

da

'так

как'

 

 

 

0,00009

0,00042

4,7

6

am

( a n - f d e m )

'у,

на,

к'

0,00277

0,00384

4,1

7

bei

' у ,

при,

возле,

около'

0,00017

0,00042

3,1

§ 4. Проверка статистических гипотез о тождестве двух лингвистических распределений

1. Сравнение эмпирического и теоретического или двух эмпирических распределений. При решении некоторых теоретических и прикладных вопросов, например при формальном выделении в тексте ключевых и терминологических слов, возникает необходимость рассмотреть не только параметры, но и характер всего лингвистического распределения. Эта задача также решается путем проверки статистических гипотез о тождестве двух эмпирических распределений (вариационных рядов) или об идентичности эмпирического и теоретического распределения.

Схема проверки тождества эмпирического и теоретического распределений выглядит следующим образом. Пусть имеется эмпирическое распределение, например распределение относительных (/), относительных накопленных (f*), абсолютных (F), абсолютных накопленных (F*) частот лингвистического признака L в выборочной совокупности текстов. Это распределение сопоставляется с соответствующим ему гипотетическим теоретическим распределением — с распределением вероятностей ), накопленных вероятностей (р*), математических ожиданий частот \М (F)], математических ожиданий накопленных частот (F*)] признака L в генеральной совокупности текстов. Выдвигается нулевая гипотеза Н0, состоящая в том, что эмпирическое распределение выборки соответствует теоретическому распределению генеральной совокупности. Сам закон распределения может быть задан различным образом, например в форме плотности распределения f (х), в интегральной форме распределения F (х) или каким-то другим образом.

Для того чтобы принять или отвергнуть гипотезу Н0, конструируется некоторая статистическая характеристика W, определяющая степень расхождения эмпирического и теоретического распределений. Величина W может быть построена различными способами: в качестве ее рассматривается либо сумма квадратов отклонений

329