Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Пиотровский

.pdf
Скачиваний:
174
Добавлен:
06.06.2015
Размер:
9.13 Mб
Скачать

6. Мода Модой (Mo) называется наиболее часто встречающаяся варианта данного вариационного ряда (ср. гл. 6, § 1, п. 3). Определение моды для дискретного распределения не представляет трудности. Модой здесь служит та варианта, которой соответствует наибольшая частота (кстати, таких вариант может быть несколько).

Несколько сложнее определить моду в интервальных непрерывных распределениях. Здесь, как и при вычислении медианы, начинают с определения модального интервала, т. е. того интервала, внутри которого находится мода (таких интервалов может быть несколько). Затем численное значение моды определяют по следующей приближенной формуле:

Mo = X„ 0 ( m ) n ) +

fe—

р . (7.10)

 

( " М о - п М о - 1 ) ' ( Мо n M o + 1 )

где Хмо(пнп) — нижняя

граница модального

интервала; k — длина

модального интервала; пш —частота модального интервала; пМо_,— частота интервала, предшествующего модальному; пМ о +1 — частота интервала, следующего за модальным.

Пользуясь данными табл. 7.9, вычислим моду распределения длин китайских слогов. Модальным здесь является третий интервал;

следовательно,

 

М о = 100 + 30

= 121,43.

( 4 9 — 9 ) +

(49 — 33)

7. Соотношение между средней арифметической, медианой и мо дой. Соотношение между этими тремя основными параметрами эмпирических распределений используется для оценки асимметрии распределений. Нетрудно заметить, что в тех случаях, когда распределение симметрично, выполняется равенство х = Me = Мо.

В случае умеренной асимметрии вариационного ряда — явлении, часто встречающемся в лингвистике,— имеет место следующее приближенное равенство: М о » * — 3 (х — Me), иными словами,

медиана расположена между модой и средней арифметической так, что расстояние от нее до моды равно двум расстояниям от медианы до средней арифметической. В случае умеренно скошенных распре,- делений этим соотношением пользуются для грубой оценки неизвестного параметра (скажем, моды) по двум известным характеристикам, например медианы и средней арифметической [7, с.55].

Сделаем теперь несколько замечаний об использовании указанных статистических параметров. Из всех этих параметров наиболее простой по смыслу и по способу получения является средняя арифметическая. В отличие от моды и медианы средняя арифметическая легко поддается аналитическим операциям: выше уже указывалось, что при объединении двух распределений с различными средними средняя полученного распределения равна сумме средних из отдельных распределений. Поэтому, если нет существенных доводов в пользу иного вида средней, следует пользоваться средней арифметической.

240

Вместе с тем следует помнить, что средняя арифметическая изменяется с изменением значения любого признака. Особенно она чувствительна к колебаниям крайних вариант распределений. Иначе обстоит дело с медианой: из ее определения следует, что медиана не зависит от значений признаков, лежащих справа и слева от нее (важно лишь, чтобы число признаков, меньших и больших, чем медиана, оставалось неизменным). Поэтому медиану целесообразно использовать в качестве средней для таких распределений, концы которых определены недостаточно надежно.

Что касается моды, то она служит средством выявления одного или нескольких значений признака, около которых группируется большая часть объема асимметричного лингвистического распределения. В лингво-статистике модальные характеристики распределения могут быть использованы для объективного выделения терминологических, ключевых и вообще доминантных слов и словосочетаний текста.[32а, с.47—112].

8. Рассеяние значений признака. Размах вариации. Хотя средняя арифметическая, мода, медиана и другие средние признаки дают ориентировочную количественную характеристику лингвистической единицы, они не учитывают степень равномерности употребления этой единицы в текстах. Между тем учет количественной вариации лингвистического признака в изучаемом тексте имеет принципиальное значение для языковеда. Всякая вариация лингвистической случайной величины передает в конечном итоге лексические, грамматические, стилевые и другие внутрилингвистические и экстралингвитические особенности текста.

Наиболее простой характеристикой рассеивания признака яв-

ляется размах вариации

R, который определяется разностью

R ~

^mln-

Рассмотрим" в этой связи два вариационных ряда частот немецкого существительного Kraft в двух выборках публицистических текстов — одна из газет ГДР (табл 7.17), другая — из газет ФРГ (табл. 7.18). Каждая выборка состоит из 20 текстов по 1000 словоупотреблений каждый [7, с. 57].

 

 

 

 

 

 

 

 

Т а б л и ц а

7.17

 

0

1

2

3

 

4

5

6

7

ni

16

2

0

0

 

1

1

0

0

 

 

 

 

 

 

 

 

Т а б л и ц а

7.18

*i

0

1

2

3

'

4

5

6

7

 

9

11

0

0

 

0

0

6

0

.241

Используя формулу (7.4), находим, что средние арифметические значения для обоих.рядов вариант одинаковы*

~х = = 0,55.

Вместе с тем эти ряды дают различный размах вариации; R (х) = 16 — 0 = 16, R (х') = 11—0=11.

Однако размах вариации является очень приближенной оценкой степени рассеивания признака, так как совершенно не учитывает положений и «весов» вариант признака, находящихся в пределах крайних вариант. Действительно, хотя размах вариации немецкого существительного Kraft в текстах ГДР выше, чем в западногерманских текстах, крайние варианты в первом случае встречаются редко и имеют малый вес, поэтому вряд ли можно уверенно говорить о том, что рассеяние здесь действительно выше, чем в текстах ФРГ.

9 Линейное отклонение. Более точную оценку рассеивания можно получить, учитывая абсолютные величины отклонений | Xi — х \ значения признака от его средней арифметической. Среднее значение этих абсолютных величин, называемое линейным отклонением, вычисляется для несгруппированного вариационного ряда по формуле

 

j

N

 

UY-*L=

 

\XJ—X\,

 

 

 

i= i

 

а для сгруппированного ряда — по формулам

 

 

 

 

( 7 Л 1 )

или

 

 

 

1 * 7 ^ 1 =

£

ft\x,-x\.

(7.12)

 

i = i

 

Линейные отклонения для вариационных рядов существитель-

ного Kraft (см. табл. 7.17 и 7.18) соответственно

составляют

— — 0,88 и

I*;— х 1 = 0,50.

Статистическая вариация

в

употреблении

существительного

Kraft в публицистических текстах ГДР несколько выше, чем в газетных текстах ФРГ, однако различия в рассеивании здесь не столь значительны, как при оценке по размаху вариации.

Нетрудно заметить, что линейное отклонение имеет туже размерность, что и величина средней арифметической данного вариационного р_яда. Поэтому если два вариационных ряда имеют разные значения х, то их линейные отклонения оказываются несопоставимыми величинами. В том случае, когда возникает необходимость в численном сравнении вариаций в распределениях разных лингвистических признаков, необходимо привести эти вариации к некоторому «обще-

242

му знаменателю». Это достигается путем применения так называемого коэффициента вариации, представляющего собой средний процент рассеивания значений случайной величины по отношению к средней арифметической:

у =

-100%.

(7.13)

 

х

 

С помощью выражения (7.13) можно показать, что для существительного Kraft значения коэффициента вариации соответственно

равны Vx = 160% и VX' = 90%.

Рассмотрим еще один вариационный ряд. Этот ряд (см. табл. 7.19) отражает распределение частот английского определенного артикля the в десяти английских научных текстах по 1000 словоупотреблений каждый [7, с.62].

 

 

 

 

 

 

 

Т а б л и ц а

7 . 19

Номера

u

46

13

г

3; 25

47

43

9

1

текстов

Xi

67

68

71

72

74

80

82

83

84

h

0,1

0,1

0,1

0,1

0 , 2

0,1

0,1

0,1

0,1

С помощью формул (7.5) и (7.12) получаем, что средняя арифметическая этого ряда составляет х = 75,5, а линейное отклонение равно — = 5,4; следовательно, коэффициент вариации

V .100% =7,12%.

75,5

Легко заметить, что коэффициент вариации у английского артикля заметно меньше, чем коэффициент вариации у немецкого существительного. Это неудивительно: служебные формы обычно имеют во всех языках менее рассеянное употребление, чем знаменательные слова.

10. Опытная дисперсия и стандарт. Линейное отклонение не всегда улавливает истинную закономерность вариации случайной величины,так как результаты здесь сильно усредняются и сглаживаются, а большие отклонения становятся мало ощутимыми, особенно прн большом числе испытаний. Между тем при решении ряда лингвистических и особенно инженерно-лингвистических задач учет именно больших отклонений оказывается принципиально важным. Чтобы учесть долю больших отклонений, рассматривают не сами отклонения, а их квадраты.

Сумма взвешенных квадратов отклонения вариант от среднего арифметического, называемая опытной дисперсией (или просто дисперсией), для несгруппированного ряда подсчитывается по формуле

N / Й

243

Для сгруппированного ряда дисперсия определяется по формуле

k

k

(=i

/=l

Размерность дисперсии равна квадрату размерности вариант. Чтобы вернуться к мере рассеивания, имеющей тот же порядок, что и сами варианты, а также их отклонения, вводят новую характеристику — стандарт, или выборочное среднее квадратическое отклонение, равное квадратному корню из дисперсии:

 

г

5 =

(7 15)

Если же нужно сопоставить рассеяние разных по качеству признаков, оцененное с помощью стандарта, используется коэффициент вариации

V (s) — ~ • 100%.

(7 16)

*

 

' Для иллюстрации определим дисперсию, выборочное квадратическое отклонение и коэффициент вариации в распределениях частот английского артикля the и немецкого существительного Kraft (данные приведены в табл. 7.17—7.19). Значения коэффициента вариации по стандарту V (s) сравним со значениями коэффициента вариации V, полученными по абсолютному отклонению.

Найденные с помощью формул (7.14) и (7.16) величины приведены в табл. 7.20.

Т а б л и ц а 7. 20

 

Словоформы

 

 

V (s) (в %)

V (в %)

 

the

 

39,70

6,30

8,34

7 , 5

Kraft

(тексты

ГДР)

, 1,85

1,36

247,4

160,0

Kraft

(тексты

ФРГ)

0,25

0,50

90,0

90,0

Рассеяние контрольных словоформ, оцененное с помощью сред-

него квадратического,

в целом

соответствует

рассеянию,

получен-

ному по линейному отклонению. Однако поскольку стандарт учитывает то влияние, которое оказывает на конечный результат рассеяние крайних вариант, значение коэффициента вариации V (s) больше значения V.

II. Свойства опытной дисперсии. Основные свойства опытной дисперсии совпадают со свойствами теоретической дисперсии.

1. Дисперсия постоянной величины

равна нулю:

D (С) = 0.

(7.17)

244

2. Постоянную можно вынести за знак дисперсии, возведя ее в квадрат:

0 ( С Х ) = С 2 0 я .

(7.18)

3. Увеличение (уменьшение) значений признака на одну

и ту же

постоянную С не изменяет

дисперсии'.

 

D(X±C)=Dx.

 

(7.19)

4. Дисперсия равна средней арифметической квадратов

значений

признака без квадрата их

средней

арифметической:

 

D s

= ^ -N- (

x ) \

(7.20)

Проиллюстрируем это свойство на примере распределения частот английского артикля the. Для этого'воспользуемся столбцами (1)—

(4) табл.

7.21.

 

 

 

 

 

 

 

 

 

 

 

 

 

Т а б л и ц а

7.21

"i

"I

nlxi

nt Xj

xt-a

nt

a.

n(

(Xj—a)2

 

 

 

 

 

 

 

111

l2)

(3)

4,

l5)

 

;6i

 

(7)

67

1

67

4489

—7

 

—7

 

49

68

I

68

4624

—6

 

—6

 

36

71

1

71

5041

—3

 

—3

 

9

72

1

72

5184

—2

 

—2

 

4

74

 

148

10952

0

 

0

 

0

80

1

80

6400

6

 

6

 

36

82

1

82

6724

8

 

8

 

64

83

1

83

6889

9

 

9

 

81

84

I

84

7056

10

 

10

 

100

Суммы

10

755

57359

 

 

 

 

379

Подставляя величины из нижней строки табл. 7.21 в формулы

(7.4) и (7.14), имеем

 

 

 

 

 

 

x= - Z5L =

75,5;

(х)г = 5700,25;

^ i l L

J Z ® L =

5735,9;

 

10

 

 

N

 

10

 

 

Dx = 5735,9 —5700,25 = 35,65, s = ]/"35Д$ = 5,97.

5. Дисперсия признака относительно средней арифметической равна дисперсии признака относительно произвольной величины (а) минус квадрат разности между средней арифметической и этой величиной:

i '

245

Обычно нахождение дисперсии и среднего квадратического отклонения непосредственно с помощью выражений (7.14) и (7.15) связано с трудоемкими вычислениями. Использование свойства 5 дисперсии значительно упрощает процедуру вычисления, которая оказывается аналогичной нахождению средней арифметической по методу моментов.

Проиллюстрируем этот прием вычисления дисперсии снова на примере распределения частот артикля the. Используя столбцы

(5)—(7) табл. 7.21 и полагая а = 74, согласно формуле (7.21) получаем

D = — -379 — (75,5—74)2 = 35,65,

откуда s 35,65 = 5,97.

12. Средняя арифметическая и дисперсия для нескольких совокупностей. До сих пор мы имели дело со средней арифметической и дисперсией, характеризовавшими одну совокупность. Однако на практике постоянно встречаются случаи, когда та или иная лингвистическая совокупность образуется в результате соединения нескольких частных совокупностей с одним и тем же признаком, но с раз- ными его распределениями и, следовательно, с различными средними арифметическими и дисперсиями.

Каждую из этих самостоятельных совокупностей мы будем называть частной совокупностью. Характеризующую каждую частную совокупность среднюю арифметическую признака назовем внутренней (или групповой) средней (xi), а соответствующие частные дисперсии определим как внутренние (или групповые) дисперсии (Drt e

= дополученная в результате объединения нескольких частных сово-

купностей общая совокупность имеет свою общую среднюю арифметическую или просто общую среднюю х. Вычисление общей средней

производится согласно теореме сложения

средних: если статисти-

ческая совокупность S состоит из Su

S2,

...,

Sm частных совокуп-

ностей объемом I каждая, то общая средняя равна средней арифме-

тической внутренних средних,

т.

е.

 

 

 

~х=

*

!т +

*

»

+ ( 7 . 2 2 )

где *„ хг, ..., хт — средние

арифметические

частных совокупнос-

тей.

 

 

 

 

 

Только что приведенная теорема описывает тот частный случай, когда объемы частных совокупностей одинаковы и равны I. Эта теорема легко доказывается и в том случае, когда объемы частных совокупностей различны. Если эти объемы соответственно составляют

246

llf / г , l m , то общая средняя равна средней из соответственно взвешенных частных средних. Иными словами,

х = k *i+ h Хг + •.. + 1т *т

(7.23)

h - t - h - \ r • • • - M m

или короче

m

s h'xt

-x=s£L1

2 h /=i

Например, в результате статистического описания классических и позднелатинских текстов [27, с. 53—54] получены данные о соотношении препозитивного и постпозитивного употребления указательного местоимения ille при определяемом существительном в различных жанрах (табл. 7.22).

Т а б л и ц а 7.22

Статистик? препозитивного употребления Ш е в текстах классической и поздней латыни

Жанр

Авторы и памятники

Количество препозитив- ных ille

Общее

Внутрен-

Вес жанра

число

няя

(число

учтенных

средняя

тысяч

присуб-

*(%) пре-

употреб-

стаитив-

позитив-

лений)

ных Ille

ных

Ше

 

Ше

 

 

1.

Цицерон

«Письма»

47

50

 

 

Эпистоляр-

2.

Плиний

 

«Письма»

27

97

 

 

3. Кассиодор «Сочинения»

18

21

 

 

ные тексты

 

 

 

 

Всего

по

жанру

92

168

54,8

0,168

 

1.

Цезарь

 

«Записки о галь-

 

25

 

 

 

 

сдой войне»

 

23

 

 

Повество-

2.

Тацит

«Анналы»

9

10

 

 

3.

«Путешествие Этерии»

74

108

 

 

вательная

4.

«История франков»

22

49

 

 

проза

5.

«Салическая

Правда»

32

56

 

 

 

 

Всего

по

жанру

160

248

64,5

0,248

 

1.

Цицерон

«Речи»

1735

2155

 

 

Ораторский

2.

Сенека

«О благодеянии»

6

8

 

 

3.

Св. Августин «Исповедь»

110

159

 

 

стиль

 

 

 

 

 

 

 

 

 

 

 

Всего по

жанру

1851

2322

79,7

2,322

247

Подставляя данные из таблицы в формулу (7.23), получаем

 

54,8 168 + 64,5-248 + 79,7-2322 _

g ^

Х ~

168 + 248 + 2322

 

т. е. около 77% препозитивных ille.

При исследовании рассеяния в нескольких лингвистических со-

вокупностях используются следующие

понятия:

1) внутренняя

дисперсия

 

 

— г 2

( 7 2 4 )

где г — номер частной совокупности, I — число вариант признака

вэтой совокупности, a k — номер признака [ср. с формулой (7.14)1;

2)общая дисперсия

k= i/=)

где т — число частных совокупностей признака;

3) средняя внутренних дисперсий

4) межгрупповая (внешняя) дисперсия DM, представляющая оценку рассеяния групповых средних лг( вокруг общей средней х:

DM = (^l — ^F + fe —*)2+ • .. + (хт—~х)2

g 27)

т

 

Общая дисперсия статистической совокупности S, состоящей из SX, Sa , ..., SM частных совокупностей объемом I каждая, равна сумме средней внутренних дисперсий и межгрупповой (внешней) дисперсии, т. е.

D = DR + DM.

(7.28)

Нетрудно заметить, что в том случае, когда все внутренние средние равны общей средней, т. е. когда хх = х2 = ... = ~хт — х, межгрупповая дисперсия DM — 0, а общая дисперсия равна средней внутренних дисперсий, т. е. D DR. В остальных случаях общая дисперсия больше, чем средняя внутренних дисперсий на величину, равную величине межгрупповой дисперсии.

Равенство (7.28) имеет место тогда, когда объемы частных совокупностей равны I. Однако, как и правило сложения средних, правило сложения дисперсий легко распространяется на случай, когда объемы частных совокупностей различны и равны соответственно lu I*, -•-, lm . В этом случае общая дисперсия также равна средней внутренних дисперсий плюс межгрупповая дисперсия при условии, что все значения дисперсий берутся взвешенными по объемам /^2 ^т-

248

*аким образом, общая дисперсия в этом случае равна

k D r l + l * D r i + . . . + l m D r m

'l + 's +

- -- + 71»'

2

2 h,(xk-lc)*

m

m

4=1 *

s

или

13. Длина словоупотребления как статистико-стилистический параметр. Величины средней арифметической и дисперсий используются при выявлении статистических характеристик (параметров) стилей [34, с.71—73, 150—164, 178—192, 231 и др.].

Рассмотрим в этом плане средние длины словоформ и рассеяние этих длин в казахской прозе. Возьмем по десять словоупотреблений из четырех разновидностей современного казахского литературного языка — публицистики, художественной прозы (беллетристики), драматургии и научного повествования — и запишем распределение длин этих словоупотреблений в каждой из указанных разновидностей [длины отдельных словоупотреблений приведены в столбцах

(3)—(12) табл. 7.23].

 

 

 

 

 

 

 

 

 

 

Т а б л и ц а

7.23

Средние длины словоформ и их рассеяние

в четырех

разновидностях

 

современной

казахской

прозы

 

 

 

 

 

Разновидности

Номера в

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ч

 

4

5

в

7

8

u

10

 

 

литературного

 

1

3

*1

<

языка

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(1)

(2)

(3).

(4)

(5)

(в)

(7)

18)

(8)

(Ю) 9 1 )

(12)

(13)

(14)

Публицистика

1

12

13

9

6

11

6

8

8

3

6

8,2

8,76

Беллетристика

2

3

6

7

8

б

6

3

3

3

7

6 ,1

3,49

Драматургия

3

5

5

5

3

2

6

2

2

3

6

3 , 9

2,49

Научная проза

4

11

5

7

6

17

И

4

13

4

10

8,8

16,76

Пользуясь формулой (7.4), вычисляем среднюю арифметическую

X1 - 3 + 6 - 3 + 8 - 2 +190 + П + 1 2 + 1 3

Остальные значения средних приведены в столбце (13) табл. 7.23.

249