
Пиотровский
.pdf6. Мода Модой (Mo) называется наиболее часто встречающаяся варианта данного вариационного ряда (ср. гл. 6, § 1, п. 3). Определение моды для дискретного распределения не представляет трудности. Модой здесь служит та варианта, которой соответствует наибольшая частота (кстати, таких вариант может быть несколько).
Несколько сложнее определить моду в интервальных непрерывных распределениях. Здесь, как и при вычислении медианы, начинают с определения модального интервала, т. е. того интервала, внутри которого находится мода (таких интервалов может быть несколько). Затем численное значение моды определяют по следующей приближенной формуле:
Mo = X„ 0 ( m ) n ) + |
fe— |
р . (7.10) |
|
( " М о - п М о - 1 ) ' ( Мо n M o + 1 ) |
|
где Хмо(пнп) — нижняя |
граница модального |
интервала; k — длина |
модального интервала; пш —частота модального интервала; пМо_,— частота интервала, предшествующего модальному; пМ о +1 — частота интервала, следующего за модальным.
Пользуясь данными табл. 7.9, вычислим моду распределения длин китайских слогов. Модальным здесь является третий интервал;
следовательно, |
|
М о = 100 + 30 |
= 121,43. |
( 4 9 — 9 ) + |
(49 — 33) |
7. Соотношение между средней арифметической, медианой и мо дой. Соотношение между этими тремя основными параметрами эмпирических распределений используется для оценки асимметрии распределений. Нетрудно заметить, что в тех случаях, когда распределение симметрично, выполняется равенство х = Me = Мо.
В случае умеренной асимметрии вариационного ряда — явлении, часто встречающемся в лингвистике,— имеет место следующее приближенное равенство: М о » * — 3 (х — Me), иными словами,
медиана расположена между модой и средней арифметической так, что расстояние от нее до моды равно двум расстояниям от медианы до средней арифметической. В случае умеренно скошенных распре,- делений этим соотношением пользуются для грубой оценки неизвестного параметра (скажем, моды) по двум известным характеристикам, например медианы и средней арифметической [7, с.55].
Сделаем теперь несколько замечаний об использовании указанных статистических параметров. Из всех этих параметров наиболее простой по смыслу и по способу получения является средняя арифметическая. В отличие от моды и медианы средняя арифметическая легко поддается аналитическим операциям: выше уже указывалось, что при объединении двух распределений с различными средними средняя полученного распределения равна сумме средних из отдельных распределений. Поэтому, если нет существенных доводов в пользу иного вида средней, следует пользоваться средней арифметической.
240
Вместе с тем следует помнить, что средняя арифметическая изменяется с изменением значения любого признака. Особенно она чувствительна к колебаниям крайних вариант распределений. Иначе обстоит дело с медианой: из ее определения следует, что медиана не зависит от значений признаков, лежащих справа и слева от нее (важно лишь, чтобы число признаков, меньших и больших, чем медиана, оставалось неизменным). Поэтому медиану целесообразно использовать в качестве средней для таких распределений, концы которых определены недостаточно надежно.
Что касается моды, то она служит средством выявления одного или нескольких значений признака, около которых группируется большая часть объема асимметричного лингвистического распределения. В лингво-статистике модальные характеристики распределения могут быть использованы для объективного выделения терминологических, ключевых и вообще доминантных слов и словосочетаний текста.[32а, с.47—112].
8. Рассеяние значений признака. Размах вариации. Хотя средняя арифметическая, мода, медиана и другие средние признаки дают ориентировочную количественную характеристику лингвистической единицы, они не учитывают степень равномерности употребления этой единицы в текстах. Между тем учет количественной вариации лингвистического признака в изучаемом тексте имеет принципиальное значение для языковеда. Всякая вариация лингвистической случайной величины передает в конечном итоге лексические, грамматические, стилевые и другие внутрилингвистические и экстралингвитические особенности текста.
Наиболее простой характеристикой рассеивания признака яв-
ляется размах вариации |
R, который определяется разностью |
R ~ |
^mln- |
Рассмотрим" в этой связи два вариационных ряда частот немецкого существительного Kraft в двух выборках публицистических текстов — одна из газет ГДР (табл 7.17), другая — из газет ФРГ (табл. 7.18). Каждая выборка состоит из 20 текстов по 1000 словоупотреблений каждый [7, с. 57].
|
|
|
|
|
|
|
|
Т а б л и ц а |
7.17 |
|
0 |
1 |
2 |
3 |
|
4 |
5 |
6 |
7 |
ni |
16 |
2 |
0 |
0 |
|
1 |
1 |
0 |
0 |
|
|
|
|
|
|
|
|
Т а б л и ц а |
7.18 |
*i |
0 |
1 |
2 |
3 |
' |
4 |
5 |
6 |
7 |
|
9 |
11 |
0 |
0 |
|
0 |
0 |
6 |
0 |
.241
Используя формулу (7.4), находим, что средние арифметические значения для обоих.рядов вариант одинаковы*
~х = = 0,55.
Вместе с тем эти ряды дают различный размах вариации; R (х) = 16 — 0 = 16, R (х') = 11—0=11.
Однако размах вариации является очень приближенной оценкой степени рассеивания признака, так как совершенно не учитывает положений и «весов» вариант признака, находящихся в пределах крайних вариант. Действительно, хотя размах вариации немецкого существительного Kraft в текстах ГДР выше, чем в западногерманских текстах, крайние варианты в первом случае встречаются редко и имеют малый вес, поэтому вряд ли можно уверенно говорить о том, что рассеяние здесь действительно выше, чем в текстах ФРГ.
9 Линейное отклонение. Более точную оценку рассеивания можно получить, учитывая абсолютные величины отклонений | Xi — х \ значения признака от его средней арифметической. Среднее значение этих абсолютных величин, называемое линейным отклонением, вычисляется для несгруппированного вариационного ряда по формуле
|
j |
N |
|
UY-*L= |
|
\XJ—X\, |
|
|
|
i= i |
|
а для сгруппированного ряда — по формулам |
|
||
|
|
|
( 7 Л 1 ) |
или |
|
|
|
1 * 7 ^ 1 = |
£ |
ft\x,-x\. |
(7.12) |
|
i = i |
|
|
Линейные отклонения для вариационных рядов существитель- |
|||
ного Kraft (см. табл. 7.17 и 7.18) соответственно |
составляют |
||
— — 0,88 и |
I*;— х 1 = 0,50. |
||
Статистическая вариация |
в |
употреблении |
существительного |
Kraft в публицистических текстах ГДР несколько выше, чем в газетных текстах ФРГ, однако различия в рассеивании здесь не столь значительны, как при оценке по размаху вариации.
Нетрудно заметить, что линейное отклонение имеет туже размерность, что и величина средней арифметической данного вариационного р_яда. Поэтому если два вариационных ряда имеют разные значения х, то их линейные отклонения оказываются несопоставимыми величинами. В том случае, когда возникает необходимость в численном сравнении вариаций в распределениях разных лингвистических признаков, необходимо привести эти вариации к некоторому «обще-
242
му знаменателю». Это достигается путем применения так называемого коэффициента вариации, представляющего собой средний процент рассеивания значений случайной величины по отношению к средней арифметической:
у = |
-100%. |
(7.13) |
|
х |
|
С помощью выражения (7.13) можно показать, что для существительного Kraft значения коэффициента вариации соответственно
равны Vx = 160% и VX' = 90%.
Рассмотрим еще один вариационный ряд. Этот ряд (см. табл. 7.19) отражает распределение частот английского определенного артикля the в десяти английских научных текстах по 1000 словоупотреблений каждый [7, с.62].
|
|
|
|
|
|
|
Т а б л и ц а |
7 . 19 |
|
Номера |
u |
46 |
13 |
г |
3; 25 |
47 |
43 |
9 |
1 |
текстов |
|||||||||
Xi |
67 |
68 |
71 |
72 |
74 |
80 |
82 |
83 |
84 |
h |
0,1 |
0,1 |
0,1 |
0,1 |
0 , 2 |
0,1 |
0,1 |
0,1 |
0,1 |
С помощью формул (7.5) и (7.12) получаем, что средняя арифметическая этого ряда составляет х = 75,5, а линейное отклонение равно — = 5,4; следовательно, коэффициент вариации
V .100% =7,12%.
75,5
Легко заметить, что коэффициент вариации у английского артикля заметно меньше, чем коэффициент вариации у немецкого существительного. Это неудивительно: служебные формы обычно имеют во всех языках менее рассеянное употребление, чем знаменательные слова.
10. Опытная дисперсия и стандарт. Линейное отклонение не всегда улавливает истинную закономерность вариации случайной величины,так как результаты здесь сильно усредняются и сглаживаются, а большие отклонения становятся мало ощутимыми, особенно прн большом числе испытаний. Между тем при решении ряда лингвистических и особенно инженерно-лингвистических задач учет именно больших отклонений оказывается принципиально важным. Чтобы учесть долю больших отклонений, рассматривают не сами отклонения, а их квадраты.
Сумма взвешенных квадратов отклонения вариант от среднего арифметического, называемая опытной дисперсией (или просто дисперсией), для несгруппированного ряда подсчитывается по формуле
N / Й
243
Для сгруппированного ряда дисперсия определяется по формуле
k |
k |
(=i |
/=l |
Размерность дисперсии равна квадрату размерности вариант. Чтобы вернуться к мере рассеивания, имеющей тот же порядок, что и сами варианты, а также их отклонения, вводят новую характеристику — стандарт, или выборочное среднее квадратическое отклонение, равное квадратному корню из дисперсии:
|
г |
5 = |
(7 15) |
Если же нужно сопоставить рассеяние разных по качеству признаков, оцененное с помощью стандарта, используется коэффициент вариации
V (s) — ~ • 100%. |
(7 16) |
* |
|
' Для иллюстрации определим дисперсию, выборочное квадратическое отклонение и коэффициент вариации в распределениях частот английского артикля the и немецкого существительного Kraft (данные приведены в табл. 7.17—7.19). Значения коэффициента вариации по стандарту V (s) сравним со значениями коэффициента вариации V, полученными по абсолютному отклонению.
Найденные с помощью формул (7.14) и (7.16) величины приведены в табл. 7.20.
Т а б л и ц а 7. 20
|
Словоформы |
|
|
V (s) (в %) |
V (в %) |
|
|
the |
|
39,70 |
6,30 |
8,34 |
7 , 5 |
Kraft |
(тексты |
ГДР) |
, 1,85 |
1,36 |
247,4 |
160,0 |
Kraft |
(тексты |
ФРГ) |
0,25 |
0,50 |
90,0 |
90,0 |
Рассеяние контрольных словоформ, оцененное с помощью сред- |
||||||
него квадратического, |
в целом |
соответствует |
рассеянию, |
получен- |
ному по линейному отклонению. Однако поскольку стандарт учитывает то влияние, которое оказывает на конечный результат рассеяние крайних вариант, значение коэффициента вариации V (s) больше значения V.
II. Свойства опытной дисперсии. Основные свойства опытной дисперсии совпадают со свойствами теоретической дисперсии.
1. Дисперсия постоянной величины |
равна нулю: |
D (С) = 0. |
(7.17) |
244
2. Постоянную можно вынести за знак дисперсии, возведя ее в квадрат:
0 ( С Х ) = С 2 0 я . |
(7.18) |
||
3. Увеличение (уменьшение) значений признака на одну |
и ту же |
||
постоянную С не изменяет |
дисперсии'. |
|
|
D(X±C)=Dx. |
|
(7.19) |
|
4. Дисперсия равна средней арифметической квадратов |
значений |
||
признака без квадрата их |
средней |
арифметической: |
|
D s |
= ^ -N- ( |
x ) \ |
(7.20) |
Проиллюстрируем это свойство на примере распределения частот английского артикля the. Для этого'воспользуемся столбцами (1)—
(4) табл. |
7.21. |
|
|
|
|
|
|
|
|
|
|
|
|
|
Т а б л и ц а |
7.21 |
|
"i |
"I |
nlxi |
nt Xj |
xt-a |
nt |
a. |
n( |
(Xj—a)2 |
|
|
|
|
|
|
|
||
111 |
l2) |
(3) |
4, |
l5) |
|
;6i |
|
(7) |
67 |
1 |
67 |
4489 |
—7 |
|
—7 |
|
49 |
68 |
I |
68 |
4624 |
—6 |
|
—6 |
|
36 |
71 |
1 |
71 |
5041 |
—3 |
|
—3 |
|
9 |
72 |
1 |
72 |
5184 |
—2 |
|
—2 |
|
4 |
74 |
|
148 |
10952 |
0 |
|
0 |
|
0 |
80 |
1 |
80 |
6400 |
6 |
|
6 |
|
36 |
82 |
1 |
82 |
6724 |
8 |
|
8 |
|
64 |
83 |
1 |
83 |
6889 |
9 |
|
9 |
|
81 |
84 |
I |
84 |
7056 |
10 |
|
10 |
|
100 |
Суммы |
10 |
755 |
57359 |
|
|
|
|
379 |
Подставляя величины из нижней строки табл. 7.21 в формулы |
||||||||
(7.4) и (7.14), имеем |
|
|
|
|
|
|
||
x= - Z5L = |
75,5; |
(х)г = 5700,25; |
^ i l L |
J Z ® L = |
5735,9; |
|||
|
10 |
|
|
N |
|
10 |
|
|
Dx = 5735,9 —5700,25 = 35,65, s = ]/"35Д$ = 5,97.
5. Дисперсия признака относительно средней арифметической равна дисперсии признака относительно произвольной величины (а) минус квадрат разности между средней арифметической и этой величиной:
i '
245
Обычно нахождение дисперсии и среднего квадратического отклонения непосредственно с помощью выражений (7.14) и (7.15) связано с трудоемкими вычислениями. Использование свойства 5 дисперсии значительно упрощает процедуру вычисления, которая оказывается аналогичной нахождению средней арифметической по методу моментов.
Проиллюстрируем этот прием вычисления дисперсии снова на примере распределения частот артикля the. Используя столбцы
(5)—(7) табл. 7.21 и полагая а = 74, согласно формуле (7.21) получаем
D = — -379 — (75,5—74)2 = 35,65,
откуда s =У 35,65 = 5,97.
12. Средняя арифметическая и дисперсия для нескольких совокупностей. До сих пор мы имели дело со средней арифметической и дисперсией, характеризовавшими одну совокупность. Однако на практике постоянно встречаются случаи, когда та или иная лингвистическая совокупность образуется в результате соединения нескольких частных совокупностей с одним и тем же признаком, но с раз- ными его распределениями и, следовательно, с различными средними арифметическими и дисперсиями.
Каждую из этих самостоятельных совокупностей мы будем называть частной совокупностью. Характеризующую каждую частную совокупность среднюю арифметическую признака назовем внутренней (или групповой) средней (xi), а соответствующие частные дисперсии определим как внутренние (или групповые) дисперсии (Drt e
= дополученная в результате объединения нескольких частных сово-
купностей общая совокупность имеет свою общую среднюю арифметическую или просто общую среднюю х. Вычисление общей средней
производится согласно теореме сложения |
средних: если статисти- |
||||
ческая совокупность S состоит из Su |
S2, |
..., |
Sm частных совокуп- |
||
ностей объемом I каждая, то общая средняя равна средней арифме- |
|||||
тической внутренних средних, |
т. |
е. |
|
|
|
~х= |
* |
!т + |
* |
» |
+ ( 7 . 2 2 ) |
где *„ хг, ..., хт — средние |
арифметические |
частных совокупнос- |
|||
тей. |
|
|
|
|
|
Только что приведенная теорема описывает тот частный случай, когда объемы частных совокупностей одинаковы и равны I. Эта теорема легко доказывается и в том случае, когда объемы частных совокупностей различны. Если эти объемы соответственно составляют
246
llf / г , l m , то общая средняя равна средней из соответственно взвешенных частных средних. Иными словами,
х = k *i+ h Хг + •.. + 1т *т |
(7.23) |
h - t - h - \ r • • • - M m
или короче
m
s h'xt
-x=s£L1
2 h /=i
Например, в результате статистического описания классических и позднелатинских текстов [27, с. 53—54] получены данные о соотношении препозитивного и постпозитивного употребления указательного местоимения ille при определяемом существительном в различных жанрах (табл. 7.22).
Т а б л и ц а 7.22
Статистик? препозитивного употребления Ш е в текстах классической и поздней латыни
Жанр |
Авторы и памятники |
Количество препозитив- ных ille
Общее |
Внутрен- |
Вес жанра |
число |
няя |
(число |
учтенных |
средняя |
тысяч |
присуб- |
*(%) пре- |
употреб- |
стаитив- |
позитив- |
лений) |
ных Ille |
ных |
Ше |
|
Ше |
|
|
1. |
Цицерон |
«Письма» |
47 |
50 |
|
|
||
Эпистоляр- |
2. |
Плиний |
|
«Письма» |
27 |
97 |
|
|
|
3. Кассиодор «Сочинения» |
18 |
21 |
|
|
|||||
ные тексты |
|
|
|||||||
|
|
Всего |
по |
жанру |
92 |
168 |
54,8 |
0,168 |
|
|
1. |
Цезарь |
|
«Записки о галь- |
|
25 |
|
|
|
|
|
сдой войне» |
|
23 |
|
|
|||
Повество- |
2. |
Тацит |
«Анналы» |
9 |
10 |
|
|
||
3. |
«Путешествие Этерии» |
74 |
108 |
|
|
||||
вательная |
4. |
«История франков» |
22 |
49 |
|
|
|||
проза |
5. |
«Салическая |
Правда» |
32 |
56 |
|
|
||
|
|
Всего |
по |
жанру |
160 |
248 |
64,5 |
0,248 |
|
|
1. |
Цицерон |
«Речи» |
1735 |
2155 |
|
|
||
Ораторский |
2. |
Сенека |
«О благодеянии» |
6 |
8 |
|
|
||
3. |
Св. Августин «Исповедь» |
110 |
159 |
|
|
||||
стиль |
|
|
|
|
|
|
|
|
|
|
|
Всего по |
жанру |
1851 |
2322 |
79,7 |
2,322 |
247
Подставляя данные из таблицы в формулу (7.23), получаем
|
54,8 168 + 64,5-248 + 79,7-2322 _ |
g ^ |
Х ~ |
168 + 248 + 2322 |
|
т. е. около 77% препозитивных ille.
При исследовании рассеяния в нескольких лингвистических со-
вокупностях используются следующие |
понятия: |
|
1) внутренняя |
дисперсия |
|
|
— г 2 |
( 7 2 4 ) |
где г — номер частной совокупности, I — число вариант признака
вэтой совокупности, a k — номер признака [ср. с формулой (7.14)1;
2)общая дисперсия
k= i/=)
где т — число частных совокупностей признака;
3) средняя внутренних дисперсий
4) межгрупповая (внешняя) дисперсия DM, представляющая оценку рассеяния групповых средних лг( вокруг общей средней х:
DM = (^l — ^F + fe —*)2+ • .. + (хт—~х)2 |
g 27) |
т |
|
Общая дисперсия статистической совокупности S, состоящей из SX, Sa , ..., SM частных совокупностей объемом I каждая, равна сумме средней внутренних дисперсий и межгрупповой (внешней) дисперсии, т. е.
D = DR + DM. |
(7.28) |
Нетрудно заметить, что в том случае, когда все внутренние средние равны общей средней, т. е. когда хх = х2 = ... = ~хт — х, межгрупповая дисперсия DM — 0, а общая дисперсия равна средней внутренних дисперсий, т. е. D DR. В остальных случаях общая дисперсия больше, чем средняя внутренних дисперсий на величину, равную величине межгрупповой дисперсии.
Равенство (7.28) имеет место тогда, когда объемы частных совокупностей равны I. Однако, как и правило сложения средних, правило сложения дисперсий легко распространяется на случай, когда объемы частных совокупностей различны и равны соответственно lu I*, -•-, lm . В этом случае общая дисперсия также равна средней внутренних дисперсий плюс межгрупповая дисперсия при условии, что все значения дисперсий берутся взвешенными по объемам /1э ^2 ^т-
248