Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Пиотровский

.pdf
Скачиваний:
174
Добавлен:
06.06.2015
Размер:
9.13 Mб
Скачать

которое при неограниченном увеличении п превращается в равенство

2. Если вероятность

наступления

события

А в каждом отдель-

ном независимом

испытании

постоянна

и равна р, то при достаточно

большом числе испытаний

(т. е. при N -*• оо) с вероятностью, сколь

угодно близкой

к единице,

можно утверждать,

что

относительная

частота FIN события А

сколь угодно мало отличается

от вероятнос-

ти р, т. е.

 

 

 

 

 

 

 

 

 

 

 

 

(6.111)

Этот частный случай теоремы Чебышева известен под названием

теоремы Бернулли.

 

 

Для доказательства этой теоремы используется

вспомогатель-

ное неравенство, называемое неравенством Чебышева:

Р(|

X—М(X)|>е)<

(6.112)

Представим относительную частоту FIN в качестве случайной величины, математическим ожиданием которой служит вероятность р, а дисперсией—величина pqIN. Подставляя эти значения в неравенство Чебышева (6.112), после преобразований получаем

(6.113)

Поскольку р, q, е — заданные положительные числа и при N оо дробь pql(N&2) стремится к нулю, то приходим к соотношению (6.111). Пользуясь теоремой Бернулли, можно определять объемы выборок, необходимые для решения конкретных лингвистических задач.

Например, установлено [6, с. 238], что вероятность появления существительного в румынских текстах по радиоэлектронике равна 0,34, а допустимое абсолютное отклонение относительной частоты / от вероятности р равно 0,03. Определим тот наименьший объем исследуемого текста (наименьшую выборку), ири котором заданные условия выполнялись бы с вероятностью 0,9545.

Здесь по условию р =

0,34; е =

0,03;

Р ( | FIN — р

е) >

^ 0,9545;

необходимо определить N. Подставляя эти данные в не-

равенство

(6.113),

имеем

 

 

 

 

 

 

0,9545 = 1

° ' 3 4 , 0 ' 6 6 ,

или

1 - 0 , 9 5 4 5 =

0,34-0,66

 

 

 

N-0,03»

 

 

 

 

N•0,0009

 

откуда

 

 

 

 

 

 

 

 

 

 

N=

°'

3 4 - 0 ' 6 6

=

5473.

 

 

 

 

 

0,0455-0,0009

 

 

 

210

Таким образом, текст, необходимый для выполнения поставленных в задаче условий, должен содержать не менее 5473 словоупотреблений.

3. Теорема Бернулли характеризует соотношение между относительной частотой и постоянной вероятностью события. Однако часто мы имеем дело с такими лингвистическими явлениями, например со знаменательными словоформами и словосочетаниями, которые почти не повторяются в одних и тех же фиксированных условиях. Они многократно встречаются в тексте, но каждый раз в новых условиях разного лексического окружения, принципиально различных синтаксических позиций, причем вероятность интересующих нас лингвистических событий сильно зависит от этих меняющихся условий. Иными словами, мы имеем здесь дело с разными вероятностями ри рг, ..., pN события А. Этот случай характеризует теоре-

ма Пуассона.

Если вероятность события А при каждом независимом испытании меняется, то при достаточно большом числе испытаний (т. е. при N -*• оо) с вероятностью, сколь угодно близкой к единице, можно утверждать, что относительная частота появления события А сколь угодно мало отличается от средней арифметической вероят-

тетей

Р =

1

N

лишь

бы число

испытаний было

достаточно

Т. У pt,

велико,

т. е.

N

i-1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

lim

Р\

F

1 V

= 1 ,

(6.114)

 

 

 

N-+ оо

1

аг~2Pi

 

 

 

 

 

 

 

 

 

i=1

 

 

где F — число появлений

события А в N

испытаниях.

 

В теоремах Бернулли, Пуассона и Чебышева закон больших чисел

применяется

к

независимым

величинам.

Однако на

практике (и

особенно при статистическом описании текста) мы имеем дело с зависимыми или слабозависимыми величинами. В связи с этим возникает необходимость распространить закон больших чисел на зависимые величины. Эта задача решается с помощью теоремы Маркова:

если последовательность случайных зависимых или независимых величин, Хи Xit ..., Хп такова, что при п-*- оо

то при любом е

> 0 справедливо равенство

 

 

lim

 

Р ,

— У Xi —-

 

у

м ( X f )

< 8 = 1 .

(6.116)

«->•00

 

п

1=1

п

 

1

 

 

Доказательства

всех

приведенных

теорем

см. в работах 110,

с. 287—297] и

[14,

с. 199-207].

 

 

' v

 

 

211

На основании теоремы Бернулли или теоремы Пуассона иногда делается вывод, что с ростом числа испытаний частость неуклонно стремится к вероятности, т. е. что

Пш - 4 = Р.

(6.116)

W-»oo N

 

Такой вывод является совершенно необоснованным. Дело в том, что сходимость относительной частоты FIN к вероятности (ее обозначают термином «сходимость по вероятности») понимается здесь ина-

че, чем сходимость в математическом

анализе (см. гл.

2, § 1, п. 2

и гл. 4, § 1, п.1). Различие между обоими понятиями

сходимости

заключается в следующем.

р

 

Если имеет место соотношение Игл

 

т . = р в том смысле, который

N-yоо N Н

 

вкладывает в это равенство математический анализ, то это означает, что, начиная с некоторого N = п и для всех последующих значений, выполняется неравенство

= | / - р | < е .

(6.И7)

N

 

Когда же утверждается, что частость F/N сходится по вероятности (или стремится по вероятности) к р при N -*• оо, что записывается обычно так:

F вер.

Р,

N

 

то для отдельных значений N неравенство (6.117) может и не выполняться. Дело в том, что в теореме Бернулли речь идет о вероятности

F

одного единственного неравенства | — р | ^ е, которая при доста-

точно большом N становится больше, чем разность 1 — , или,

иными словами, что при достаточно большом количестве испытаний частость будет как угодно мало отличаться от постоянной вероятности р.

Из сказанного видно, что теорема Чебышева, а также остальные ее частные случаи справедливы только для фиксированного значения

п N, например для п0 =

N0. В связи с этим нельзя

утверждать,

что неравенство

- | < 8

) > ! _ - - £ £ _

(6.118)

f

No

 

Nnz2

 

справедливо не только для N0, но и для всех значений N > N0. Однако для приложений теории вероятностей, и в частности для линг- во-статистики, важно, чтобы теоремы закона больших чисел распространялись и на случаи N > N0. Так, например, для лингво-ста- тистики важно найти такие условия, накладываемые на неравенство (6.118), чтобы соотношение (6.116) было бы справедливо не только

212

относительно

объема выборки Ne,

но и для всех объемов

выборки,

где N > N0. Чтобы достичь этого,

на случайные величины

Xf

на-

кладываются некоторые дополнительные условия.

 

 

 

 

 

 

Широкие условия для осуществления усиленного закона боль-

ших

чисел

определяются

т е о р е м а м и

К о л м о г о р о в а

и Ф е л л е р а [6, с. 244].

 

 

 

 

 

 

 

 

 

Первая из них показывает, что достаточным условием для

приме-

нения

указанного закона

к последовательности взаимно

независимых

случайных величин XltX2,...,

 

 

 

 

°° D

L

ы\

.

Хм является сходимость ряда У,

 

 

 

 

 

 

 

 

 

JV-1

 

"

 

 

Вторая теорема говорит о том, что усиленный

закон

больших

чи-

сел справедлив для последовательностей случайных

величин,

имеющих

одинаковые распределения

с конечным математическим

ожиданием

|i = М (X,).

Квантитативные исследования текста показывают, что численное значение, которое принимает та или иная случайная лингвистическая величина (частота или частость появления определенной фонемы, буквы, слога, словоформы, морфемы и т. д.), зависит от многих случайных причин, учесть которые мы не в состоянии. Если увеличить число случайных величин, то увеличится и число неучитываемых причин. Таким образом, становится, казалось бы, невозможным установить закономерности поведения суммы достаточно большого числа случайных лингвистических величин. Однако в действительности это не так: если. индивидуальные величины содержат в себе более или менее значительный элемент случайности, то в их средней этот элемент взаимно погашается и становится исчезающе малым, если Только количество усредняемых величин достаточно велико.

В итоге при некоторых сравнительно широких условиях суммарное поведение большого числа случайных лингвистических величин начинает утрачивать случайный характер и становится статистически устойчивым или, как говорят, почти закономерным. Статистическая закономерность начинает принимать здесь характер динамического закона.

Устойчивость средней арифметической, дающей при большом количестве испытаний сходимость по вероятности к математическому ожиданию, объясняет, почему и когда мы имеем право взять за истинное значение М (X) значение средней арифметической. Вместе с тем становится ясным, почему при достаточном количестве испытаний можно с достаточной достоверностью использовать относительную частоту для оценки вероятности лингво-статистическогв события.

Одновременно закон больших чисел предостерегает лингвистов, пользующихся «симптоматической» статистикой, против неосмотрительного приравнивания частот и математических ожиданий лингвистических случайных величин, а также отождествления частостей и вероятностей независимо от того, имеются ли для эт;ого условия, предусмотренные указанным законом.

213

Х2,...,

На описанных свойствах средней арифметической и частости ос-

нован широко применяющийся в лингво-статистике (как,

впрочем,

и в других приложениях статистики) выборочный метод,

сущность

которого состоит в том, что по сравнительно небольшой

случайной

выборке

текстов

судят о целой разновидности языка — функцио-

нальной

(стиль)

или тематической (подъязык).

 

Сходимость средних арифметических частот, полученных по частичным выборкам, к математическим ожиданиям слов (или словосочетаниям) при достаточном числе выборок позволяет рассматривать частотные словари в качестве моделей вероятностного распределения слов и словосочетаний в норме данного подъязыка или стиля.

4. Центральная предельная теорема Ляпунова и сопоставление результатов лингвистического эксперимента с вероятностной речевой. моделью. Теоремы, образующие первую часть закона больших чисел, давая полную степень практической уверенности о сходимости по вероятности определенных случайных величин к тем или иным постоянным, слишком завышают вероятность выполнения неравенства \Х — М (Х)| > е. Одновременно занижается вероят» ность того, что отклонение случайной величины от ее математического ожидания будет не больше заданного порога е. В связи с этим использование первой части закона больших чисел для нахождения таких характеристик, как точность, надежность оценки, доверительный интервал и т. д., связано с обследованием слишком больших текстовых выборок, объемы которых превосходят реальные возможности лингво-статистического исследования.

Поэтому возникает необходимость в такой, процедуре, которая

указывала бы более

точно вероятности интересующих нас границ,

используя при этом

меньшее число испытаний, чем этого требуют

теоремы закона больших чисел. Эта задача

решается в ц е н т -

р а л ь н о й п р е д е л ь н о й т е о р е м е

Л я п у н о в а .

Центральная предельная теорема исходит из той же идеи, которая используется и при построении первой половины закона больших чисел. Эта идея заключается в том, что хотя исследуемое явление или процесс (в том числе и лингвистический) в ходе своей реализации подвергается действию большого числа независимых случайных воздействий, каждое из них лишь ничтожно мало изменяет ход процесса. Исследователь, интересующийся изучением процесса или явления в целом, а не воздействием отдельных факторов, должен наблюдать и фиксировать суммарное действие этих факторов.

В отличие от теоремы Чебышева, для которой характер распределения случайных величин Хъ XN, ИХ сумм и средних X — = (Xj + Х2 + ... + XN)/N не имеет значения, теорема Ляпунова утверждает, что каково бы ни было распределение независимых случайных величин, при определенных условиях распределение их средних подчиняется нормальному закону. Такой подход позволяет распространить на случаи, рассматриваемые в законе больших чисел, теорему Муавра—Лапласа, дающую возможность оценивать математические ожидания и вероятности появления отдельных зна-

214

чений случайной величины и таким образом бодеа или менее точно

определять вероятности отклонений | X — М

и соответственно

отклонений

— р | » | / —• Р | .

 

Для того чтобы утверждение о нормальном распределении для средних имело место, достаточно, как показал А. М. Ляпунов, выполнение двух условий: во-первых, все случайные слагаемые должны иметь конечные абсолютные центральные моменты третьего порядка

M\Xt -

М (Х()|3,

(6.119)

во-вторых, отношение

 

 

N

 

 

2 1М

1Х,-М(Х,)Р

(6.120)

N

"13/2

2

 

 

должно стремиться к нулю при N -*- оо .

Смысл условий Ляпунова заключается в том, что ни одна из случайных величин, образующих среднюю, не была бы в ней преобладающей, во всяком случае, не была бы заметно больше других величин. Если же какая-либо величина или величины XJt Xh оказывают преобладающее влияние на формирование X, то второе условие не выполняется и утверждение о нормальном законе распределения средней не имеет места. Распределение средней здесь определяется законом распределения этих преобладающих случайных величин.

Лингвистическим примером этого явления может служить ста- • тистическое поведение так называемых ключевых (или доминантных) слов и словосочетаний текста, т. е. таких слов, которые передают основные понятия, рассматривающиеся в данном сообщении (в научно-технических текстах в качестве доминантных слов и словосочетаний выступают термины). Преобладающим фактором, влияющим на статистику доминантных единиц текста, является ситуация, отражаемая в содержании текста. Лингвистические, индивидуально стилевые и прочие факторы подавляются ситуацией. Так как появление тех'или иных ситуаций не подчиняется нормальному закону*, то этому закону не подчиняются и распределения доминантных слов. Напротив, служебные слова, многие грамматические формы, фонемы и буквы, поведение которых определяется суммой большого числа случайных воздействий без преобладания в них семантики текста, дают, как правило, распределение, близкое к нормальному. Выделение в тексте слов, распределение которых не подчиняется нормальному закону, а также другим связанным с нормальным распределе-

* Во всяком случае, в рамках тех, ограниченных «выборок ситуаций», которые представлены в текстах, написанных на естественном язык^

215

нием законам, лежит в основе эффекта статистического опознания терминологических единиц [32а, с.111]; см. также гл. 9, § 6, п.2.

После этих предварительных разъяснений перейдем к изложению центральной предельной теоремы Ляпунова и связанного с ней ма-

тематического аппарата; "ее доказательство см. в [14].

 

Теорема Ляпунова. Пусть Хъ

Х2, ...., XN последовательность

взаимно

независимых случайных

величин

с конечными математичес-

кими ожиданиями

М (Xj), М 2), ...,

М п)

и с конечными дис-

персиями

D (Xj), D

2), ..., D

(Х„). Тогда при

выполнении

условий

 

 

 

 

 

- .

ч

 

(6.119) и (6.1-20) сумма этих случайных

величин

X*

1 (

с доста•

точной

степенью

точности распределена по

нормальному

закону

спараметрами

М (X*) = ц = М (Хх) + М (Х2) + ... + М (Х„)

D (X*) = а2 = D (Xj) + ... + D (Х„).

Отсюда вероятность того, что случайная величина X* примет какое-либо значение в промежутке ъ хг), согласно формуле (6.98) составляет

Р ( х 1 < Х * < х г ) = - ! = -

Г е-г*/2 d 2

=

У 2л

J

 

=

 

(6,121)

Частным случаем последнего выражения служит равенство

Р (|Х* — ц | < г а ) =

2Ф (г).

(6.122)

Нетрудно догадаться, что теорема Ляпунова имеет место и тогда, когда случайная величина является суммой достаточно большого числа одинаково распределенных независимых случайных величин, имеющих абсолютные центральные моменты третьего порядка. При доказательстве этого утверждения следует учитывать тот факт, что моменты всех порядков этих случайных величин — в том числе центральные моменты второго и третьего порядков — совпадают.

Средняя арифметическая

указанных величин с учетом того,' что

п — N, равна

 

N

 

 

 

 

ее дисперсия

N

l•—, 1

 

 

 

 

\

»=i

1

i=i

e J _ ( f f ! +

0 j + ... + a * ) =

(6.123)

216

а среднее квадратическое отклонение

 

 

o ^ o l V N .

(6.124)

Используя в соотношении (6.122) вместо а только что получен-

ное значение

а вместо X* — среднюю арифметическую X, при.

ходим к равенству

 

VN )

которое можно переписать в виде

^ Z J i y j j j <

• 2Ф (г).

(6.125)

Примерами таких случайных величин могут являться случайные лингвистические величины, распределенные по простой схеме повторений испытаний. Следовательно, здесь в качестве усредненной случайной величины можно рассматривать относительную частоту FIN = f , математическое ожидание которой есть вероятность р. При этом нормированное отклонение примет вид

t-P

f-P

(6.126)

о

ypq/N

 

(ср. с §3, п.4).

Если N достаточно велико, то, учитывая (6.124), можно пере-

писать выражение (6.122) в виде

 

 

 

f-P

< г I =

2Ф (г),

(6.127)

УРЯ/N

 

 

 

где

 

 

 

 

 

N

(6.128)

ypdlN

 

РЯ

 

 

Отсюда

 

 

 

 

 

(1 - Р )

(6.129)

 

 

N

 

 

 

N — z2pql&2.

 

(6.130)

При решении лингвистических задач, оперирующих нормально распределенными случайными величинами X, X или X*, целесообразно задать такой интервал рассеяния случайной величины вокруг ее математического ожидания (соответственно частостей вокруг вероятности), в который попадало бы большинство значений

случайной величины.

 

С этой целью, записав равенство

(6.122) в виде

Р р - И < га)

2Ф (г),

217

придадим z целочисленные значения 1, 2, 3. Тогда, учитывая данные табл. III (см. стр. 365), получим

при г -

1

(|.Х — | * |

< о )

=

2Ф(1) =

2-0,3413

-0,6826;

(6.131)

при

2 «

2

— fi| <

2а) =

2Ф(2) =

2-0,4772 = 0,9544;

(6.132)

при

? =• 3

: Р

ц| <3а) =

2Ф(3) = 2-0,49865 =

0,9973.

(6.133)

В лингвистических задачах обычно используется выражение (6.133), известное под названием травила трех сигм». Это правило утверждает с вероятностью 2Ф(3) = 0,9973, что отклонения случайной величины X от ее математического ожидания не превосходят величины За. Вероятность же того, что отклонение случайной величины X выйдет за пределы трехкратного среднеквадратического отклонения, равно 0,0027. Иными словами, здесь имеется практическая уверенность, что погрешности лингвистического наблюдения не превысят заданной ошибки наблюдения е = За.

В некоторых работах используются более узкие — двухсигмо-

вый (6.132) и односигмовый

(6.131) интервалы [34]. В этих случаях

практическая уверенность

в том, что случайная величина попадет

в заданный интервал, значительно меньше.

До сих пор мы рассматривали вопрос о применимости централь-

ной предельной теоремы к независимым величинам. Можно доказать [6, с. 251], что центральная предельная теорема может быть рас-

пространена и на зависимые

случайные величины при

условии,

что связь между величинами

Х2,..., Xi} ..., Xk, ...,

постепен-

но ослабевает по мере удаления их друг от друга, т. е. при возрастании разности i k. Этот результат представляет прямой интерес для лингвистического исследования речи, имеющей дело со слабо зависимыми величинами. В целом же на центральной предельной теореме Ляпунова и ее следствиях основываются как выборочный метод, так и сопоставление результатов лингвистического эксперимента с вероятностными моделями построения текста.

Примерам этого сопоставления будут посвящены следующие главы.

ПЕРВИЧНАЯ СТАТИСТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА

§ 1. Статистическая совокупность лингвистических объектов и ее организация

Исследование текста с помощью описанных выше вероятностных моделей может быть осуществлено при том условии, что произведена первичная статистическая обработка текста и к ее результатам применены специальные критерии перехода к вероятностной модели.

Прежде всего познакомимся с приемами первичной статистической обработки текстов.

1. Статистическая совокупность лингвистических объектов. Всякое статистическое исследование предусматривает наблюдение над множеством объектов. Эти объекты характеризуются многими признаками, каждый из которых варьируется при переходе от одного объекта к другому. Все признаки одновременно рассмотреть невозможно, поэтому языковед должен сосредоточить свое внимание на одном определенном признаке, предполагая, что в отношении остальных признаков объекты данного лингвистического множества равноправны. Используя такое допущение, мы можем считать, что рассматриваемое множество однородно. Построенное указанным

способом множество

называется статистической совокупностью,

а составляющие ее объекты — единицами совокупности.

Лингвистические

объекты обладают как количественными, так

и качественными свойствами. Количественные свойства (например, длина словоформы в буквах или фонемах, слогах, морфемах, либо количество словоупотреблений в предложении и т. п.) постоянно используются в качестве тех признаков, по которым лингвистические объекты выступают в качестве единиц статистической совокупности.

Однако статистика текста оперирует не только количественными, но и качественными признаками. Например, в ходе статистикоморфологического исследования словоупотребления текста группируются по признаку их принадлежности к той или иной части речи. При статистако-синтаксическом исследовании таким качественным признаком является функционирование каждого словоупотребления в роли определенного члена предложения.

Часто бывает удобно использовать лишь два качественных признака, точнее признак А и его отсутствие — не А (Л). В этом случае говорят об альтернативном качественном признаке. В только что рассмотренном примере в качестве альтернативного признака можно рассматривать отнесение данного словоупотребления к существительным или не-существительным (соответственно к глаголу или не-глаголу, подлежащему или не-подлежащему и т. п.).

Отдельные лингвистические статистические совокупности могут образовывать вместе более крупную совокупность — совокупность совокупностей. Одновременно каждая совокупность может состоять

219