Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Пиотровский

.pdf
Скачиваний:
170
Добавлен:
06.06.2015
Размер:
9.13 Mб
Скачать

Т а б л и ц а 5.2

Распределение вероятностей букв в русских литературных текстах

Буква

р

Буква

р

Буква

Р

Пробел (Д)

0,174

К

 

Ч

0,012

о

0 . 090

м

м ! б

й

0,010

е,ё

0,072

д

0,085

X

0,009

а

0,062

п

0,023

 

0,007

и

0,062

У

0.Й1

ш

0,006

н

0,053

я

0,018

ю

0,006

т

0,063

в

0,016 .

ц

0,004

с

0,045

ы

0,016

щ

0,003

Р

0,040

б

0,014

9

0 , 0 0 3

в

0,038

ь, ъ

0,014

Ф

0,002

л

0,035

г

0,013

 

 

Опыт МНОГИХ наук, да м вся практическая-деятельность человека показывают, что результаты отдельных статистических испытаний могут давать заметные флуктуации. Однако при большом числе испытаний N статистические флуктуации начинают сглаживаться, а относительная частота / обнаруживает все большую устойчивость. Иными словами, в случайных явлениях имеется некоторое объективно существующее свойство, которое имеет тенденцию оставаться постоянным и проявляется все яснее при увеличении объема исследуемого материала. Указанное свойство измеряется некоторой постоянной величиной, которая является количественной объективной числовой характеристикой изучаемого явления. Эта постоянная величина и называется вероятностью случайного события А [будем по-прежнему обозначать ее символом Р (Л)]. Экспериментальными значениями вероятности являются относительные частоты интере- - сующего нас события / (Л) в определенных сериях наблюдений. Определенная таким образом вероятность случайного события носит название статистической вероятности.

Следует обратить внимание читателя на то, что точное численное значение статистической вероятности остается, вообще говоря, неизвестным. За численное значение вероятности обычно принимается при большом количестве испытаний либо сама частость события А, либо некоторое число, близкое к этой частости, например некоторое среднее арифметическое относительных частот, полученных из нескольких достаточно больших серий испытаний*.

Оставляя в стороне методологические дискуссии, связанные со статистическим определением вероятности [14, с. 17 и сл.], необходимо подчеркнуть, что этот подход имеет принципиальное значение для

* Разумеется, это не значит, что вероятность события вообще не может быть точно определена. Если мы имеем дело со схемой с л у ч а е в , то вероят-

ность вычисляется по формуле (5.7). Кстати, если нас интересует вероятность появления глагола быть только в произведениях Пушкина, то, используя классическое определение вероятности, нетрудно показать, что она равна

0,0161.

120

прикладных исследований, в том числе и лингвистических, например при составлении частотных словарей. Не имея обычно возможности обследовать всю генеральную совокупность возможных исходов (например, всю совокупность словоупотреблений, составляющих все когда-либо написанные русские тексты), мы вынуждены производить серию наблюдений, охватывающих некоторую частную совокупность (например, определенную выборку из русских текстов). В результате таких исследований мы получаем относительные частоты для случайных событий (в нашем случае —словоформ или слов). По этим относительным частотам необходимо оценить численные значения вероятностей, которые, как уже указывалось, являются числовой характеристикой изучаемых явлений Эта оценка сводится к выяснению того, насколько далеко отклоняются экспериментальные частоты от вероятности. Решение такой задачи является по существу узловым вопросом всех статистических исследований.

4. Аксиоматическое построение теории вероятностей. Все только

что рассмотренные определения вероятности имеют существенные недостатки и ограничения

Интуитивная оценка вероятности зависит от тезауруса© познающего субъекта, который обычно не поддается измерению. Схема случаев применима лишь к таким опытам, которые заведомо дают симметрию конечного числа равновероятных исходов. При статистическом подходе понятие вероятности вообще остается в тени.

Широкое проникновение вероятностно-статистических исследований в естественные и гуманитарные исследования потребовало создания формально-логического обоснования всего аппарата теории вероятностей; это обоснование дано в аксиоматическом построении теории вероятностей, предложенном А Н Колмогоровым [19].

Поскольку аксиоматика Колмогорова позволяет преодолеть ряд трудностей, возникающих при использовании теории вероятностей

вязыкознании, мы рассмотрим ее основные идеи и положения.

Ваксиоматике Колмогорова случайное событие не рассматривается как исходное первичное понятие, но образуется на основе других элементарных понятий. Чтобы пояснить это положение, рассмотрим два примера.

Пусть

имеется некоторое пространство U (прямая,

площадь

ит. д.).

В этом пространстве содержатся подобласти А,

В,

...,

Z.

В пространстве U «наудачу» берется точка с. Попадания

точки

а

в те или иные подобласти точек и являются случайными событиями. Одновременно каждое случайное событие выступает в качестве некоторого подмножества множества точек U (рис. 36)

Возьмем другой пример Пусть имеется текст, написанный на некотором естественном языке. Этот текст можно рассматривать как некоторое лингвистическое пространство (множество словоупотреблений) U. Подобластями (подмножествами) А, В, ..., Z этого пространства являются группы словоупотреблений, имеющие абсолютно одинаковое написание (т. е. словоупотребления, реализую-

ющие одну и ту же словоформу), например: а,

абажур, абажу-

ра, абажуру

наука, науки, науке, ....

"

121

Из словаря берется некоторая словоформа, например науке, и накладывается наугад на одно из словоупотреблений текста. Словарная единица науке может совпасть с текстовым словоупотреблением науке (в этом случае мы имеем дело с попаданием словарной единицы в подмножество науке), а может и не совпасть с указанным текстовым словоупотреблением. Попадание или непопадание словарной единицы в то или иное подмножество является случайным событием.

При этом каждое случайное событие является некоторым

подмноже-

ством нашего лингвистического

множества.

 

 

 

 

 

 

 

 

 

Иными словами, аксиоматика

Колмогорова исходит из множества

U

элементарных

событий

наших примерах — геометрических

 

 

 

 

 

точек

или

 

словоупотребле-

 

 

 

 

 

ний),

которые

в

данной

си-

 

 

 

 

 

туации

можно

рассматривать

 

 

 

 

 

как возможные события. Да-

 

 

 

 

 

лее вводится

система

5 под-

 

 

 

 

 

множеств множества U Эле-

 

 

 

 

 

менты этой системы называ-

 

 

 

 

 

ются случайными

событиями.

 

 

 

 

 

Построение системы

$

долж-

 

 

 

 

 

но

отвечать

следующим тре-

 

 

 

 

 

бованиям:

 

 

 

 

 

 

 

 

 

 

 

 

 

1) $ содержит

в качестве

 

 

 

 

 

элементов

Множество

U,

а

 

 

 

 

 

также пустое множество U

=

 

 

Рис. 36

 

-

V;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2) если А и В, являющиеся

 

 

 

 

 

подмножествами множества U,

входят

в 5 как

его элементы,

то множества А

+

В, АВ,

А —

В,

Л

и Б,

составленные из элементов U,

также

будут

элементами

системы

В этом случае $

называется телом

событий.

 

 

 

Нетрудно, заметить, что представленные здесь требования аналогичны условиям, на которых строилось поле событий £2 в клас* сическом определении вероятности, сводящемся к схеме случаев. Однако к полю событий в аксиоматике Колмогорова предъявляется еще одно требование, позволяющее применять ее к речевым ситуациям, в которых число исходов опыта не является конечным. Это требование можно сформулировать так:

Если подмножества Ах, Л5

Лп ,

принадлежащие мно-

жеству U, суть элементы системы

то их сумма

+ Аг -f- ...

+ Ап

+ ... и произведение ЛХЛ2

... Ап...

также

являются элемен-

тами

д.

 

 

 

Изложив основную идею аксиоматики Колмогорова, перечислим теперь основные аксиомы, определяющие вероятность.

1°. Каждому случайному событию А из поля событий 5 можно поставить в соответствие неотрицательное число Р (А) ^ 0, называемое его вероятностью.

2°. U является событием с вероятностью Р (U) = 1.

122

3tt.

( А к с и о м а

с л о ж е н и я . )

Если события А и В несовмес-

тимы,

то

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Р (А + В) — Р (А) +

Р (В).

 

 

 

 

(5.9)

Аналогично, если события Ль А2,

 

 

Ап

попарно

несовместимы, то

Р (А, + Л2

+ ... + Ап)

=

Р (A J

+

Р 2)

ф

... +

Р (Л„).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(5.10)

4°. ( А к с и о м а

 

н е п р е р ы в н о с т и . )

 

Если

имеется по-

следовательность событий Аъ

А2,

...,

Ап

и эти события

не

могут

осуществляться

одновременно,

то

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Нт/>(Л,Л

г ... Л„) =

0.

 

 

 

 

 

 

 

 

 

 

 

 

о

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5°. ( Р а с ш и р е н н а я

 

а к с и о м а

в л о ж е н и я . )

Аксиома

вложения справедлива

для

бесконечного количества событий.

Иными

словами, если

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

А

 

 

И?-

 

...

 

 

Ап

4 ...

 

 

 

 

является событием,

то

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Р (А) = Р х)

4

Р (А2)

+

... +

Р

п)

* ... .

(5.11)

Приведенные

аксиомы дают ряд

важных

для лингвистических

приложений

с л е д с т в и й .

 

 

 

 

 

 

 

 

 

 

 

 

 

1. Если несовместимые события Ах,

А2,

.. , Ап образуют

полную

группу

событий,

то согласно аксиомам 2° и 3°, сумма

вероятностей

зтих событий равна единице

т

е.

 

 

 

 

 

 

 

 

 

 

 

 

 

Р ИЛ

+

Р а) +

... +

Я (An)

=

1.

 

 

(5.12)

2.

Сумма

вероятностей

двух

противоположных

событий

равна

единице, т. е.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Р

(Л) +

Р

(Л)

 

1.

 

 

 

 

 

(5.13)

3.

Из формулы (5.13) следует,

что

 

 

 

 

 

 

 

 

 

или

 

 

 

 

Р (Л) =

1 _

 

Р

(А),

 

 

 

 

 

 

 

 

 

 

Р

(Л) =

1 -

 

Р

 

(А).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4.

Вероятность

невозможного события

равна

нулю'.

 

 

 

 

 

 

 

 

 

Р (К) = 0.

 

 

 

 

 

 

 

 

 

5.

Каково бы ни было случайное событие А, его вероятность

заклю-

чена между нулем

и

единицей:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0 < Р ( Л ) < 1 .

 

 

 

 

 

 

 

(5.14)

6.

Если A

cz В,

то Р (Л) <

Р

{В).

 

 

 

 

 

 

 

 

123

7.

Если А

и В — совместимые, события, то в суммах А

-{- В =>

*= А + (В — А В)

и

В

АВ +

(В — АВ)

слагаемые

правых

частей — несовместимые

события.

 

 

 

 

8.

Если А

и В — произвольные события (т. е. такие события, ко-

торые

могут

быть

и

совместимыми, и несовместимыми), то имеет

место

неравенство

 

 

 

 

 

 

 

 

 

Р (А +

В ) < / >

{А) +

Р (В).

(5.15)

По индукции следует, что если Аи

Л8 ,

Ап

— произвольные собы-

тия,

то

 

 

 

 

 

 

 

 

Р (Аг +

Аг +

... +

Л „ ) < Р (AJ +

Р (А*) 4- + Р

п).

Приведенные аксиомы и следствия мы проиллюстрируем в дальнейшем по ходу описания Лингвистических приложений теории вероятностей.

Аксиоматическое построение основ теории вероятностей характеризуется следующими особенностями:

I. Вероятностные понятия получают здесь теоретико-множест- венную интерпретацию. Сущность ее состоит в том, что все возможные для данного опыта элементарные события, их суммы к произведения, а также невозможные события рассматриваются как элементарные множества 5, причем каждому элементу этого множества ставится в соответствие некоторое число (норма), являющееся его счетно-аддитивной (т. е. способной к арифметическому сложению), неотрицательной мерой. Такая интерпретация вероятностных понятий принципиально важна для лингвистического приложения теории вероятностей: она позволяет перебросить естественный мост между алгебраическим (по своей природе теоретико-множествен- ным) языкознанием, квантитативной (по своему существу—вероят- ностной) лингвистикой и нечетко-множественным языкознанием [26, с. 207—269]; 165].

II. Аксиоматика Колмогорова исходит из свойств и понятий вероятности, сформулированных уже в классическом и статистическом ее определениях. Эти последние целиком включаются в аксиоматическое определение вероятности как ее частные случаи. Вместе с тем аксиоматика Колмогорова преодолевает ограниченность как классического, так и статистического определений. С одной стороны, удается избежать тех логических трудностей, которые связаны, с несовместимостью понятий иррегулярности и требования о существовании предела, — понятий, постулируемых в статистическом определении вероятности. С другой гтороны, преодолевается ограниченность схемы случаев, оперирующей лишь о конечным числом результатов. Введение А. Н. Колмогоровым в определение вероятности аксиомы непрерывности, а также расширенной аксиомы сложения позволяет рассматривать события, подразделяющиеся на бесконечное число частных случаев. Этот факт имеет принципиальное значение для языкознания, которое постоянно имеет дело с речевыми процессами, охватывающими бесконечное число словоформ, словосочетаний и предложений.

124

§4. Вероятности сложных лингвистических событий

1.Сложение вероятностей. Языковеда редко интересуют элемен- тарные события, чаще всего ему приходится иметь дело со сложными лингвистическими событиями, например с суммой элементарных со- бытий. Выбор правил, с помощью которых вычисляется вероятность сложного события, определяется тем, являются ли составляющие его элементарные события несовместимыми или совместимыми.

Согласно правилам 3° (аксиома сложения) и 5° (расширенная аксиома сложения), вероятность наступления одного из попарно независимых событий х + Аг + ... + Ап + ...) равна сумме вероятностей этих событий:

Р (Л, + Л2 + ... + Ап + ...) = = Р (Л0 + Р (Аг) + ... +Р (Ап)+ ... .

Однако если два события совместимы, то их вероятность определяется как сумма вероятностей этих событий минус произведение вероятностей этих событий:

Р (А + В) = Р (А) + Р (В) — Р (А) Р (В)

(6.16)

При вычислении вероятности суммы нескольких совместимых событий обычно, пользуются правилом, согласно которому вероятность появления хотн бы одного из нескольких совместимых событий Аи Л2, ..., Ап равна разности между единицей и вероятностью совместного наступления (умножения) всех противоположных событий. Иными словами,

/ > ( А + Л 2 + ... + Л„) = 1 -Р(АуАг...Ап)

= \ - П ( 1 - т ) ) .

 

<= 1

 

(5.17)

2. Прогнозирование вероятностей лингвистических событий при повторении опытов. Рассмотренные правила широко используются при прогнозировании событий в разного рода вероятностно-лингви- стических, инженерно-лингвистических и информационных задачах. Рассмотрим в этой связи следующий пример.

Для расчета памяти вероятностного автомата, распознающего устную речь, и построения алгоритма его работы приходится вычислять вероятность совпадения хотя бы одной из словоформ обрабатываемого текста с соответствующей лексемой, заданной в словаре автомата.

Предположим, что нужно определить вероятность того, что хотя

бы одно из двух выбранных слов текста

будет местоимением

он.

Обозначим через А первое появление

местоимения он, а

через

В — второе появление этого же местоимения. События А и В совместимы, поскольку можно извлечь одновременно слово он как из первого, так и из второго отрывков. Поэтому при решении нашей задачи необходимо воспользоваться формулой (5.16). Значение ста-

125

тистической вероятности согласно данным частотного словаря [39] равно 0,0099. Учитывая это, получаем

Р (А + В) = 0,0099 + 0,0099 — 0,0099 • 0,0099 « 0,020.

Теперь предположим, что распознающий автомат анализирует десять взятых наугад словоформ, и попробуем определить вероятность того, что хотя бы одна из этих словоформ окажется местоимением он. Для этого воспользуемся формулой (5.17), обозначив через А совпадение текстовой словоформы с местоимением он, а через С — появление в нашем опыте хотя бы одного он. Поскольку вероятность Р (А) для всех отрывков одинакова, на основании равенства (5.17) найдем

Р (С) = 1 — (1 — 0.0099)10 ~ 0,095.

Таким образом, вероятность получить хотя бы одно местоимение он при десятикратном извлечении словоформы из текста заметно выше вероятности получить его при однократном или двукратном извлечении.

3. Зависимые лингвистические события и условные вероятности.

До сих пор мы имели дело с независимыми событиями, т. е. с такими событиями, вероятность появления которых не зависела от вероятности -появления другого лингвистического события — эти вероятности называются безусловными. Однако языкознание сравнительно

редко имеет

дело с независимыми событиями.

Обычно речь идет

о зависимых

событиях и условных вероятностях:

даже вероятности

появления букв, фонем, слогов, морфем и т. д. являются условными, так как зависят от позиции этих лингвистических объектов в слове, словосочетании и предложении. Например, как показывают табл. 5.3

и 5.4, буква

п в начале русского

слова имеет вероятность

0,207,

а после начального я вероятность

ее появления составляет

всего

0,001.

 

 

 

 

 

 

 

 

 

 

Т а б л и ца 5.3

Распределение

вероятностей первых букв

русского

слова

 

Буква

Р

Буква

р

Буква

 

р

п

0,207

Я

0,035

е

0,014

н

0,085

3

0,032

9

0,014

и

0,070

т

0,031

Л

0,012

с

0,064

ш

0,030

X

0,010

О

0,052

Ф

0,029

Ц

0,008

в

0,051

Р

0,021

ж

0,007

к

0,040

б

0,020

щ

0,003

м

0,038

У

0,020

ю

0,002

д

0,037

е

0,016

й

0,001

а

0,036

ь ч

0,015

 

 

 

126

Таблица 5.4

Распределение

вероятностей

русских букв после цепочки Ая*

Б у к в а

р

Буква

р

Буква

р

Пробел (А)

0,701

г

0,004

Я

0,001

в

0,157

й

0,003

п

0,001

3

0,036

д

0,002

X

0,001

Р

0,031

к

0,002

ш

0,001

Щ

0,016

л

0,001

 

 

в

0,009

м

0,001

 

 

* Таблицы 5 . 3 и 5.4 составлены путем обследования

разговорных, беллетристичес-

ких, научно-технических и публицистических текстов

длиной примерно в

500 c i p .

(ок. 200 тыс. словоформ). Возможное е точки зрения лексических норм

сов[еменного

русского языка

начальное

двухбуквениое сочетание

яф

(ср. яфетический,

Яффа)

не встретилось

и поэтому

не у ч т е н о в таблице.

 

 

 

 

Рассмотрим

соотношение независимых

и

зависимых

событий,

а также безусловных й условных вероятностей на примере искусственного лингвистического опыта.

Словоформа мамам (дательный падеж множественного числа от мама) составлена из букв разрезной азбуки. Карточки с буквами этого слова положены в урну. Производится испытание, состоящее

впоследовательном извлечении карточки с буквой и возвращении ее обратно в урну. Событием В считается извлечение буквы м в первом испытании (тогда В будет извлечение из урны не м, т. е. буквы а), событием А — извлечение буквы а во втором опыте (тогда А будет извлечение из урны не а, т. е. буквы м). В силу того, что вынутая

впервый раз буква возвращается обратно в урну, перед вторым опытом количество букв в урне не изменяется. Поэтому вероятность

события А является б е з у с л о в н о й , поскольку она не зависит от того, была ли извлечена до этого из урны буква м (событие В) или буква а (событие В), и остается равной 2/5. Безусловной является и вероятность события В. Если изменить условия опыта и не возвращать извлеченную букву обратно в урну, то вероятности получить при втором, третьем и т. д., извлечениях букву а или м будут существенно зависеть от того, какие буквы были извлечены перед этим из урны.

Пусть исходом первого извлечения была буква м\ тогда вероятность вытащить при втором извлечении букву а составит 2/4 = 1/2. В том же случае, когда в результате первого опыта получена буква а (событие В), вероятность вытащить второй раз букву а равна 1/4. Сходное положение возникает при определении вероятности появления буквы м (событие А) во втором извлечении при условии, что в первый раз была получена буква м (событие В) или а (событие В). Иными словами, события А и В являются з а в и с и м ы м и , а их вероятности — у с л о в н ы м и .

127

Условная вероятность события А при условии, что произошло событие В, обозначается Р (А/В), Так, в рассмотренном выше примере

Р (А/В) = 1/2, Р (А/В) = 1/2, Р (А/В) = 1/4, Р (А/В) = 3/4.

Условная

вероятность события А, вычисленная

при условии,

что осуществилось несколько событий Вх, Вг, В3, ...,

обозначается

Р(А/В1В2В

з...).

 

Величина условной вероятности всегда заключена в том же отрезке, что и величина абсолютной вероятности, т. е.

О^Р (A/B^JB, . . . ) < 1.

4. Правило умножения вероятностей и вычисление вероятностей цепочек языковых элементов. Каждый текст или его часть можно рассматривать как совместное наступление некоторой линейной последовательности лингвистических событий—совместное появление цепочки словоформ, последовательности слогов, цепочек фонем или букв. Определение вероятностей появления этих цепочек опирается на т е о р е м у у м н о ж е н и я в е р о я т н о с т е й , согласно которой вероятность совместного наступления двух событий равна произведению вероятности первого события на условную вероятность второго, вычисленную при условии, что первое событие имело место:

Р (АВ) = Р (А)Р

(В/А)

или Р (АВ)

= Р (В) Р

(А/В).

(5.18)

Из этой теоремы вытекают три важных следствия.

 

 

С л е д с т в и е 1.

Если

событие А

независимо

от В,

то и со-

бытие В независимо от

А.

 

 

 

 

 

Для независимых событий теорема умножения вероятностей

упрощается и принимает следующий вид: вероятность

произведения

двух независимых случайных событий равна произведению

их безуслов-

ных

вероятностей:

Р (АВ) = Р (А) Р (В).

 

 

(5.19)

 

 

 

 

С л е д с т в и е

2. Если события А и В независимы,

то незави-

симы также и пары

событий (А, В),

(А, В), (А,

В).

 

 

 

С л е д с т в и е

3. Вероятность

произведения

зависимых

собы-

тий

А, В, С равна произведению вероятности одного из них на услов-

ную вероятность второго и на условную вероятность третьего,

вы-

численную при условии,

что предыдущие оба события

произошли:

 

Р (ABC) =

Р (А) Р (В/А) Р (С/АВ).

 

 

(5.20)

Обобщая это следствие на п зависимых событий А

Л2, ...,

АП1

получаем

 

 

 

 

 

 

 

P^Ai^=P(A1)P(AjA1)P(Aa/A1A2)...P^Anfn

 

 

V ) .

(5.21)

Выше в табл. 5.2—5.4 были приведены значения для условных

и безусловных статистических вероятностей отдельных букв

в тек-

128

стах современного русского литературного языка. Используя эти таблицы и соотношения (5.18), (5.20), (5.21), можно рассчитать ве- роятности появления в письменных текстах современного русского языка различных двухбуквенных сочетаний.

Так, например, вероятность появления группы Дя равна Р (Ля) = Р (А) Р (я/А) = 0,174 • 0,035 = 0,006 = 0,6°/0.

Чтобы определить вероятность появления слова я, образуем трехслойное сочетание АяА, для которого

Р (АяА) = Р (А) Р (я/А) Р (А/Ая) =

= 0,174 • 0,035 • 0,701 = 0,00427 = 0,4°/о.

Для расчета вероятности появления морфемы япон формируем цепочку Аяпон\ тогда

Р (Аяпон) = Р (А) Р (я/Л) Р («/Дя) Р (о/Аяп) Р (ч/Аяпо).

«Словарь русского языка» под ред. С. И. Ожегова показывает, что после цепочки Аяп единственно возможным продолжением будет диграмма он*. Отсюда следует, что появления здесь букв о и н являются достоверными Событиями, условная вероятность которых равна единице. Таким образом,

Р (Аяпон) = 0,174 - 0,035 • 0,001 • 1 • 1 = 0,00006 = 0,006°/0.

5. Определение общей вероятности лингвистического события с помощью формулы полной вероятности. Если лингвистическое событие А может осуществиться вместе с одним и только одним из п несовместимых событий Н и Н2, #„, называемых гипотезами и образующих полную группу событий, то для определения вероят-

ности этого события используется ф о р м у л а

п о л н о й ве-

р о я т н о с т и :

 

Р ( А ) = 2J Я (Я,) Я (Л/Я,).

(5.22)

i= 1

 

Таким образом, вероятность события А равна сумме произведений вероятности каждой гипотезы на вероятность события при осуществлении этой гипотезы.

Формула полной вероятности используется для вычисления общей вероятности лингвистического события при условии, что известны его вероятности в узко-тематических выборках.

Пусть, например, имеется английский научно-технический текст общей длиной в 400 тыс. словоупотреблений (около тысячи стандартных страниц). По тематике этот текст распадается на следующие четыре выборки разной длины:

* Мы опускаем в данном случае продолжение

япош(кавероятность

появления которого с точки зрения норм русского

литературного языка

близка к нулю.

 

5 Зак. 1287

129