
Пиотровский
.pdfдого из испытаний является условной (ср. гл. 5, § 4, п. 3). Эксперимент, оперирующий с последовательностью зависимых испытаний, в каждом из которых исходы имеют условные вероятности, называется бесповторной (безвозвратной) выборкой.
Реальный вероятностно-лингвистический эксперимент может быть осуществлен как с помощью повторной, так и с помощью бесповторной выборки.
При "повторной выборке подвергшиеся испытанию лингвистические единицы должны каждый раз как бы возвращаться в текст. Рассмотрим организацию повторной выборки на следующем примере.
Предположим, что необходимо определить статистическую вероятность имен существительных или отдельных словоформ (ска-
жем, и, |
при, можно, |
напряжение) в русских |
текстах |
по |
вычисли- |
||||||
тельной |
технике. |
Для |
этого выберем |
массив текста |
из |
книг: |
|||||
А. |
И. |
К и т о в |
и |
Н. |
А. К р и н и ц к и й . |
Электронные |
циф- |
||||
ровые |
машины |
и |
программирование |
(М., |
1959, |
с. 1—566) |
и |
||||
А. |
А. |
П а п е р н о в. |
Логические основы |
цифровых |
машин |
и |
программирование (М., 1965, с._7—440). Во второй книге страницы перенумеруем таким образом, что они образуют последовательность
от 567-й до 1000-й страницы. Этим способом |
формируется массив |
в 1000 страниц, содержащий около 400 тыс. |
словоупотреблений. |
Поиск лингвистических единиц осуществляется здесь следующим образом. Из таблицы случайных чисел последовательно выбираются шестиразрядные числа. Эти числа служат адресами тех словоупотреблений, которые мы будем сопоставлять при каждом испытании с интересующей нас единицей. Первые три цифры указывают на страницу, следующие две — на строку, а последняя — на номер словоупотребления в строке.
В тех случаях, когда то или иное случайное число указывает на несуществующую страницу, строку или словоупотребление, адрес считается недействительным и выборка осуществляется по следующему числу.
Если выбранное таким образом словоупотребление оказывается интересующей нас лингвистической единицей, то мы имеем дело с благоприятным исходом испытания. В противном случае имеет место неблагоприятный исход. Сумма благоприятных исходов, деленная на общее число испытаний, даст статистическую вероятность интересующей нас лингвистической единицы.
Возьмем теперь первые двадцать пять чисел из таблицы случайных чисел: 857454, 457562, 499988, 762760, 431557, 698780, 038799, 558121, 653187, 573553, 609209, 179138, 974652, 011813, 098638, 805797, 516103, 296103, 149471, 815377, 070381, 692830, 696116, 203055, 350356.
При этом реальные адреса дают нам 8, 9, 11, 18, 19, 21, 23, 24 и 25-е случайные числа, по которым из текста соответственно выбираются следующие словоупотребления: таким, делению, бы, 1Ъ остается, зависимости, наименование, система, оба. Остальные адреса являются недействительными.
150
Таким образом, нам удалось выбрать четыре существительных, вместе с тем мы не встретили ни одной из исследуемых словоформ.
При обследовании высокочастотных единиц, требующих сравни-
тельно |
небольшой серии испытаний (к таким единицам |
относятся |
части |
речи и члены предложений, знаки препинания, классы букв |
|
и фонем), желательно в целях математической строгости |
применять |
|
схему независимых испытаний (повторную выборку). |
|
Если же речь идет об определении вероятности таких редких единиц, как словосочетания, словоформы, фонемы и их сочетания, то осуществление повторной выборки вручную оказывается неосу-
ществимой задачей из-за |
большого объема |
работы, |
связанного |
с громоздкой процедурой |
извлечения этих |
единиц |
из текста*. |
Поэтому здесь приходится применять бесповторную выборку. Хотя бесповторная выборка представляет собой последовательность вависимых испытаний, математическая обработка ее результатов производится обычно исходя из схемы независимых испытаний. Ниже будет показано (см. п. 6), что при большом объеме исследуемой лингвистической совокупности это нарушение математической строгости не приводит к сколько-либо заметным искажениям конечных результатов.
2. Три схемы независимых лингвистических испытаний. Квантитативное языкознание широко использует метод серийного наблюдения. Сущность его заключается в том, что лингвистические единицы выбираются из текста группами фиксированной длины: например, по десять фонем, по сто предложений или словоформ и т. п. Лингвистические единицы, составляющие серию, не обязательно должны находиться в тексте рядом друг с другом, они могут извлекаться и через определенный интервал.
При решении многих теоретических и инженерно-лингвисти- ческих задач оказывается необходимым знать вероятность появления того или иного числа интересующих исследователя лингвистических единиц в серии.
Если образующие серию лингвистические испытания рассматриваются как независимые, то мы можем осуществлять необходимое прогнозирование с помощью разработанных в теории вероятностей трех систем независимых испытаний: п р о с т о й , по- л и н о м и а л ь н о й и п у а с с о н о в с к о й .
Простая схема предусматривает только два исхода опыта: появление или непоявление признака А. Примером этой схемы является повторная выборка из текста согласных (А) и гласных (Л) фонем (см. п. 1).
В полинокиальной схеме испытание дает не два, а несколько исходов. По этой схеме осуществляется, например, эксперимент, заключающийся в выборе из текста графем трех видов: букв, знаков препинания и пробелов.
* В настоящее время рассматривается вопрос о создании машинного алгоритма повторной выборки редких лингвистических единиц из больших массивов текста. Адреса выборки генерируются случайным образом самой ЭВМ.
151
В пуассоновской схеме независимые испытания осуществляются относительно нескольких совокупностей (подъязыков, стилей, тематик), в каждой из которых данный признак имеет разную вероятность. Поэтому вероятность лингвистического исхода меняется в зависимости от того, относительно какого подъязыка или тематики производится опыт.
Математическая модель, по которой осуществляется прогнозирование результатов простой схемы испытаний, является исходной при построении других вероятностных моделей, в том числе и тех, которые широко используются в квантитативной лингвистике. Поэтому мы особенно детально рассмотрим математическую модель простой схемы независимых испытаний.
3. Простая |
схема |
независимых испытаний. Формула Бернулли. |
Предположим, |
что в |
некотором тексте длиной в п фонем имеется |
m согласных и п — т |
гласных. По схеме повторной выборки про- |
|
изводится N независимых испытаний, заключающихся в последо- |
вательном случайном извлечении фонемы из текста. Требуется определить вероятность события, состоящего в том, что среди извлеченных N фонем ровно х окажутся согласными, причем порядок следования гласной и согласной фонем безразличен
Считая появление согласной событием А, а гласной — событием А, определим вероятности появления гласной и согласной.
Согласно |
классическому определению вероятности, имеем |
||
|
|
Р(Л) = т/п = р, |
Р (Л) = (п—т)/п = q. |
Теперь найдем вероятность того, что при N независимых испытаниях |
|||
событие |
А появится. ровно |
х раз, если вероятность появления |
|
этого |
события при каждом |
отдельном испытании постоянна и |
|
равна |
р. |
|
|
Для этого составим всевозможные схемы, которые представляют разнообразную последовательность из появления х раз собы-
тия А и N — х раз его непоявления, |
т. |
е. |
||
А А... |
А А... |
А |
# |
|
х |
раз |
N—х |
раз |
|
По теореме умножения |
вероятность появления каждой схемы |
|||
составляет pxqN~x, а число |
таких |
схем равно числу сочетаний |
из N элементов по х, т. е. Cti. Отсюда следует, что вероятность
появления события А ровно х раз в серии N |
независимых |
испыта- |
||
ний составляет |
|
|
|
|
Ры (*) = CU Р* qN-* |
= • |
, |
р* qN-*, |
(6.1) |
где р -f q = 1. Заметим, также, |
что |
вероятности (6.1) равны соот- |
ветствующим членам разложения по формуле бинома выражения
(Я + РГ. •
152
С помощью выражения (6.1), носящего название формулы Бер- нулли, и осуществляется вероятностное прогнозирование результатов в простой схеме независимых испытаний.
Все возможные несовместимые между собой исходы N опытов состоят в появлении 0, 1, 2, . N раз события А. Поэтому сумма величин (6.1), представляющих собой отдельные значения вероят-
ностей при х = |
0, |
1, 2, |
, N, |
равна |
единице: |
|
|
|
|
|||||
|
|
|
|
дс = |
0 |
|
*>=0 |
|
|
|
|
|
|
|
Распределение вероятностей PN (х) |
|
Cf/p* qN~x |
|
при х |
0, |
1, 2, |
||||||||
..., |
N, |
|
называемое |
биномиальным |
распределением |
(биномиальным |
||||||||
законом |
распределения) вероятностей, можно |
записать |
в |
виде |
||||||||||
табл. 6.1. |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
Т а б л и ц а |
6.1 |
|
|
t |
|
|
а |
|
|
i |
|
|
|
2 |
|
... |
|
PN(x) |
|
|
|
|
|
C\j p q |
N p q |
N |
|
|
|
. • • |
||
|
|
|
|
|
|
|
|
|
|
N(N-1) |
w _ a |
|
||
|
|
|
|
|
|
|
|
|
|
= " |
2 |
& Я |
|
|
|
|
|
|
|
|
|
|
|
|
Продолжение табл. 6.1 |
||||
|
* |
|
|
... |
|
N |
— |
|
|
N-L |
|
|
A' |
|
rx |
x |
N —x |
... |
|
|
|
|
c S - V - 1 » - |
RN _Л/ „0 „N |
|||||
<*NP ч |
|
|
|
|
|
|
cNP |
Я |
—P |
N(N-l) N_2 ,
-2 " '
При составлении алгоритмов пословного машинного перевода и информационного поиска постоянно возникают задачи, связанные с прогнозированием появления в сегментах заданной длины определенного числа словоформ, морфем или словосочетаний, принадлежащих к некоторым классам. Формула Бернулли позволяет решать задачи этого типа, разумеется, при условии, что сохраняется принятое в п. 1 § 1 допущение о взаимной независимости образующих данный сегмент словоформ.
Рассмотрим в этой связи следующую задачу. Средняя длина простого предложения или синтаксически оформленной части сложного предложения в английских научно-технических текстах лежит между 10 и 11 словоформами. Относительная частота появления существительных в подъязыке английской электроники близка к 1/3 [6, с. 96—97]. Будем считать эту частоту априорной
153
вероятностью появления существительных в указанном подъязыке. Примем также, что типовым синтактически оформленным сегментом в английских научно-технических текстах является простое пред-
ложение, |
а также главное или придаточное предложение длиной |
в 10 словоформ. |
|
Считая |
появление отдельных словоформ в этих сегментах неза- |
висимыми событиями текста, определим вероятность того, что из 10 словоупотреблений, составляющих типовой сегмент, ровно два
будут существительными. |
|
|
|
|
||
Так как по условию р = |
|
1/3, q = |
1 — р = |
2/3, N = 10,х== 2, то, |
||
пользуясь формулой |
(6.1), |
|
находим |
|
||
|
Ры (X) = Р10 (2) = С?о ( х ) 2 ( 1 У = |
|||||
в |
Ш . . |
J ! L |
= |
Ш . |
= о, 1951 = |
19,51 %. |
|
1-2 |
З10 |
|
59049 |
|
|
Сохраняя те же условия и допущения, вычислим о помощью формулы Бернулли вероятности появления существительных в нашем типовом сегменте 0, 1, 2, ..., 10 раз. Результаты приведены в столбце. (2) табл. 6.2.
|
|
|
|
Т а б л и ц а 6.2 |
|
Вероятности |
появления |
существительных |
в английском предложении |
||
X |
PN (*> |
P'NW |
X |
PN <* |
|
(1 . |
(2) |
(3) |
(1) |
(2) |
(3, |
0 |
0,0173 |
0,0226 |
6 |
0,0569 |
0,0541 |
1 |
0,0867 |
0,0785 |
7 |
0,0163 |
0,0130 |
2 |
0,1951 |
0,1894 |
8 |
0,0031 |
0,0020 |
3 |
0,2601 |
0,2611 |
9 |
0,0003 |
0,0002 |
4 |
0,2276 |
0,2419 |
10 |
0,000020 |
0,000005 |
5 |
0,1366 |
0,1433 |
|
|
|
Расчеты показывают, что в 10-словном предложении (сегменте) следует ожидать в среднем от двух до пяти форм имени существительного. Следовательно, на сегменты этого типа и должны быть ориентированы алгоритмы автоматического анализа английского текста. Появление сегментов с одним Существительным или вообще без существительных, с однрй стороны, а также с шестью, семью, восемью именными формами, с другой, маловероятно. И действительно, появление таких сегментов в английских научнотехнических текстах хвтя и возможно tcp. Comparing (10—13) to
(10—4) it is seen that . . |
или Harvey Fletcher, Speech |
and.Hearing |
in Communication, Bell |
Telephone Laboratories]*, но |
встречается |
* Оба примера взяты из книги: Н. F l e t c h e r . Speech and Hearing in Communication. Toronto — New York—London, 1958, с. I и 172.
155
в |
виде исключения. |
Что же касается |
предложений, состоящих |
из |
девяти или десяти |
существительных, |
то такие отрывки просто |
невозможны. В рассмотренном теоретическом распределении вероятность появления таких сегментов практически равна нулю.
Часто, чтобы получить достаточно достоверные результаты,
приходится производить большое число независимых |
испытаний. |
||
При этом величины N ИХ могут быть довольно велики, |
что делает |
||
вычисление по только что описанной схеме |
слишком трудоемким*. |
||
В таких случаях вычисление |
вероятностей |
Ры(х) осуществляется |
|
по приближенным формулам, |
которые мы рассмотрим в § 3. |
Иногда для решения лингвистической или информационной задачи необязательно определять все вероятности появления данного события О, I, 2, . ., N раз. Достаточно указать несколько наиболее вероятных или даже одно наивероятнейшее число появлений этого события.
Начнем о того, что опишем схему определения наивероятнейшего события Для этого рассмотрим поведение распределения (6.1). Из табл. 6.1 и 6.2 видно, что с увеличением х величина PN (Х) возрастает и при некотором х0 (оно называется модальным значением) достигает своего наибольшего значения PN(X0). Затем цо мере увеличения х вероятность PN (х) последовательно убывает. Чтобы определить модальное значение х0, рассмотрим поведение функции PN (Х) путем последовательного сравнения двух соседних членов распределения
Пусть PN (Х0) — наибольшее значение вероятности в распределении (6.1). Тогда должны выполняться следующие два неравенства:
PN |
(Х0 - |
1) < |
PN (*о). PN |
(Х0) |
> |
PN |
(Х0 + |
1). |
|
(6.2) |
|
Перепишем первое из неравенств (6.2) в виде |
|
|
|
|
|||||||
PN(xо) |
_ |
Cjf |
Px«qN-x' |
|
_ |
(N-x0+\)P |
> l |
|
( б з ) - |
||
PN(* o—l) |
|
C f t - 1 p*.-lqN-*. |
+ l |
|
|
x0g |
^ |
|
|
||
Заменив в последнем неравенстве q на 1 — р, |
получаем |
|
|
||||||||
|
|
|
х0 < Np + р. |
|
|
|
|
|
(6.4) |
||
Аналогичным |
образом, |
записав |
второе из |
неравенств |
(6.2) в |
виде |
|||||
P n ( * o + D |
_ |
+ |
|
1 |
= |
|
(N~x0)p |
< |
1, |
(6.5) |
|
PN (*о) |
|
C*N'px°qN~x> |
|
|
|
l*o + l )q |
|
|
|
||
получим |
|
|
x 0 > J V p |
+ |
p — 1 . |
|
|
|
|
(6.6) |
|
|
|
|
|
|
|
|
|||||
* Например, если бы |
мы захотели |
определить вероятность |
появления |
||||||||
четырех существительных напряжение |
в серии |
из 2000 испытаний, |
зная, что |
в текстах по радиоэлектронике указанная словоформа согласно данным рабо-
ты [6] имеет вероятность р =• 0,0023, то эту вероятность мы должны были бы получить из равенства Р2ооо (4) = С$0оо (0,0023)4(0,9977)шв, решение которого требует исключительно громоздких вычислений даже при условии использования специальных таблиц факториалов
155
Объединяя неравенства (6.4) и (6.6), приходим к двойному неравенству
Np + р — 1 < х0 < |
Np + р. |
(6.7) |
Левая часть неравенства (6.7) всегда на единицу меньше его правой |
||
части. Поэтому в тех случаях, когда Np |
+ р — 1 и Np + р являют- |
|
ся дробными величинами, в качестве х0 |
берется находящееся |
между |
ними целое число. Если же Np -+- р — 1 и Np -+- р — целые числа,
то х0 |
имеет |
два целочисленных значения: х0 |
— Np |
р — 1 и |
||
х'о = |
Np |
+ р, |
которые выступают в |
качестве |
наивероятнейших |
|
значений |
появления данного события. |
|
|
|
Теперь, пользуясь исходными данными об употребительности существительных, приведенными выше, определим наивероятнейшее число появлений существительных в английском 10-словном предложении.
Так как N = \0, р = 1/3, то, согласно (6.7), имеем
Т - Т < ^ < Т + Т ' и л и 2 Т < * » < 3 Т '
Следовательно, наивероятнейшее число появлений существительных в 10-словном английском сегменте равно трем. Такой же результат дает распределение вероятностей, приведенное в табл. 6.2.
Зная модальное значение х0, можно определить интересующее нас число вероятностей биномиального распределения. Вычисление их начинается обычно с определения максимальной вероятности
PN (ХО):
* |
|
|
PN (х0) = Сft р"> q»~*> - |
Рх° |
(6.8) |
Вычисления остальных вероятностей производятся по следующим рекуррентным формулам, построенным на использовании выражений (6.3) и (6.5):
При X < Хо
|
|
Хо |
|
PN |
(*0), |
|
|
N-(xо-1) |
|
||
|
|
|
Р |
|
|
РЫ(Хо- |
2) = |
Хо |
1 |
н PN |
(Хо - 1 ) , |
* |
* |
||||
|
|
N—(xo—2) |
Р |
|
(6.9а)
1 |
*ц>щ+2 |
|
|
N —«rain —• 1 |
|
|
+ 1 |
Ч |
|
N — *mln |
р |
156
при х > х 0
PN(XО |
+ 1) |
= |
|
|
PN |
(Х0), |
|
||
Pn(X0 |
+ 2) |
= |
N-(x0+1) |
p |
|
|
|
||
|
|
|
|
|
|
|
|
|
(6.96) |
PiV (^max— 1) = |
# |
— |
( * m a x — |
2 ) |
_ £ |
PN |
(XMAX—2), |
||
|
|
|
|
'max — 1 |
|
Q |
|
|
|
PiV (xmax) — N—{x |
max—!) |
|
P |
PN (Xmax— 1), |
|||||
|
|
|
|
|
* m a x |
|
9 |
|
|
где *m!n > |
о и |
л ш а х |
^ |
• |
|
|
|
|
Только что описанный прием расчета биномиальных вероятностей
можно проиллюстрировать следующим примером. В русском языке вероятность появления гласной в начале синтагмы или предложения составляет 23,21 %. Пусть осуществлена повторная выборка в сто отдельных синтагм и предложений. Необходимо определить пять наивероятнейших частот появления начальной гласной, а также вычислить сумму их вероятностей.
Здесь Л^ = 100, р = 0,2321, <7 = 0,7679; воспользовавшись неравенством (6.7), получаем
23,21 + 0,2321 — 1 < х0 < 23,21 + 0,2321,
или
22,4421 < х0 < 23,4421
откуда х0 = 23. Далее по формуле (6.8) вычисляем вероятность модального значения* х0:
~ |
Яюо(23) = |
100! |
• 0,232123,0,76797г т 0,0943. |
|
|
23! 771 |
|
Затем по рекуррентным формулам (6.9) определяем значения х0 — 1, х0 — 2, х„ -(- 1, х0 -{- 2:
* Решение этого примера осуществляется путем логарифмирования с использованием таблиц логарифмов факториала [9. с. 456].
157
Сумма полученных пяти вероятностей равна 0,45. Это значит, что при многократном извлечении из русских текстов серий синтагм и предложений, каждая из которых содержит 100 единиц, примерно Половина из этих серий содержала бы от 21 до 25 предложений, начинающихся с гласного звука.
Только что описанный прием расчета вероятностей биномиального распределения имеет значительные преимущества перед последовательным вычислением, начиная с х = 0 (xmin). В последнем случае мы должны вычислять все значения PN (Х), даже те, которые близки к нулю. При использовании только что описанной методики мы, получив максимальное значение PN (х), продолжаем вычисление
вероятностей только |
до тех |
значений xt и хг (xt < |
х0, хг > х0), |
которые предусмотрены в условии задачи. |
|
||
4. Полиномиальная |
схема. |
Если лингвистическое |
испытание |
имеет несколько исходов, то их вероятностное прогнозирование осуществляется с помощью полиномиальной схемы. Ее математическая модель строится следующим образом.
Предположим, что результатом некоторого лингвистического
опыта |
может |
быть |
один из k |
различных |
попарно несовместимых |
||||||||||||
исходов Alt |
А2, ..., |
Ah. |
Вероятность каждого из этих |
исходов обо- |
|||||||||||||
значим соответственно через Р |
|
= |
ръ Р (А2) |
= |
р2, |
..., Р (Ah) |
=* |
||||||||||
= ph- |
|
Так |
как |
|
событие |
Л1 |
+ |
Л а + . . . + |
Л й |
|
достоверно, |
||||||
то р1 + р2 + |
|
... + |
ph = |
1. Осуществим N независимых |
испытаний |
||||||||||||
и определим |
вероятности того, |
что событие А1 |
появится |
х, |
раз, |
со- |
|||||||||||
бытие А2 — х2 |
раз, |
..., |
событие Ah — xh |
раз, |
где |
хх |
+ |
х2 |
+ ... |
+ |
|||||||
+ xh = |
N. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Указанный результат получается различными путями, каждый |
|||||||||||||||||
из которых соответствует различным перестановкам х1 |
раз |
исхода |
|||||||||||||||
Аъ х2 |
раз исхода Л2, |
..., xh раз исхода Ah. |
Согласно теореме умно- |
||||||||||||||
жения |
вероятность |
|
появления каждой такой комбинации равна |
||||||||||||||
р*'р*'... |
pxkh. |
Общее |
число этих |
комбинаций равно произведению |
|||||||||||||
С* С* |
|
|
|
которое приводится |
к |
выражению |
|
|
|
|
|
N1
Ху\ Х2\ . . .Xk\
Отсюда получаем, что при N независимых испытаниях вероятность получить хг раз результат Аъ х2 раз — результат Л2 , ..., xk раз — результат Ak равна
Xil |
.. .A-fe! |
(6.10) |
|
где0<хг<М, |
а 2 x, = N. |
|
1 |
В том случае, когда k — 2, имеем
РN С?1» •*») = |
ЛИ |
^ |
— |
||
|
Xil х21 |
PiPi' |
158
Учитывая, что |
+ |
х2 = N, |
а |
+ ра |
— 1> и обозначая хх через |
||
х, |
— через N — х, Pi — через р, а ра |
— через <7, приходим к вы- |
|||||
ражению |
|
|
|
|
|
|
|
|
P n W |
= |
*! ( t f - |
х)! |
рХ q N ' ~ X = |
рЛ |
т. е. к формуле Бернулли для простой схемы независимых испытаний. Формула Бернулли является, таким образом, частным случаем соотношения (6.10).
Используя только что описанную модель, определим вероятность того, что в 10-словном сегменте английского научно-технического текста появится ровно три существительных, две глагольных формы и пять словоформ, принадлежащих к другим классам (при этом мы снова пренебрегаем контекстными связями между словоформами, образующими рассматриваемый сегмент). Заданная нормой априорная вероятность появления существительных равна 0,33, вероят-
ность глагольных форм |
составляет 0,16, а |
априорная |
вероятность |
||
остальных грамматических классов равна 0,51 [6, с. 104]. |
|||||
По условию задачи |
N = 10, рх — 0,33, |
ра |
= |
0,16, |
р3 = 0,51, |
Ху — 3, х% — 2, Х3 = 5. |
|
|
|
|
|
Применяя формулу (6.10), получаем |
|
|
|
|
|
р (3,2,5)= — — 0 , 3 3 3 -0,162 • 0,515 |
« |
0,0800. |
|||
0 |
3!2!5! |
|
|
|
|
Аналогичным образом можно рассчитать вероятность появления всех возможных количественных комбинаций существительных, глаголов и других классов слов в предложениях различной длины.
Как и простая схема, полиномиальная схема используется в повторных лингвистических выборках при условии, что величины N, хъ хг, ..., Хи не слишком велики. При этих условиях использование рассмотренной схемы дает ценную информацию не только для вероятностного построения алгоритмов синтаксического анализа иностранного текста при машинном переводе. Эти алгоритмы позволяют также определять оптимальную последовательность подачи синтаксического материала при обучении иностранному языку в средней школе и вузе.
5. Пуассоновская схема. В лингвистической практике часто приходится иметь дело с такой речевой совокупностью, в которой составляющие ее тексты принадлежат к разным подъязыкам и стилям. Поскольку эти тексты строятся, исходя из различных норм, каждая лингвистическая единица имеет в каждом тексте свою априорную вероятность. В итоге вероятности появления и непоявления интересующих исследователя единиц меняются от опыта к опыту. Такая ситуация описывается схемой Пуассона. Математическая формализация этой схемы осуществляется в результате следующих рассуждений.
Пусть производится N независимых испытаний, в каждом из которых может появиться или не появиться событие А. Вероятности появления события А в 1, 2, ..., N испытаниях соответственно равны
159