
Пиотровский
.pdfПриведенный пример показывает, что функция распределения любой дискретной случайной величины всегда является разрывной ступенчатой функцией, скачки которой происходят в точках, соответствующих значениям случайной величины X. Скачок в каждой такой точке равен вероятности P t того, что случайная величина примет целочисленное значение i. Сумма всех скачков равна единице.
5. Функция распределения для случайной лингвистической величины непрерывного типа. Прежде чем говорить об особенностях описания непрерывной случайной величины, рассмотрим следующий пример. Пусть произведен статистический эксперимент, ставивший целью измерения чувствительности слуха относительно звукового тона в 1500 Гц [6, с. 122—123]. Испытанию было подвергнуто две тысячи испытуемых. Измерения велись путем постепенного повышения уровня интенсивности сигнала, начиная от «звуков», не воспринимаемых ухом человека, к слышимым звукам. На каждый распознанный сигнал испытуемый отвечал включением светового сигнала. Таким образом определялся тот уровень интенсивности .(в децибелах, сокращенно — дБ), при котором каждый испытуемый начинает слышать звук указанного тона. Само собой разумеется, что разные испытуемые начинают слышать звук на разных уровнях его интенсивности. Такие разные уровни интенсивности, необходимые для того, чтобы тот или иной взрослый человек услышал звук заданного тона, могут рассматриваться как значения случайной величины X. Закон распределения этой случайной величины по интервалам, ширина которых определяется условиями эксперимента, показан в табл. 6.4.
|
|
|
|
|
Т а б л и ц а 6.4 |
||
Х ( д Б ) |
х<—13,5 |
— 1 3 , 5 < Х < — 1 0 , 5 < Х < |
—7,5<Хс |
- 4 , 5 < Х < - 1 , 5 < Л < |
|||
< — 10,5 |
< — 7 , 5 |
< — 4 , 5 |
< — 4 , 5 |
<1,5 |
|||
|
|
||||||
Pi |
0,00 |
0,01 |
0,02 |
0,08 |
0,25 |
0,31 |
|
X (дБ) |
1 , 5 < Х < |
4 , 5 < Х < |
7 , 5 < Х < |
1 0 , 5 < Х < |
Х > 1 3 , 5 |
|
|
|
< 4 , 5 |
< 7 , 5 |
< 1 0 , 5 |
< 1 3 , 5 |
|
||
|
|
|
|||||
Pi |
0,29 |
0,08 |
0,02 |
0,01 |
0,00 |
|
Только что построенный закон распределения существенно отличается от закона распределения случайной величины дискретного типа. Действительно, если последняя принимала конечное или во всяком случае счетное множество значений, то теперь наша случайная величина — уровень интенсивности — может принимать бесконечное множество значений.
170
Один испытуемый может воспринять звук с интенсивностью
в—13,5 дБ, другой услышит звук при условии, что его сила равна
—13,49 дБ, для третьего испытуемого этот уровень будет равен
—13,489 дБ и т. д.
Указать в таблице распределения все бесконечное множество значений случайной величины невозможно. Поэтому и приходится говорить об интервалах, в которые могут попадать ее значеЯЛй!. При этом отмечаются либо границы интервала, либо указывается его середина (начало, конец). Вероятности, приписываемые каждо- му из интервалов, являются вероятностями того, что рассматривав» мая непрерывная величина попадет в данный интервал.
При графическом изображении интервального ряда распределения значений случайной лингвистической величины целесообразно пользоваться гистограммой,
представляющей собой |
последо- |
|
Г(х) |
|
||
вательность |
прямоугольников, |
|
OA |
|
||
основание которых равно шири- |
|
|
||||
не интервала, |
а высота — соот- |
|
|
|
||
ветствующей |
этому интервалу |
|
|
|
||
вероятности (рис. 38). Нетрудно |
|
|
|
|||
заметить, |
что |
прямоугольники |
|
|
|
|
гистограммы образуют |
фигуру, |
|
|
|
||
ограниченную |
сверху |
ломаной |
|
|
|
|
линией, |
а снизу — прямой KL. |
-9 Я -6 |
-3 О |
3 |
||
Площадь этой фигуры, представ- |
||||||
ляющая сумму площадей пря- |
|
Рис. |
38 |
|||
моугольников, |
равна |
единице. |
|
|
|
Интегральный ряд распределения непрерывной случайной величины может быть представлен также в виде ступенчатого кумулятивного графика, аналогичного тому графику, который мы строили для кумулятивной функции F (х) дискретной случайной величины (см. рис. 37). Кумулятивный график закона распределения уровней интенсивности звукового тона показан на рис. 39.
С теоретической точки зрения интервальное представление непрерывной случайной величины не дает достаточно адекватного ее описания. Сам выбор ширины границ интервала всегда произволен, поведение случайной величины внутри этого интервала остается неопределенным. Наконец, непрерывность рассматриваемой величины не находит отражения в дискретном характере интервального ряда и соответствующих ему графиков.
Чтобы избежать этих затруднений, необходимо использовать особый математический аппарат. Прежде чем вводить этот аппарат, рассмотрим в геометрической интерпретации поведение непрерывной случайной величины. Как уже говорилось, ширина интервалов в распределении непрерывной случайной величины выбирается произвольно. Теоретически ничто не мешает нам последовательно уменьшать эти интервалы, как это мы делали в гл. % § 2. При этом отрезки ломаной линии, ограничивающей сверху фигуру, изображенную на рис. 38, становятся все меньше, пока ломаная линия
171
не превратится в плавную кривую (рис. 40), которую называют
дифференциальной кривой распределения. При этом сумма площадей прямоугольников, равная единице, практически не будет уже от-
Рис. 39
личаться от площади фигуры, ограниченной снизу отрезком K.L, а сверху — кривой, полученной из ломаной линии.
Аналогичная картина наблюдается и в кумулятивном графике. По мере уменьшения ширины интервала будет расти число интер-
DU-
Рис. 40
валов и скачков между ними с одновременным уменьшением величины этих скачков до тех пор, пока ступенчатая линия не превратится в плавную кривую линию, которую принято называть интееральной кривой распределения (рис. 41).
172
Теперь займемся аналитическим представлением поведения непрерывной случайной величины.
Ранее (см. табл. 6.4) мы говорили о том, что вероятности, приписываемые интервалам, указывают на ту вероятность, с которой случайная величина X попадает в заданный интервал. Рассматри-
вая каждый интервал как полуоткрытый |
промежуток [хи х2), мы |
|||||||||
можем считать, что попада- |
|
|
||||||||
ние в него случайной величи- |
|
|
||||||||
ны X равносильно выполне- |
|
|
||||||||
нию неравенства |
хг |
< Х < х а . |
|
|
||||||
Согласно свойству 4 интег- |
|
|
||||||||
ральной |
функции |
распреде- |
|
|
||||||
ления |
вероятность |
выполне- |
|
|
||||||
ния этого |
неравенства |
равна |
|
|
||||||
|
Р(х1^Х< |
|
ха) |
= |
|
|
|
|||
|
= F (х2) - F (Xl). |
|
|
|
||||||
Иными |
словами, |
|
вероят- |
|
|
|||||
ность |
|
попадания |
случайной |
|
|
|||||
величины |
|
в заданный |
интер- |
|
|
|||||
вал равна |
приращению |
функ- |
|
|
||||||
ции на этом |
интервале. |
|
|
|
||||||
Если неограниченно умень- |
|
|
||||||||
шать |
интервал |
lxlt |
х2), |
как |
-п ^ -S |
- |
||||
это мы |
уже |
делали |
при |
по- |
||||||
строении |
кривой |
распределе- |
|
Рис. 41 |
||||||
ния, |
то |
вместо |
вероятности |
|
|
того, что случайная величина попадает на этот участок, мы полу-
чаем |
в пределе, |
что величина X примет отдельно взятое |
значе- |
ние |
хг: |
|
|
|
Р(Х = * 1 ) = |
lim Р ( х 1 ^ Х < х 2 ) = lim[F(*,) — /4*0J. |
(6.19) |
Поскольку функция F (х) не имеет разрывов и непрерывна во всех точках, в том числе и в точке хъ предел (6.19) равен нулю*.
Из всего сказанного следует, что вероятность каждого отдельного значения непрерывной случайной величины равна нулю, т. е.
Р (X = *) = 0.
* При решении практических задач попадание непрерывной случайной величины X в отдельную точку реального смысла не имеет. Ведь абсолютно точное значение физической величины — в нашем случае длины, высоты, интенсивности звука человеческой речи — является лишь математической абстракцией. На практике в результате измерений мы получаем интервалы, равные той наименьшей единице, которую может показать измерительный прибор. Поэтому наблюдаемые в опыте значения случайной величины, строго говоря, всегда дискретны. Но зная, что по своей внутренней природе расСМариваемая случайная величина непрерывна, мы применяем для ее описания непрерывное распределение.
173
Только что сформулированное свойство функции распределения может показаться лингвисту парадоксальным. С одной стороны, приводя классическое определение вероятности, мы говорили, что события, имеющие нулевую вероятность, — это невозможные события; с другой стороны, из всего только что сказанного вытекает, что событие, состоящее в том, что случайная величина X примет значение х, хотя и возможно, но имеет вероятность, равную нулю.
Между тем появление событий, обладающих нулевой вероятностью, можно представить себе при двух условиях: во-первых, эти события должны рассматриваться вне рамок классической схемы конечного числа случаев, во-вторых, они должны изучаться по статистической схеме или в рамках аксиоматического построения теории вероятностей (см. гл. 5, § 3).
6. Семантическая интерпретация непрерывной случайной величины. Некоторые области субстанции содержания представляют собой непрерывный континуум 152, с. 308—318]. Это значит, что между некоторыми родственными «универсальными» значениями нет четких границ, и между ними всегда можно найти бесконечное число переходных смысловых оттенков. Особенно наглядно эта ситуация прослеживается в непрерывности цветового спектра. Хотя разные языки по-своему формируют алфавиты (парадигмы) слов, обозначающие отдельные хроматические интервалы [44], в каждом языке можно найти средства для обозначения все более тонких оттенков цветов, т. е. последовательно сужать эти семантические интервалы*. Так, «например, внутри зеленого можно выделить сине- вато-зеленый оттенок, внутри синевато-зеленого можно найти сине- вато-зеленый с серым оттенком цвет, затем можно выделить синева- то-зеленый с водянисто-серым оттенком цвет и т. д.
Теперь поставим опыт, состоящий в том, что из книги, в которой дается описание разных оттенков цвета, наугад выбираются предложения и определяется, о каком цвете или оттенке в них идет речь. Если говорить о таких занимающих широкие хроматические интервалы цветах, как зеленый, то вероятность того, что они окажутся упомянутыми в наугад взятом предложении, является достаточно большой. Однако по мере раздробления нашего цветового спектра на все более частные оттенки вероятность появления обозначений каждого из них будет уменьшаться. В конце концов мы придем к тому, что хотя в каждом наугад взятом предложении и будет говориться о каком-то цветовом оттенке, но вероятность появления конкретного оттенка будет равна нулю.
Таким образом, если считать непрерывной случайной величиной X некоторое цветовое значение, то окажется, что при осуществлении нашего опыта непрерывная случайная величина обязательно примет одно из своих возможных значений, хотя до опыта вероятность появления каждого из них была равна нулю. Иными словами,
* В одном из специальных английских словарей приводится около четырех тысяч названий оттенков цвета [6, с. 130], число этих названий можно увеличивать и дальше.
174
осуществится одно из событий, вероятность появления которого равна нулю. Поскольку частота события не равна, а лишь приближается в большом количестве опытов к вероятности, то утверждение согласно которому вероятность события X <=* х равна нулю, означает лишь, что при многократном повторении опыта это событие будет осуществляться сколь угодно редко.
7. Плотность распределения вероятностей. Применительно к дискретным случайным величинам функция распределения является такой функцией, с помощью которой суммируются значения
Pi, выступающие |
в качестве элементов вероятности. Выясним те- |
|||
перь, что является |
элементом вероятности непрерывных случайных |
|||
величин. |
|
|
|
|
Для этого рассмотрим интервал [х, х + |
Лх] и определим вероят- |
|||
ность того, что случайная величина X попадет в этот интервал. |
||||
Согласно свойству 4 функции |
распределения имеем |
|||
Р (х < |
X < х + |
Дх) = F (х + |
Дх) — F (х). |
|
Разделив вероятность Р |
(х ^ |
X < х + |
Дх) на длину интервала |
Дх, получаем величину вероятности, приходящуюся на единицу длины этого интервала:
— Р ( х < Х < х + Дх).
Дх
Эту |
величину~ будем называть средней |
плотностью вероятности |
|||
на данном |
интервале. |
|
|
|
|
Если последовательно уменьшать интервал Дх, то в пределе |
|||||
получим функцию |
|
|
|
||
|
|
f{x) = l\m |
Р(*<Х<* |
+ А*) t |
(6 20) |
|
|
дх-*0 |
А* |
|
|
называемую платностью вероятности, |
или плотностью |
распреде- |
|||
ления |
вероятностей. |
|
|
|
|
Если в правую часть равенства (6.20) вместо числителя подста- |
|||||
вить |
приращение функции F |
(х + Дх) — F (х), то получим выра- |
|||
жение |
|
|
|
|
|
|
|
йх-v 0 |
Д* |
|
|
из которого следует, что плотность вероятности является |
п р о и з - |
||||
в о д н о й |
от функции распределения (см. гл. 3, § 1). |
|
Отсюда следует, что функцию распределения можно определить и через плотность вероятности. С одной стороны, по формуле (4.25) имеем
ь
\f(x)dx = F(b)-F(a)._
175
С другой стороны, в силу свойства 4 функции распределения находим
Р (а < X < b) = F (6)—F (а) = J f (х) dx.
а
Полагая а = —оо, b = х, преходим к функции распределения:
|
X |
|
F(x) = P{—°°<X<x)= |
J f(x)dx. |
(6.21) |
|
— ОО |
|
Таким образом, дифференциальная функция f (х) и интегральная функция F (х) взаимно определяют друг друга.
Плотность распределения, так же как и функция распределения, является одной из форм закона распределения. Однако, если функция распределения является универсальной характеристикой закона распределения как дискретных, так и непрерывных случайных величин, то плотность распределения характеризует только непрерывные случайные величины.
Плотность распределения вероятностей обладает двумя основ-
ными свойствами: |
|
|
|
|
1. |
Плотность распределения |
неотрицательна для всех |
х, |
т. е. |
f (х) > |
0. |
распределения f (х), взятый'по |
всему |
|
2. |
Интеграл от плотности |
|||
интервалу возможных значений |
случайной величины, равен |
единице, |
т. е.
оо
J f(x)dx= 1.
— оо
Геометрическая интерпретация свойств функций / (х) и F (х) сводится к следующему:
а) график плотности вероятности является непрерывной кривой,
и в |
силу неотрицательности плотности эта кривая |
лежит выше |
оси абсцисс; |
|
|
б) |
полная площадь, ограниченная кривой, равна |
единице; |
в) |
сама кривая асимптотически приближается к |
оси абсцисс |
при условии, что случайная величина может принимать все значения числовой оси или все значения полупрямой.
В тех случаях, когда расстояние между значениями дискретной случайной величины (интервал, единица измерения) достаточно мало по сравнению с самой наблюдаемой величиной, бывает удобно рассматривать данную величину в качестве непрерывной случайной величины. Такой подход может заметно упростить решение некоторых лингвистических задач.
Примером может служить использование непрерывной функции Вейбулла для вычисления дискретных накопленных вероятностей в частотном списке слов, словоформ и словосочетаний [6, с. 136, 137].
176
Исходное выражение функции Вейбулла имеет вид |
|
= 1-е-«к, |
(6.22) |
где р* — накопленная вероятность i-й словоформы, с и k — коэффициенты распределения. Значения этих коэффициентов для различных частотных списков показаны в табл. 6.5.
Т а б л и ц а 6.6
Значения коэффициентов с и k относительно некоторых языков и стилей
Язык или |
подъязык |
|
Единицы |
подсчета |
|
|
|||
Русские деловые |
тек- |
Словоформы |
|
0,05357 |
0,44640 |
||||
сты |
деловые |
тек- |
Основы |
|
|
0,07057 |
0,48440 |
||
Русские |
|
|
|||||||
сты |
|
|
|
|
|
|
|
0,15532 |
0,33040 |
Английские |
корабель- |
Словоформы |
|
||||||
ные тексты |
|
|
|
|
|
|
|
0,01815 |
0,41556 |
Английские |
тексты |
по |
Именные |
трехсловные |
|||||
сельхозтехнике |
|
по |
сочетания |
|
сочета • |
0,01244 |
0,41062 |
||
Английские |
тексты |
Трехсловные |
|||||||
электронике |
тексты по |
ния |
трехсловные |
0,01076 |
0,47471 |
||||
Английские |
Именные |
||||||||
электронике |
|
|
|
сочетания |
|
|
0,15534 |
0,28850 |
|
Немецкие |
публицисти- |
Словоформы |
|
||||||
ческие тексты |
|
|
Трехсловные |
сочета- |
0,00585 |
0,45486 |
|||
Немецкие |
публицисти- |
||||||||
ческие тексты |
|
|
ния |
|
|
0,02813 |
0,39088 |
||
Немецкие |
публицисти- |
Именные |
трехсловные |
||||||
ческие тексты |
|
|
сочетания |
|
|
0,01355 |
0,38860 |
||
Немецкие |
|
тексты |
|
по |
Трехсловные |
сочета- |
|||
электронике |
|
|
|
|
ния |
|
|
0,17331 |
0,29540 |
Румынский |
и молдав- |
Слова |
|
|
|||||
ский |
|
|
|
|
|
|
|
0,00594 |
0,55741 |
Румынские |
публици- |
Трехсловные |
сочета- |
||||||
стические тексты |
|
|
ния |
|
|
|
|
Используя выражение (6.22), можно получить также значения вероятностей лингвистических единиц, находящихся на i-м месте в частотном списке. К этим значениям можно прийти либо через плотность распределения
р\' = ( 2 — e _ c / f t ) ' —ckik~l e~cik == pi, |
(6.23) |
либо с помощью равенства
Pi = pUi-pi |
= г - с а - П * |
(6.24) |
Так, например, применяя соотношение (6.23) и опираясь на данные табл. 6.5, нетрудно показать, что вероятность словоформ с i = 10 в частотном списке словоформ из русских деловых текстов составляет
р10 = 0,05357-0,4464.10(0'4464_1)."2,7183 - 0 , 0 5 3 5 7 ' 1 0 0 , 1 4 6 4 « 0 , 0 0 6 .
177
К аналогичному результату можно прийти, используя соотношение (6.24):
р10 = 2.7183-0 '0 5 3 5 7 • 9 в , " в 4 _ 2 , 7 1 8 3 ' " М 8 8 8 7 " 10 °'44в4 =
=0,8670 — 0,8602 = 0,0068 да 0,006.
8.Характеристики распределения случайной величины, функция распределения, ряд распределения и плотность распределения наиболее полно и исчерпывающе характеризует дискретную или непрерывную случайную величину. Однако расчеты, связанные с опре-
делением этих характеристик, весьма сложны и громоздки.
Обычно масса вероятности случайной величины X сосредоточена в большей своей части внутри относительно узкого интервала значений случайной величины (см. рис. 39 и 40). Определив положение и характер этого интервала, мы получаем достаточно точное представление о распределении в целом. Эту задачу можно решить, используя усредненные числовые характеристики распределения — м о м е н т ы , которые в сжатой, компактной форме указывают на наиболее существенные свойства распределения. Начнем рассмотрение этих характеристик с математического ожидания.
Математическое ожидание указывает на центр группировки значений случайной величины. Для д и с к р е т н о й случайной величины математическим ожиданием называется сумма произведений всех возможных значений случайной величины на их вероятности'.
|
|
|
|
|
|
N |
|
|
|
|
M(X)=*x0p0 + x1p1 |
+ x2p2 |
+ ... + xNpN= |
2 XiPt- |
|
(6.25) |
|||
|
|
|
|
|
|
о |
|
|
|
Понятие |
математического |
ожидания распространяется |
и |
на |
не- |
||||
п р е р ы в н ы е |
величины: |
математическим |
ожиданием |
непре- |
|||||
рывной случайной |
величины |
называется интеграл |
от произведения ее |
||||||
значений |
х на плотность |
распределения вероятностей |
f (х), |
т. е. |
|||||
|
|
|
|
оо |
|
|
|
|
|
|
|
м |
(X) |
= j |
xf(x)dx. |
|
|
|
(6.26) |
|
|
|
|
— оо |
|
|
|
|
Математическое ожидание обладает следующими свойствами, имеющими принципиальное значение при решении лингвистических
иинженерно-лингвистических задач:
1.Математическое ожидание постоянной (неслучайной) величины С разно ей самой, т. е.
|
М (С) = |
С. |
(6.27) |
2. Математическое |
ожидание |
произведения постоянной вели- |
|
чины С на случайную |
величину X равно произведению |
постоянной |
|
на математическое ожидание этой Случайной величины, |
т. е. |
||
|
М (СХ) = |
CM (X). |
(6.28) |
178
Из |
свойств 1 и 2 вытекают два |
с л е д с т в и я : |
а) |
математическое ожидание |
суммы постоянной величины и |
случайной величины равно сумме постоянной С и математического
ожидания случайной величины М(Х), т. е. |
|
|
М (С + |
X) = С + М (X); |
(6.29) |
б) математическое |
ожидание линейной функции |
Y » b + аХ |
равно сумме постоянной b и произведения постоянной а на математи-
ческое ожидание |
случайной |
|
величины |
X, |
т. е. |
|
|||||
|
|
М |
(Y) |
=5 М |
(Ь + |
аХ)=*Ь |
+ |
аМ |
(X). |
(6.30) |
|
|
3. Математическое |
ожидание суммы случайных величин Хъ Ха, |
|||||||||
Хз, |
..., |
Хп |
равно сумме их математических |
ожиданий, |
т. е. |
||||||
М |
(Хг |
+ Xa + ... + Xn) = |
|
М (XJ + M |
(Ха) + ...+М |
(Хп). (6.31) |
|||||
|
Из этого свойства вытекает такое |
с л е д с т в и е : |
математи- |
||||||||
ческое ожидание разности |
случайных |
величин |
равно разности их ма- |
||||||||
тематических ожиданий, |
т. е. |
|
|
|
|
||||||
|
|
|
М (X — Г) |
= М (Х) — М |
(Y). |
(6.32) |
4. Математическое ожидание попарно независимых случайных величин Xlt Ха, ..., Хп равно произведению их математических ожиданий, т. е.
М (ХхХг ... Хп) = М (Хх) М (Х2) ... М (Хп). |
(6.33) |
Разброс возможных значений случайной величины вокруг ее центра — математического ожидания — характеризуется теоретической дисперсией (или просто дисперсией), которую можно определить как математическое ожидание квадрата отклонения случайной величины от ее математического ожидания:
D (X) =М [Х — М (X)]2. |
(6.34) |
Теоретическая дисперсия для дискретной случайной величины вычисляется по формуле
D{x)^ai |
= IiPi[xi-M(X)]\ |
(6.35) |
|
i |
|
Для непрерывной случайной величины дисперсия |
равна |
|
|
-J- оо |
|
D (X) = |
о2 = J [х—M(X)?f{x)dx. |
(6.36) |
|
— 00 |
|
'Теоретическая дисперсия имеет размерность квадрата случайной величины. Между тем из соображений наглядности в оценке рассеивания удобнее пользоваться величиной, размерность которой совпадает с размерностью случайной величины X. Это достигается
179