
Пиотровский
.pdf1)радиоэлектроника —200 тыс. словоупотреблений (ок. 500 е.),
2)автомобилестроение—100 тыс. словоупотреблений (ок. 250 с.),
3)судовые механизмы — 50 тыс. словоупотреблений (ок. 125 с.),
4)строительные материалы — 50 тыс. словоупотреблений (ок. 125 е.),
Словоформа are — множественное число настоящего времени
глагола to be |
'быть' |
употреблена в 1-й выборке |
1610, во |
2-й — |
1273, в 3-й — 469 и в |
4-й — 346 раз. Аналогичным образом, |
слово- |
||
форма machine |
'машина, механизм' встретилась в |
1-й выборке 98, |
ЕО 2-й — 57, в 3-й — 9 и в 4-й — 19 раз. Эти данные взяты из работы [6, с. 80].
Необходимо определить вероятность того, что извлеченное наугад из нашего текста словоупотребление будет: а) словоформой are; б) словоформой machine.
Для этого будем считать появление словоформы are событием
А, |
а появление machine — событием В. Рассмотрим также следую- |
||||||
щие |
четыре гипотезы: Ях |
— принадлежность |
словоформы к текс- |
||||
там |
|
по |
радиоэлектронике, |
Я2 — к |
текстам |
по |
автомобилестрое- |
нию, |
Я 3 |
— к текстам по |
судовым |
механизмам, |
Я4 — к текстам |
||
по |
строительным материалам. |
|
|
|
Считая доли указанных текстов в общей выборке вероятностями наших гипотез, находим:
Р (Ях) = 200000/400000 = 0,5; Р (Яг) = 100000/400000 = 0,25; Р (Я3) = Р (Я4) = 50000/400000 = 0,125.
Условные вероятности события А (появление глагола are) при этих гипотезах соответственно равны:
Р (A/Hj) = 1610/200000 = 0,008; Р (А/Нг) = 1273/100000 = 0,012; Р (А/На) = 469/50000 = 0,009; Р (Л/Я4) = 346/50000 = 0,007.
Применяя формулу полной вероятности, определяем, что вероятность извлечь наугад из данного текста словоформу are равна
Р (А) = Р {Нх) Р (А!НХ) + Р (Я8) Р (АШг) +
+ Р (Я3) Р (А/Н3) + Р (Я4) Р (Л/Я4) = = 0,5 • 0,008 + 0,25 • 0,012 + 0,125 • 0,009 + 0,125 • 0,007 ==
= 0,009 = 0,9°/о.
Аналогичным образом находим условные вероятности события В: Р (B/HJ = 98/200000 = 0,0005; Р (В/Н г ) = 57/100000 = 0,0006; Р (В/Нэ) = 9/50000 = 0,0002; Р (В/Я4) = 19/50000 = 0,0004.
По формуле полной вероятности получаем, что вероятность извлечь из данного текста словоформу machine составляет
Р (В) = 0,5 • 0,0005 + 0,25 • 0,0006 + 0,125 • 0,0002 + + 0,125 • 0,0004 =• 0,000475 « 0,048°/о.
130
6. Априорные и апостериорные вероятности. Измерение веро-
ятностей лингвистических гипотез. До сих пор мы имели дело с так называемыми априорными вероятностями лингвистических событий. Эти априорные вероятности устанавливались интуитивно-эмпири- чески или теоретически до осуществления опыта, исходя из наших знаний об условиях а этого опыта. Наши сведения о всех условиях опыта обычно неполны, поэтому априорные вероятности являются вероятностями некоторых лингвистических гипотез Нъ Нъ ..., Я„ об исходе эксперимента.
Получаемый при осуществлении этого эксперимента результат заставляет нас обычно произвести переоценку наших гипотез и придать им новые — апостериорные вероятности. Определение апостериорных вероятностей осуществляется, исходя из следующих соображений.
Пусть априорные вероятности гипотез до опыта |
соответствен- |
||
но равны Р |
(ЯД Р (Я2), ..., Р (Нп), |
а в результате опыта отмечено |
|
появление |
события А. Необходимо |
определить, как |
нужно изме- |
нить вероятности наших лингвистических гипотез в связи с осуществлением события А.
Согласно теореме умножения вероятностей для зависимых событий, вероятность совместного наступления события А и гипоте-
зы/У; (г = |
1,2, ..., |
п) |
составляет |
|
|
|
|
|
P(AHt) |
= |
Р(А) P{HJA) |
= P(Ht)P{A/Hi). |
(5.23) |
||
Отсюда |
следует, |
что |
|
|
|
|
|
|
|
P(H,/A) |
= P{Ht)pP{*IHt) |
• |
(5.24) |
||
Подставляя для Р (А) его выражение из формулы полной веро- |
|||||||
ятности (5.22), имеем |
|
|
|
|
|
||
|
P { H t i A ) = |
р т Р ( А т _ ш |
( 5 2 5 ) |
||||
|
|
|
|
2 |
P(Hj)P(AIH}) |
|
|
|
|
|
|
/ =1 |
|
|
|
Выражение (5.25) носит название формулы |
Бейеса, |
или ф о р - |
|||||
м у л ы в е р о я т н о с т е й |
г и п о т е з . |
|
|
||||
Чтобы показать, |
как с помощью формулы |
Бейеса |
измеряются |
вероятности лингвистических гипотез, обратимся снова к извле-
чению из |
английского научно-технического текста словоформ are |
и machine |
(см. п. 5). |
Предположим, что первая наугад взятая из английского науч- но-технического текста словоформа оказалась глаголом are (событие А). Необходимо найти вероятность того, что эта словоформа извлечена: а) из текста по радиоэлектронике (Я^; б) из текста по автомобилестроению (Я2); в) из текста по судовым механизмам (Я3); г) из текста по строительным материалам (Я4).
б* |
131 |
Вероятности |
того, что |
извлеченная словоформа |
принадлежит |
||||||||
к той или иной тематической выборке, являются |
апостериорными |
||||||||||
вероятностями |
гипотез — точнее, |
условными |
вероятностями |
этих |
|||||||
гипотез при условии, что произошло событие |
А. |
Используя |
соот- |
||||||||
ношение (5.25), |
получим |
|
|
|
|
|
|
|
|
||
|
|
|
|
|
Я(Я1 /Л) = |
|
|
|
|
||
|
|
|
|
|
Р ( Я , ) Я ( Л / Я ! ) |
|
|
|
^ |
||
Р (tfi) Р (Л/Я!) + |
Я ( Н г ) Р (А1Нг) + |
Р ( / / , ) Р U / / / 3 ) + |
Р (Н4) Р (Л/Я4) |
** |
|||||||
= |
|
|
|
|
°-5 -0 '0 0 8 |
|
|
0,444. |
|||
0,5-0,008 + |
0 , 2 5 - 0 , 0 1 2 + |
0,125-0,009-1-0,125-0,007 |
|
|
|||||||
Аналогичным |
образом |
|
|
|
|
|
|
|
|||
Р (HJA) |
= |
0,333, |
Р |
(HJA) |
= 0,128, Р |
(HJA) |
= 0,095. |
|
|||
Нетрудно |
заметить, |
что |
апостериорные |
вероятности гипотез |
о принадлежности словоформы are к определенным подъязыкам, обусловленные появлением этой словоформы, заметно отличаются от их априорных вероятностей, полученных в п. 5.
Используя приведенные выше данные, определим апостериор-
ные вероятности гипотез Ни #2, |
На, # 4 |
при условии, что из текс- |
||
та дважды извлекались две словоформы, |
причем |
оба раза |
этими |
|
словоформами оказался глагол |
are. Эксперимент |
строился |
таким |
образом, что обе словоформы могли быть извлечены только из одной тематической выборки.
Двойное извлечение словоформы are является сложным событием, представляющим собой произведение двух независимых собы-
тий. В связи с этим формула Бейеса для |
расчета апостериорных |
||||||||
вероятностей наших гипотез принимает здесь следующий вид: |
|||||||||
P{HJAA)~- |
P^t)P(AfHvA/Hj) |
|
_ |
P(Hi)\P(A/Ht)\* |
( 5 2 б ) |
||||
|
2 Р (Hj) |
Р (A/Hj'AjHj) |
2 |
Р |
Wfi 1р |
И//0)1" |
|||
|
/==1 |
|
|
|
1=1 |
|
|
|
|
Проведя несложные |
расчеты, |
получаем: |
|
|
|
||||
Р |
(HJAA) |
= |
0,369, |
Р |
(HJAА) |
= |
0,437, |
|
|
Р |
(HJAA) |
= |
0,126, |
Р |
(Я4 /АА) |
= |
0,068. |
Нетрудно заметить, что здесь снова имеет место перераспределение вероятностей гипотез, причем на первое место выдвигается гипотеза о том, что обе словоформы принадлежат второй выборке. •После однократного извлечения are наибольшую вероятность имела гипотеза H v
132
На понятиях априорной и апостериорной вероятности строится
теория решений, применение |
которой имеет большое будущее |
в инженерной лингвистике; |
эти понятия используются также |
при формулировке понятия логической вероятности, которая является отправным пунктом процедуры, измеряющей семантическую информацию в тексте 126].
§5. Информационные измерения в тексте
1.Энтропия как мера неопределенности лингвистического опыта. Мы уже несколько раз встречались с количественными оценками информации, содержащейся в тексте и слове. Однако отсутствие достаточных математических сведений не позволило нам дать строгое определение количества информации и описать процедуру
еевычисления. Теперь, когда эти необходимые сведения введены, можно дать более или менее последовательное определение как самого понятия количества информации, так и информационных измерений в тексте.
Количественные измерения информации можно осуществить, опираясь на два исходных понятия — в е р о я т н о с т и случайного лингвистического события и н е о п р е д е л е н н о с т и , присутствующей перед осуществлением опыта, результатом которого является указанное событие. Понятие вероятности подробно рассматривалось в предыдущих разделах, понятие же неопределенности и ее меры нуждается в специальном разъяснении.
Каждый лингвистический опыт связан с некоторой неопределенностью исхода. Если наш опыт состоит в последовательном угадывании букв неизвестного слова, то угадывание каждой буквы по мере движения от начала слова имеет свою неопределенность. Чем больше альтернатив при выборе возможного исхода опыта, тем больше его неопределенность; чем меньше таких альтернатив, тем меньше неопределенности в исходе опыта. Например, при последовательном угадывании букв слова который наибольшая неопределенность имеет место при выборе первой буквы (здесь вместо к может стоять любая буква русского алфавита, за исключением твердого и мягкого знаков), она будет значительно меньше в случае угадывания седьмой буквы при условии, что предыдущие шесть Акоторо нам известны. В этой позиции возможны четыре альтернативы: либо г, либо е, либо й, либо м. Заметим, что и в первом, и во втором случае угадывание происходит в предположении, что все допустимые в той или иной позиции буквы равновероятны. Если же обратиться к угадываний буквы, стоящей после цепочки Дкоторое, to исход этого угадывания полностью определен: с точки зрения норм русской письменной речи здесь может находиться только буква о. Неопределенность в этом случае равна нулю. Таким образом, между
неопределенностью опыта и количеством равновероятных |
исхо- |
||
дов обнаруживаются следующие две зависимости: |
|
||
1) если |
число исходов S = |
1, то неопределенность f (5) |
= 0; |
2) если |
имеются два опыта, |
причем St > St, то / (Sx) > f |
(S2). |
133
Для того чтобы окончательно определить вид функции |
/ (S), |
|||
характеризующей |
меру |
неопределенности, рассмотрим еще |
один |
|
лингвистический |
эксперимент. |
|
||
Будем строить случайным образом трехсловное предложение. |
||||
Пусть |
первая позиция |
занята именем собственным Петр. Вторую |
||
позицию нужно занять одной из двух глагольных словоформ |
видит |
|||
или слышит (5Х = 2), |
которые наугад извлекаются из урны. |
|||
Конечная позиция замещается одной из четырех словоформ — |
||||
Ивана, |
Лукъяна, |
Марка, Павла (Sa — 4), — также извлекаемых |
наугад из второй урны. Это построение можно изобразить в виде следующей схемы:
|
|
|
|
|
|
|
-Ивана |
|
|
|
|
|
|
|
|
|
|
—Лукъяна |
|
|
|
|
|
|
|
|
|
|
|
—Марка |
|
|
|
|
|
|
|
|
|
|
|
|
-Павла |
|
|
|
|
|
|
|
-виаит- |
|
|
|
|
|
|
||
|
|
Петр- |
|
|
|
|
|
|
|
|
|
|
|
|
- слышит - |
|
|
|
|
|
|
||
|
|
|
|
|
|
|
—Ивана |
|
|
|
|
|
|
|
|
|
|
|
—Лукъяна |
|
|
|
|
|
|
|
|
|
|
|
—Марка |
|
|
|
|
|
|
|
|
|
|
|
—Павла |
|
|
|
|
Неопределенность опыта, состоящего в выборе глагольной фор- |
|||||||||||
мы, равна f (Si) = f (2); неопределенность испытания, |
представ- |
||||||||||
ляющего |
собой |
выбор имени |
собственного, характеризуется вели- |
||||||||
чиной / (S2) = |
f (4). |
|
|
|
|
|
|
|
|
|
|
Теперь рассмотрим сложный опыт, заключающийся в комбини- |
|||||||||||
рованном выборе из двух |
урн одного из Sx • S2 — 2 • 4 = |
8 двух- |
|||||||||
словных |
продолжений для начальной |
словоформы |
Петр. |
|
|||||||
Неопределенность этого сложного опыта, являясь суммой не- |
|||||||||||
определенностей двух простых опытов, характеризуется |
|
равенст- |
|||||||||
вом |
|
|
|
|
|
|
|
|
|
|
|
|
|
f (Si « S2) |
= |
/ (Sx) + f (S2). |
|
|
|
|
|||
Последнее |
равенство |
представляет |
собой третью |
зависимость, |
|||||||
характеризующую отношение |
|
между |
неопределенностью |
опыта |
|||||||
и числом |
его |
равновероятных |
исходов. |
S, |
|
|
|
||||
Существует |
единственная |
функция |
аргумента |
отвечающая |
|||||||
трем перечисленным выше условиям: |
1) / (1) — 0; 2) если |
|
!>.S2 , |
||||||||
то f (SJ |
> f (S2); 3) / (S1 |
|
= f |
( |
5 + f (S2). |
Этой |
функцией |
||||
является |
логарифмическая зависимость |
|
|
|
|
||||||
|
|
|
Я |
= |
log S, |
|
|
|
|
(5.27) |
с помощью которой мы будем оценивать меру неопределенности, или энтропию, опыта.,
134
В лингвистических применениях энтропии, как правило, ис- пользуются логарифмы при основании 2, в связи с чем выражение /5 27) принимает вид
1 |
Нй = log2 S. |
(5.28) |
Отсюда следует, что единицей измерения энтропии служит неопре- деленность, заключенная в опыте, содержащем два равновероятных исхода. Эта единица называется двоичной единицей (дв. ед.), или
битом.
Вернемся к рассмотренному выше лингвистическому эксперименту с выбором йродолжений Для имени собственного Петр. Здесь неопределенность выбора глагольной формы языка
loga 2 = 1 (дв. ед.),
а энтропия выбора имени собственного в третьей позиции состав-
ляет
loga 4 = 2 (дв. ед.).
Неопределенность же сложного опыта, состоящего в одновременном выборе сказуемого и прямого дополнения, должна составлять
loga 2 + log2 4 = 1 + 2 = 3 (дв. ед.). Действительно,
log2 (2 . 4) = loga 8 = 3 (дв. ед.).
2. Комбинаторный подход к определению количества информации. Введение понятия энтропии дает возможность проводить количественное измерение информации Действительно, в результате проведения опыта А мы получаем новые сведения, т. е. некоторую информацию. Одновременно знание исхода опыта снимает полностью или частично ту неопределенность, которая была до его осуществления. Естественно предположить, что снятая в результате опыта А энтропия количественно равна полученной информации, т. е.
|
И (А) = / |
(А). |
|
(5.29) |
Из (5.28) и (5.29) следует, что количество информации, |
полу- |
|||
чаемое от испытания с множеством |
5 равновероятных |
исходов, |
||
определяется равенством |
|
|
|
|
|
/о = log2 |
5 . |
|
(5.30) |
Применительно к языковедческим |
задачам множество |
5 |
назы- |
|
вается лингвистическим |
алфавитом, |
а величины / 0 и # 0 |
— соот- |
|
ветственно информацией |
и энтропией |
алфавита. |
|
|
Число равновероятных исходов 5 определяется обычно путем исследования комбинаторики элементов и связей, характеризующих рассматриваемое лингвистическое явление. В связи с этим вся только что описанная методика представляет собой комбинйторный подход к определению количества информации [23, с. 71.
3. Измерение ограничений, накладываемых на употребление лингвистических единиц системой и нормой языка. Хотя комбинаторный подход дает, как правило, завышенные данные об энтропии и информации опыта, он может быть использован для полу-
135
чения приблизительных оценок тех ограничений, которые накладывают на употребление лингвистических единиц система и норма языка. Рассмотрим методику получения этих оценок на примере двухбуквенных сочетаний.
Исходя из соотношений (5.2) и (5.30), можно утверждать, что информация, получаемая от выбора такого двухбуквенного сочетания, которое строится средствами русского 32-буквенного алфавита при условии, что никаких ограничений на сочетаемость букв не накладывается и все двухбуквенные комбинации считаются равновероятными, составляет
/о = log2 A h - log2 1024 = 10 (дв. ед).
Если учесть ограничение, состоящее в том, что наши двухбуквенные сочетания не должны включать твердого и мягкого знака, то информация, содержащаяся в одной двухбуквенной комбинации, равна
V ~ log2 А!о = log2 900 - 9,81 (дв. ед.).
Если же составить двухбуквенные комбинации из всех 32 букв русского алфавита, не допуская повторений букв, то, согласно (6.1), количество информации, получаемое от выбора одного буквосочетания, равно
Г •*= log2 Ah ~ log, 992 - 9,95 (дв. ед.).
Легко заметить, что введение тех или иных ограничений на сочетаемость букв приводит к уменьшению информации,получаемой при выборе одного двухбуквенного сочетания. Эти ограничения, которые мы будем называть структурными контекстными ограничениями, можно количественно оценить с помощью разности
/о - / = К, |
(5.31) |
где /0 — информация алфавита или, иными словами, количество информации, которое извлекается из опыта при отсутствии какихлибо ограничений в комбинаторике лингвистических элементов и связей, I — информация, получаемая при учете интересующих нас ограничений, а К — контекстная обусловленность
Пользуясь выражением (5.31), нетрудно оценить величину структурных ограничений, накладываемых на алфавит русских двухбуквенных комбинаций. В первом случае эти ограничения составляют
К'ч = log2 Л и - log2 Mo • " Ю - 9,81 - 0,1.9 (дв. ед.),
во втором случае / ( 2 = 10 — 9,95 = 0,05 (цв ед.).
Согласно данным словарей [22]; [35]; [39], в русском языке содержится около 250 двухбуквенных слов, из которых только
136
114 допущены нормой современного литературного языка. Отсюда следует, что лексическая система русского языка накладывает на образование осмысленного двухбуквенного слова структурные ограничения, равные
К (системы) = log2 A h — log2 250 = = 10 — 7,96 - 2 04 (дв. ед.).
В то же время норма литературного языка дает дополнительные ограничения, составляющие
К (нормы) = log2 250—loga 114=1,73 (дв. ед.).
Комбинаторные измерения информации могут быть успешно применены для оценки «гибкости речи» т. е. при измерении разветвленности продолжения текста при заданном словаре и заданных правилах построения предложений.
4. Вероятностный подход к определению количества информации. При описании комбинаторного метода для вычисления количества информации и энтропии мы пользовались упрощающим допущением, согласно которому все исходы опыта считались равновероятными. Между тем при исследовании текста такая ситуация почти никогда не встречается. Норма языка и описываемая текстом ситуация приписывает каждому лингвистическому элементу определенную вероятность. Если лингвистическое испытание предусматривает равновероятные исходы, то, очевидно, энтропия такого опыта и получаемое от него количество информации будут отличаться от аналогичных величин, характеризующих опыт с равновероятностными исходами. Например, неопределенность опыта, состоящего в угадывании буквы, стоящей после цепочки Дяпо, гораздо меньше*, чем неопределенность опыта, состоящего в выборе равновероятных глагольных форм видит и слышит.
Переход от оценки неопределенности и информации опыта с равновероятными исходами к вычислению энтропии и информа-
ции испытания |
с |
неравновероятными исходами |
осуществляется |
на основе следующих соображений. |
|
||
Опираясь на известные правила логарифмирования, перепишем |
|||
выражение (5.30) |
в |
виде |
|
|
|
h = - l o g , (1/5). |
(5.32) |
Здесь величина 1/5 есть не что иное, как вероятность р каждого исхода опыта. Предположим теперь, что исходы опыта неравновероятны и каждый исход i имеет свою вероятность pt. Тогда индивидуальное количество информации, приносимое исходом i при его отдельном появлении, равно
=—loga Pi-
*Исходя из норм литературного языка, после цепочки Дяпо должна
стоять буква н (ср. японец, японка и т. п.). Вероятность же появления буквы ш здесь очень мала (ср. редкое просторечное япошка)1, см. § 4, п. 4.
137
При многократном осуществлении опыта исход i будет происходить с вероятностью pt. Поэтому среднее количество информации, приносимое исходом t при многократном осуществлении испытания, составит
7i = —pi log2 Pi-
Величина It определяет тот вклад, который вносит исход i в общее количество информации, получаемой при многократном проведении опыта А. Что-касается общей информации, то она, представляя собой сумму вкладов всех 5 возможных исходов, определяется равенством
/=_ 2 p,\og,Pi. (5.33)
Это равенство является исходной формулой вероятностного подхода к определению количества информации.
Величины If, It а I имеют разную качественную интерпре-
тацию и различное |
количественное |
значение. Это видно |
на |
таком |
лингвистическом примере. Предположим, нам известно, что |
буква |
|||
н появляется после |
цепочки Аяпо |
с вероятностью рн |
= |
0,999, |
а буква ш встречается после этой цепочки один раз на тысячу
случаев (рш = |
0,001). Тогда, если данный исход опыта дает после |
, цепочки Аяпо |
обычное н, мы получаем всего лишь |
|
/„ = —log, 0,999 = 0,0014 (дв. ед.) |
информации. В то же время появление редкого ш приносит
/ш = —logs 0,001 = 10 (дв. ед.)
информации, т. е. в 7 тыс. раз больше, чем появление более частого н, Такое соотношение вполне соответствует здравому смыслу: тривиальный исход опыта всегда малоинтересен и малоинформативен, напротив, неожиданный результат всегда несет много информации.
Однако опыт дает редко неожиданный исход, поэтому вклад этого исхода в общую информацию опыта составляет всего лишь
1Ш = |
—0,001 log2 0,001 = 0,0100 (дв. |
ед.). |
|
||||
Это только |
в |
семь |
раз больше |
того вклада, |
который |
вносит |
|
в информацию |
опыта частый |
исход, |
информационный вес |
которо- |
|||
го равен |
|
|
|
|
|
|
|
/н = |
|
—0,999 |
log2 |
0,999 = |
0,0014 (дв. ед.). |
|
Общее же количество информации, приносимое равновероятными исходами рассматриваемого опыта, составляет
/ = —0,001 Iog2 0,001 — 0,999 loga 0,999 = 0,0114 (дв. ед).
138
Это заметно меньше информации, получаемой от опыта с двумя рав-
новероятными исходами, где
/0 = 1og2 2 = 1 (дв. ед.).
Информационные измерения, опирающиеся на вероятностный подход, могут быть осуществлены при условии, что для интересующего языковеда лингвистического опыта имеется полный набор вероятностей р (или оценивающих их частостей /) исходов этого опыта. Например, чтобы оценить информацию, которую несет в среднем одна буква русского алфавита (так называемая информация первого порядка 1г), необходимо обработать с помощью формулы (5.33) распределение (спектр) вероятностей букв в русских литературных текстах, показанный в табл. 5.2. Чтобы вычислить информацию, приходящуюся в среднем на одно слово или словоформу какого-либо языка или его разновидности, необходимо также обсчитать с помощью выражения (5.33) соответствующий частотный словарь [32 а, с. 179—261]; [39].
Однако информационные измерения, опирающиеся на обработку распределений безусловных вероятностей, имеют в языкознании ограниченное применение. Дело в том, что фонемы, графемы, слова и другие языковые единицы выступают в тексте в качестве зависимых лингвистических событий, обусловленных контекстом, а их вероятности являются условньми (см. § 4, п. 3). Распределение последних вероятностей определяется тем положением, которое занимает данная лингвистическая единица в тексте. Так, например, распределение вероятностей русских букв в начале слова (см. табл. 5.3) сильно отличается от спектра из безусловных вероятностей (табл. 5.2) и совсем не похоже на распределения вероятностей букв, стоящих после цепочек Ая (табл. 5.4), Аяп или Аяпо.
Отсюда следует, что в большинстве случаев лингвистический опыт характеризуется не безусловной, а условной энтропией, определяющейся тем контекстным окружением, в котором находится данный участок текста. Так, например, выбор начальной буквы в русском слове имеет иную неопределенность, чем энтропия выбора буквы после цепочки Аяпо, т. е.
Н (буквы/Д) Ф Н (буквы/ Аяпо),
и т. п. Само собой разумеется, что распределение вероятностей исходов и неопределенность опыта могут быть обусловлены не только предшествующим, но и последующим контекстом.
Что же касается информации, которая извлекается изданного участка текста, то она равна энтропии, характеризующей этот участок.
Рассмотрим теперь в деталях методику вычисления информации, получаемой от некоторого лингвистического опыта L, имеющего 5 исходов и осуществляющегося в п-м участке текста при условии, что стоящая перед этим участком цепочка лингвистических
элементов b n ~ l известна. |
Цепочка b n ~ l |
рассматривается |
в ка- |
честве случайного события, |
принимающего |
частный вид i. |
Появ- |
139