Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Пиотровский

.pdf
Скачиваний:
174
Добавлен:
06.06.2015
Размер:
9.13 Mб
Скачать

3. Распределение информации в тексте. Приведенные выше рассуждения можно распространить и на связный текст (см. табл.1.3). Тогда математической моделью распределения информации станет показательная функция

 

 

 

 

In =

Uо -

/») е~™+

U ,

 

 

 

 

 

 

(1.28)

 

 

 

 

 

 

 

 

отличающаяся

от

(1.27)

тем,

 

 

 

 

 

 

 

 

что в нее введен новый пара-

 

 

 

 

 

 

 

 

метр /оо, указывающий на тот

 

 

 

 

 

 

 

 

предельный

уровень,

к которо-

 

 

 

 

 

 

 

 

му асимптотически

приближает-

 

 

 

 

 

 

 

 

ся средняя величина информа-

 

 

 

 

 

 

 

 

ции

 

на

букву

при

бесконеч-

 

 

 

 

 

 

 

 

ном

 

увеличении

длины

 

текста

 

 

 

 

 

 

 

 

(рис.

19). Величина

/«,

указы-

 

 

Рис. 19

 

 

 

вает

на

то,

что каждый текст в

 

 

 

 

 

отличие от слова может быть

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

продолжен

и дальше и это про-

должение

несет

в

себе некоторую информацию.

Более

строгое

обоснование для параметра

/*,

приведено

в гл. 2,

§4 вместе с до-

казательством

равенства (1.28).

Значения

/ «

для

разных

языков

показаны*

в

табл.

1.4.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Т а б л и ц а

1.4

 

З н а ч е н ия

7 W

и

1х

для некоторых

индоевропейских

и т ю р к с к и х языков

 

 

Язык

 

 

'со

Loo

 

 

 

Язык

 

 

'оо

 

 

1

Русский

 

 

 

1,37

0 , 8 2

5

Французский

. .

 

1,38

0,79

2

Польский

 

. . .

.

1,28

0,76

6

Румынский .

. .

 

1,34

0 , 7 2

3

Английский . .

.

1,35

0,74

7

Казахский . . . .

 

1,51

 

0,82

4

Немецкий

 

. . .

.

1,36

0,71

 

 

 

 

 

 

 

 

 

 

4. Распределение контекстной обусловленности. Выше уже говорилось, что / 0 — максимальная синтактическая информация, которая может быть получена от лингвистического элемента, входящего в алфавит (парадигму) S, при условии, что вероятностно-комбина- торные ограничения здесь не учитываются. Поскольку / п — реальная информация, извлекаемая из лингвистического элемента в участке текста п, то разность Кп этих информации будем называть контекстной обусловленностью:

K n ^ I o - U . •

(1.29)

Величину Кп можно рассматривать как меру тех структурных, нормативных ограничений,которые накладываются на букву или лю-

* См. сноску к табл. 1.3 на стр. 39.

40

бой другой лингвистический элемент, находящийся в п-й позиции текста.

Подставляя в зависимость (1.29) вместо /„ выражение (1.28) и производя необходимые преобразования, приходим к формуле

= ( / „ - /со) (1 - е - 8 " ) ,

(1.30)

выражающей рост контекстной обусловленности как функцию числа

п. Значения

параметров

здесь те же, что и в соотношениях (1.27)

и (1.28). На рис.

20

показаны

кривые,

 

характеризующие

нарастание

контекстных

свя-

зей в русских

беллетристи-

ческих

и

деловых

текстах;

в табл.

1.5 приведены значе-

ния коэффициента s, харак-

теризующего темп роста

этих

связей в тексте. Вполне есте-

ственно,

что

в деловых

тек-

стах,

использующих

стан-

дартизованную

терминоло-

гию, фразеологию и синтаксис, контекстные связи растут быстрее, чем в беллетристических текстах, пользующихся более разнообраз-

ной лексикой, фразеологией

и синтаксической

вариативностью.

 

 

 

Т а б л и ц а 1.5

Предельная информация и контекстный коэффициент

для

русских текстов

Разновидности русской речи

На верхней

границе информации

ОО'

 

S

 

 

Беллетристика

1,19

 

0,21

 

0,83

 

0 , 2 4

Пределом, к которому стремится экспонента контекстной обусловленности, служит предельная контекстная обусловленность Кос —

&— /ю-

§9. Моделирование периодичности речи

1.Гармоническая структура гласных. Наблюдения над распределением информации в тексте и слове (см. рис. 18 и 19), а также изучение звуковой субстанции позволяют обнаружить в этих явлениях некоторую периодичность. Лучше всего эта периодичность прослеживается в построении гласных звуков.

Однако гласный звук следует рассматривать не как элементарную, а как сложную периодическую функцию. Чтобы дать математическое описание этой функции, нужно представить ее в виде суммы простейших тригонометрических функций.

41

Рассмотрим это представление на примере искусственного сложного звука, который можно считать упрощенным аналогом гласного. Чтобы получить искусственный гласный, включим два камертона — первый с частотой F, равной 200 колебаниям в секунду (герц, сокращенно — Гц), и второй — с частотой F = 600 Гц. Тогда графическое изображение функции, которая характеризует сложный звук, производимый обоими камертонами вместе, будет представлять собой сложную гармоническую кривую С, показанную на рис. 21. Такая кривая является результатом сложения двух синусоид, аргументом которых служит время (эти синусоиды называют-

Рис. 21

ся гармониками*). Синусоида А характеризует звуковые колебания, производимые первым камертоном, а синусоида В — вторым. При этом каждая точка С нашей сложной кривой имеет ординату ус, представляющую собой сумму ординат уа И ув, или

Ус = / (х) + Ф (X).

(1.31)

Мы использовали различные обозначения функций/и Ф,

посколь-

ку синусоиды А и В имеют разные по абсолютной величине периоды колебаний и разные амплитуды.

Аргументы функций / (х) и Ф (х) измеряются в единицах времени (в мс). Переведем значения аргумента в радиан'ную (или угловую) меру. Так как длина периода гармоники равна Т, то каждое значение аргумента х составляет некоторую долю этого периода, равную отношению х/Т. Но длина периода Т, взятая в радианной мере,

* В исследованиях по акустике речи гармониками называются обычно только дополнительные синусоиды (частоты), накладывающиеся на так называемую несущую или основную частоту (синусоиду) голоса. Основную частоту и дополнительные частоты можно представить также в виде обратной пропорциональной зависимости F = 1/7\ аргумент Т которой является периодом колебания, измеряемым в единицах времени.

42

равна 2я. Отсюда следует, что, умножив отношение хIT на 2я, мы получим значение аргумента в виде 2пх!Т, где частное 2лIT = и есть коэффициент перехода от линейного (временного) измерения аргумента к его радианной мере.

Найдем значения коэффициентов перехода в рассматриваемом

примере. Так как ТА =

1 л,

Тв = 1lFBt

FA

=

200

Гц,

FB =

= 600 Гц, то Тв = Та/3.

Следовательно,

полагая

Та

=

Т, по-

лучим:

 

 

 

 

 

 

 

(йл= 2п/Тл

= IT, сов = ЫТА=

ШТ.

 

 

Таким образом, для гармоник А и В имеем

 

 

 

 

 

sin (од* = sin

(2пх/Т),

 

 

 

 

(1.32)

sin ювх =» sin (6nxIT).

 

 

 

 

(1.33)

Однако эти величины еще не являются значениями ул и ув, ведь амплитуды га И гв обеих синусоид не равны между собой.

Амплитуды гармонических кривых измеряются и в единицах длины, и в единицах интенсивности (для звуковой волны). Чтобы не привязывать наши рассуждения к какой-либо узкой среде приложения периодических функций, мы для сопоставительного измерения амплитуд воспользуемся относительными единицами, при этом Га = 2,3 отн. ед., а гв = 1 отн. ед. Чтобы получить значения интересующих функций, нужно умножить выражения (1.32) и (1.33) соответственно на коэффициенты га И гв. При этом

УА = / с*) =

ГА

sin ЫАХ,

г/в= ф (*) = гв sin ©в*,

 

откуда согласно (1.31)

получаем

 

 

 

ус = rA

sin соах

+ rB sin <овХ,

(1.34)

Взяв численные значения параметов га

И гв, получим

выраже-

ние для ординаты любой точки сложной гармонической

кривой:

ус=

2,3 sin (2ях/Т)

+ sin

(бях/Т).

 

Разложение сложной гармонической кривой на составляющие ее синусоиды в том виде, как оно представлено на рис. 21, оказывается сложным и не очень наглядным даже при наложении двух гармоник. Если же сложная кривая является результатом взаимодействия многих синусоид, то графическое изображение их взаимодействия может оказаться совершенно лишенным наглядности. Поэтому обычно используется упрощенное изображение структуры (или, как говорят, спектра) сложной кривой. При этом на оси абсцисс откладывается частота колебания, а на оси ординат — величина амплитуды в единицах длины или интенсивности (децибелах — сокращенно дБ) или, наконец, в относительных единицах. Эти схемы называются спектрограммами. На рис. 22 показана спектрограмма сложного звука, полученного от наших двух камертонов: ле-

43

вый столбик указывает сильную амплитуду гармоники Л, правый — слабую амплитуду гармоники В. Что касается реальных гласных, то характеризующие эти звуки кривые также могут быть представлены как суммы многочисленных гармоник.

Разложение сложной кривой можно произвести либо вручную с помощью приемов гармонического анализа, о чем мы будем говорить ниже, либо автоматически — путем использования специальных приборов, выделяющих составляющие звук гармоники (такими

приборами

являются, в

частности, спектрометр

и

спектрограф).

 

 

 

 

 

С

помощью

автоматического

 

 

 

 

 

разложения кривой речевого

сиг-

 

3 •

 

 

 

нала

обычно

можно

обнаружить

 

 

 

 

несколько десятков гармоник: одни

 

 

 

 

 

 

 

 

 

 

из них имеют более сильные, дру-

fc йл

 

 

 

гие — более

слабые

амплитуды.

 

 

 

Усиленные

гармоники расположе-

 

 

 

 

 

11

 

 

 

ны компактно в нескольких об-

,

 

 

ластях

звукового

спектра,

 

кото-

^

и

т

г

рые называются формантными

об-

 

 

200 4-00 600

80Q

Гц ластями

{формантами),

или об-

 

 

Рис. 22

 

 

ластями

концентрации

 

энергии

 

 

 

 

в спектре звука речи. Эти форман-

 

 

 

 

 

ты обозначаются обычно

символа-

 

 

 

 

 

ми F0,

FLT

FIT

F3

и

т.

д.

 

 

При акустическом анализе речи гармоники со слабыми амплитудами не учитываются. Исследователь сосредоточивает свое внимание на расположении и соотношении формантных областей, давая им сначала физиологическую, а затем лингвистическую интерпретацию*. В качестве примера рассмотрим спектрограммы трех видов эстон-

ского гласного [0] — краткого [б], долгого

[0:1

и сверхдолгого

[0:':] (рис. 23, а, б и в). На фотографии видно,

как

гармоники

(ап-

парат отметил их в виде столбиков) группируются в форманты

(F).

Каждая форманта имеет одну или несколько наиболее сильных

гар-

моник (fm). Формантные области и усиленные

гармоники каждой

из этих формант приведены в табл. 1.6, заимствованной из работы*"1 [54].

Получаемые е помощью гармонического анализа и автоматической спектрографии данные о формантной структуре звуков имеют

* Форманты также описываются сложными кривыми,

которые могут

быть представлены в виде суммы

гармоник.

 

** Автор этой работы Г. Лийв

следующим образом интерпретирует при-

веденные экспериментальные данные.

_

«Относительно спектрального состава вариантов гласного [0] разных степеней долготы следует отметить, что в связи с увеличением степени долготы первая форманта понижается (вероятно, это акустический коррелат сужения артикуляции); вторая и более высокие форманты также в общем понижаются, причем более значительный сдвиг в сторону более низких частот вместе с понижением относительного уровня высоких формант выступает при [0^::] третьей степени долготы (вероятно, это акустический коррелат большей велярноети артикуляции)» [54, с. 97].

44

также большое практическое значение. Они используются при проектировании автоматов, воспринимающих и воспроизводящих человеческую речь.

2. Разложение сложной периодической кривой в ряд. Для вы-

явления периодичности в информационной структуре текста необходим более сложный Математический аппарат, чем тот, который

использовался

при моделировании сложного звука. Рассмотрим

в этой связи выражение (1.34).

Так как sin х = cos (х — л/2),

то указанное

выражение мож-

но переписать

в виде

уга COS ((пах — л/2) +

+гв cos (и>вх — л/2).

Отсюда следует, что каждая периодическая кривая может быть сдвинута по отношению к ее началу на некоторую величину ф, которая называется

сдвигом фазы может быть и меньше и больше, чем л/2). Чтобы учесть этот сдвиг, величину ф надо ввести под знак тригонометрической функции; при этом получится равенство вида

у — г sin (ах 4- ф)

или

у = г cos (сих + ф).

I

{кГц}

4 7 /О

Частота.

Колебания функции могут происходить не обязательно относительно оси абсцисс, как это мы наблюдали до сих пор. Периодическая функция может быть сдвинута вверх или вниз по отношению к оси Ох. Чтобы отразить этот сдвиг, нужно ввести в каждое из равенств постоянный член г0, соответствующий величине ординаты, на которую поднята или опущена ось, вокруг которой происходят колебания нашей периодической кривой. В результате получается равенство вида

У — Г0 + Г Sin ((АХ + ф)

или

У ~ RQ + Г cos (owe + ф).

щ

г-

г , з

 

Частотами.)

 

 

4

1

2

}

Т10

Частота (кГц)

4

Рис. 23

45

Т а б л и ц а 1.6

Формантные области и их усиленные гармоники для трех эстонских [0]

Форманты

[31

 

[О*::]

Fi

 

до 525 (Гц)

до 525 (Гц)

до 525 (Гц)

fmi

450

4 5 0 - 5 2 5

375

Fz

 

1150—1350

9 7 5 - 1 2 5 0

• 975—1150

г

1250

1150

1150

/тf

3

1950 - 2 2 5 0

2 1 0 0 - 2 4 0 0

около 2250

2100—2250

2250

 

S

 

 

Ft

 

2 8 5 0 - 3 3 0 0

3150—3300

2850—3150

fmi

3150

3300

3000

Теперь предположим, что имеется некоторая сложная периодическая функция у (сложная гармоническая кривая), поднятая над осью абсцисс на величину г0. Тогда мы можем представить эту функцию в виде ряда слагаемых, каждое из которых имеет вид

Ук = rh sin (2лkx/T + фй).

Слагаемые представляют собой синусоидальные гармоники с амплитудой rh и сдвигом фазы cpft (рис. 24). Частоты гармоник, из которых

составляется

 

периодичес-

кая функция yh,

образуют

гармоническую

последова-

тельность.

 

Это

значит,

что частоты

всех

состав-

ляющих

этой

 

функции

кратны основной

частоте

1IT, причем

синусоида yt

с

частотой

1 IT

служит

первой гармоникой (А=1),

синусоида

г/а

с

частотой

2/7" — второй

гармоникой

(6 = 2), ...

,

синусоида у т

с частотой т/Т — т-й гармоникой (k =

т.). Величина г0,

выража-

ющая среднее значение функции у и равная ординате, на

которую

поднята ось сложной периодической кривой и составляющих ее гармоник, рассматривается в качестве нулевой гармоники. При

этих условиях наша сложная периодическая

кривая

может быть

представлена в виде суммы, называемой рядом

Фурье\

 

У^Го + Г! sin

* + <Pij +

Н sin f ~

+<p2j

+ -

••• +

''mSin (^у-

ГПХ + q>mj,

 

или в сокращенной записи

 

т

 

У = г0+ ^ э т ^ я ^ / Г + срь).

<L35>

3. Периодичность в информационной схеме текста. Используем приведенные выше сведения для анализа лингвистического материала. Если побуквенно угадывать не связанные между собой

Рис. 25. Разложение сложной гармонической кривой распределения информации на составляющие ее гармоники: 1 — кривая и эмпирические точки нижней границы информации в 12-буквенной словоформе, взятой вне контекста; 2 — теоретические точки; 3 — первая гармоника; 4 — вторая гармоника; 5 —третья гармоника; 6 — четвертая гармоника; 7 — пятая гармо-

ника

47

по смыслу слова определенной длины, то в результате обработки получаемых данных по методу, описанному в гл. 5, § 5, п; 4, мы получим кривую с повторяющимся распределением информации.

На основании приведенных в работе [23, табл. 20] данных о нижней границе распределения информации в словах разной длины,

взятых

вне текста, было осуществлено разложение каждой из этих

кривых

в

ряд. Это разложение, производившееся с помощью

схем

 

 

 

 

 

 

группирования Рунге-Серебрен-

j(di.ed)

 

 

 

 

 

никова

[32в,

с.

397],

удовле-

1,0

 

 

 

 

 

творяет

следующему

равенству:

 

 

 

 

 

 

 

б

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,8

 

 

 

 

 

I = го +

2

га s i n (2яЛ*// +

Ф*),

 

 

 

 

 

 

 

 

А = 1

 

 

 

 

(1.36)

0,6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ЦЬ--

 

 

 

 

где

/ — информация;

х — не-

 

 

 

 

прерывный

аргумент

функции,

ОЛ

 

 

 

 

 

заменяющий

дискретную

вели-

 

 

 

 

 

чину

п — 1; п — номер

буквы

 

 

 

 

 

 

 

 

 

2

3

4

слова; г0 — нулевой

член

ряда

 

 

 

Фурье

(соответствует

 

среднему

 

 

 

Гармоники

 

арифметическому

значению

ин-

 

 

 

Рис.

26

 

формации

на

рассматриваемом

 

 

 

 

участке);

r k

— амплитуда

k-и

чина информации k-й

 

гармоники

ряда

Фурье

(вели-

гармоники); I — длина слова в буквах, т. е.

длина участка, на котором производится

разложение; cpft

— сдвиг

фазы k-й

гармоники в радианах. Результаты разложения кривых,

описывающих

распределение

информации русских

слов длиной

в 5—12 букв

(включая

пробелы), приведены

в табл. 1.7.

 

 

 

На рис. 25 показано разложение сложной гармонической кривой, характеризующей распределение информации (по нижней границе) в 12 буквенном слове, на составляющие ее гармоники. На рис. 26 показана спектрограмма этого распределения.

Анализируя табл. 1.7, нетрудно заметить, что первые гармоники дают обычно наибольшие амплитуды, которые ослабляются у гармоник более низкого порядка. Однако обращают на себя внимание случаи усиления амплитуд у тех гармоник, период которых находится в интервале между двумя и тремя с половиной буквами (в таблице они выделены жирным шрифтом). Если учесть, что именно в указанном интервале находятся средние длины корневых морфем русских слов* [23, с. 83—84], то это дает нам возможность предположить, что такие усиленные гармоники являются математическими соответствиями корневых морфем русских словоформ.

Гармонический анализ информационных схем слова и текста имеет для языкознания большой теоретический и практический интерес.

Средняя длина морфемы в русском языке р!авна 2,5 буквы.

48

Амплитуды, сдвиг? фаз и периоды гармоник при разложе распределения информации русских словоформ, взятых вн (распределение берется по,иижней границе информ

Длина слова

Номер гармо-

Амплитуда

Сдвиг фазы

в буквах

ники

4-й

гармоники

в радианах

в дв. ед.

I

k

 

%

 

(1)

(2)

 

(3)

(4)

 

1

 

0,84

0,363

 

2

 

0,78

0,407

5

3

 

0,52

0,840

 

4

 

0,33

1,134

 

5

 

0,36

2,021

 

1

-

0,76

0,209

6

2

 

0,66

0,785

3

 

0,38

1,358

 

4

 

0 , 3 8

1,085

 

5

 

0,35

1,972

 

1

 

1 . U

0,797

 

2

 

0,79

0,416

7

3

 

0,38

0,747

 

4

 

0,32

1,061

 

5

 

0,41

2,129

 

1

 

1.11

0,590

 

2

 

0,37

6,251

8

3

 

0,51

1,045

 

4

 

0,48

0,948

 

5

 

0 , 4 3

2,213

 

1

 

1,08

0,837

 

2

 

0 , 5 0

0,020

9

3

 

0,51

1,250

 

4

 

0,66

1,390

 

5

 

0 , 4 0

2,001

 

1

 

0 , 9 2

0,686

 

2

 

0,34

5,771

10

3

 

0,60

0,628

 

4

 

0,16

0,829

 

5

 

0,38

1,727

 

1

 

0,99

0,925

 

2

 

0,56

0,465

И

3

 

0,20

0,354

 

4

 

0 , 2 2

1,347

 

5

 

0 , 3 3

2,117

 

1

 

1,03

0,980

12

2

 

0,57

0,337

3

 

0,28

0,564

 

4

 

0,35

0,605

 

5

 

0,41

1,791