Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Пиотровский

.pdf
Скачиваний:
170
Добавлен:
06.06.2015
Размер:
9.13 Mб
Скачать

Преодолеть некоторые из этих трудностей стремятся М. В. Арапов и М. М. Херц 14], пытающиеся, во-первых, распространить глоттохронологическую методику на лексику, находящуюся за пределами ТС, а во-вторых, учесть различную скорость изменения разных групп слов.

Отправной точкой построения авторов является идея о том, что ранг (частота) слова в частотном словаре и его возраст коррелированы: чем чаще употребляется слово и чем меньше его ранг, тем больше вероятность того, что это слово древнего происхождения. В связи с этим предполагается, что группы слов с близкими рангами (частотами) в частотном словаре (ЧС) ведут себя так же, как и слова ТС. Такое предположение дает возможность авторам отказаться от использования узкого тестового списка и осуществлять исследование на словарном материале неограниченного объема.

Если в частотном словаре выбрать L0 лексических единиц (слов, словоформ, основ, словосочетаний) с номерами t + Lo, то число слов, имеющих в промежутке [», i + L0] возраст не менее Т лет, вычисляется по формуле

L*T = L0 e-k'T,

(2.11)

где к* — постоянная, указывающая, в

каком месте ЧС находится

отрезок It, i + L0].

Чтобы учесть зависимость между скоростью изменения группы [i, i + L01 и местом ЧС, авторы разбивают ЧС на последовательные группы одинаковой длины по L0 слов, присваивая каждой группе определенный номер. При этом выясняется, что существует зависимость

 

 

=

 

(2.12)

где j — номер группы,

а — параметр, характеризующийся

объе-

мом группы L0 и тем, на каких

лексических единицах построен

ЧС.

Подставляя в (2.11) значение k* из (2.12), авторы приходят к

основной зависимости их теории:

 

 

 

• I r . , =

V - e n T .

 

(2.13)

Зафиксируем возраст

слов

Т и будем считать

произведение а Т

параметром -л формулы

(2.13). Тогда доля слов,

употребляющихся

в языке

не менее Т тысячелетий, быстро убывает с ростом

ранга

группы:

=

(2.14)

 

Проверка зависимости (2.14) на материале ЧС русского языка [391 показала хорошее схождение теоретических и опытных данных. Об этом свидетельствует рис. 27, на котором верхняя теоретическая прямая и эмпирические точки соответствуют синхронному срезу 1500 г., а нижняя — срезу 600 г. (праславянская эпоха). По оси абсцисс выбран масштаб корня квадратного, по оси ординат — логарифмический масштаб. График заимствован из работы 14].

ел

Если фиксировать ранг / и вернуться к параметру k*, то можно прийти к зависимости

f r j

связанной с исходными формулами глоттохронологии (2.9) и (2.11). Таким образом, соотношение (2.13) выступает в качестве обобщения зависимости (2.9).

Исходя из равенства (2.13), можно построить формулу, оценивающую число лексических единиц, имеющих возраст меньше Т

тысячелетий,

т. е. появивишихся

после

некоторого

момента. Это

число равно

 

 

 

 

 

 

 

 

LTTL=--L0{

1-Е-<*У7)

 

 

(2.15)

'г,!

 

 

 

 

 

 

 

Г

 

 

 

 

 

 

 

80

 

 

 

 

 

 

 

60

 

 

 

 

 

 

 

40

 

 

 

 

 

 

 

го

 

 

 

 

 

чОО О(

 

 

 

 

 

 

 

101

3 . $

-4

?

^

15

21

25 j

 

?

9

10

Рис. 27

и будет увеличиваться по мере роста ранга группы /, т. е. по мере

того как мы будем обращаться, ко все более редким словам.

 

Затем

авторы вводят

зависимость

 

 

Lt.T+Ы.,

=LTJ—LT+l,T,i

= L0{e-aT^i~

е-очг+дп/7),

(2.16)

оценивающую число слов, появившихся в языке в период от момента Т до момента Т + Д7\

Исследование выражения (2.16) показывает, что число неологизмов, появившихся, например, за 500 лет (AT = 0,5) при коэффи-

циенте а = 0,02, по мере перехода

ко все более редким словам сна-

чала

растет,, достигая максимума

при / = 1600, что соответствует

рангу

I = 160 000 (если принять объем порции равным ста словам),

затем

число неологизмов начинает

падать.

Приведенный математический аппарат интересен с точки зрения перспектив математического моделирования различных диахронических процессов. Действительно, если, например, выделить в языке А слова, затронутые действием какого-либо фонетического, морфологического или словообразовательного закона, то всегда можно найти экспериментальное распределение каждого из этих классов по ранговым группам ЧС.

Если бы удалось аппроксимировать эти распределения с помощью выражений (2.13), (2.15), (2.16), то лингвисты получили бы

61

возможность количественно оценивать степень исходного и вторичного лексического родства двух языков. Одновременно появилась бы возможность получать абсолютную хронологию указанных диахронических процессов.

§ 4. Информационные модели слова и текста

Рассмотренный в § 2 и 3 математический аппарат может быть применен для моделирования не только диахронических, но и информационных процессов в речи. В частности, с помощью вышеприведенных рассуждений можно получить строгое доказательство формулы контекстной обусловленности, а также формул распределения информации в тексте и слове.

Опыты по угадыванию букв неизвестного текста или слова показывают, что энтропия (неопределенность) Н перед угадыванием каждой последующей буквы (а, следовательно, и получаемая в результате угадывания информация I) последовательно убывает. Получены экспериментальные оценки коэффициента убывания энтропии для некоторых разновидностей русского и французского языков. Предположим теперь, что, зная начальную неопределенность # 0 и коэффициент убывания s, мы должны определить теоретическую неопределенность буквы, стоящей в самом конце слова длиной в | букв ( | — величина непрерывная). Эту неопределенность мы обозначим символом //$. Повторяя приведенные выше рассуждения, разделим весь текст на т равных участков

Го, X I

[ X ,

J L 1

Г<!=i>i i l l

 

Г J 2 = ! i i ,

6 ] .

L

т ]

I т

т J

L т

т 1

 

I

т

J

т,

полученные

участки

(1

(11 — 1)1

=

I

достаточно

малы, то

Если

— —

 

 

в каждом таком промежутке абсолютную величину убывания энтропии | АН | можно считать постоянной и в то же время пропорциональной начальной энтропии Н0 и ширине участка | / т , т. е.

| АН | = sH0Z/tn.

Количество энтропии в момент |равно

Н ^ Н ь - з Н ^ ^ и М - Щ ,

 

 

в момент 2\1т оно

 

т

\

т /

 

 

составляет

 

 

 

 

 

я2=H^sH,

1=HJI

- J L ) = H J I -

Щ ,

 

 

т

V

 

tn }

\

т 1

 

и, наконец, в конце текста £ энтропия будет равна

 

 

Снова предположив,

что

число

участков неограниченно

растет

(т ->- оо), а их длина неограниченно

убывает

(g/m -*• 0),

получим

 

= lim #„ f 1 — — \ т ,

 

 

 

 

 

т-юо

V

ml

 

 

 

62

Заменив величину — s\lm дробью \!х (при этом т — xs\) и учитывая следствия 1 и 2 из теоремы 2 (см. § 1, п. 2), находим

Так как предел, стоящий в квадратных скобках, есть число Эйлера, то

=

(2.17)

Заменив непрерывную величину, характеризующую длину слова, на дискретные целочисленные значения буквенных позиций п и учитывая, что неопределенность Я количественно равна синтактической информации / (см. гл. 5, § 5, п. 2), приходим к выражению

=

1ф~5п,

(2.18)

характеризующему количество

информации,

которое несет буква,

стоящая на n-м месте в слове.

 

 

Теперь используем формулу (2.17) для анализа распределения информации в тексте. Нетрудно заметить, что при бесконечном уве-

личении

длины текста

{% -> <хз) величина

стремится к нулю,

поэтому

lim

=

0, а следовательно,

и Игл

= 0.

Однако информационные исследования текста [23]; [26] показывают, что бесконечное увеличение его длины не приводит к полной утрате неопределенности продолжений. Действительно, всякий текст, будучи образован из сложных знаков (слов, словосочетаний, предложений), обладающих практически неограниченной комбинаторной способностью, имеет несколько продолжений или, иначе говоря, всегда обладает неопределенностью выбора следующей лингвистической единицы. Таким образом, предельная энтропия Нж всегда больше нуля. Из всего сказанного следует, что величина //«,, определяемая обычно из опыта, должна быть исключена из нашего расчета. Таким образом, моделируя распределение информации в тексте с помощью выражения (2.17), мы должны оперировать вместо

разностью Hi - Нх, а вместо Н0 — разностью Н0 Нос. Учитывая это, имеем

-

Ясс =

0 -

Ято) е~%

откуда получаем

 

 

 

Щ =

0 -

Нх)

Нх.

Заменив величины Н на значения / и введя вместо непрерывного £ дискретное п, приходим к формуле распределения информации в связном тексте:

In = (/0 ~ / - )

+ / х .

(2.19)

Если в гл. 1 эта формула имела вид более или менее удачно подобранной аппроксимации опытных наблюдений, то теперь, опираясь на аппарат теории пределов и бесконечно малых величин, мы получили строгое ее доказательство, раскрывающее внутренний процесо построения информационной схемы слова и предложения.

ГЛАВА I

ДИНАМИКА ЛИНГВИСТИЧЕСКИХ ПРОЦЕССОВ И ЕЕ ОПИСАНИЕ С П О М О Щ Ь Ю ПРИЕМОВ ДИФФЕРЕНЦИАЛЬНОГО ИСЧИСЛЕНИЯ

§1. Диахроническая скорость и понятие производной

Впредыдущих главах мы познакомились с простейшими математическими моделями, которые используются при описании диахронии языка и информационных процессов создания текста. Для того чтобы перейти к построению более сложных моделей, необходимо уметь измерять динамику лингвистического процесса на различных его этапах. При измерении этой динамики используется аппа- рат дифференциального исчисления, одним из исходных понятий которого является понятие производной. Чтобы раскрыть это понятие, приведем два лингвистических примера.

1.Арабские заимствования в персидской прозе X—XII в. Фран-

цузский востоковед Г. Лазар [32 в, с. 3741, исследуя арабские за- имствования в персидской прозе X—XII в., подсчитал число арабских слов и словоупотреблений в некоторых исторических и рели- гиозных текстах этого периода (см. табл. 3.1).

 

 

 

 

 

 

 

 

 

Т а б л и ц а

3.1

 

 

Доля

арабизмов в персидских текстах X—XII в.

 

 

 

 

 

 

 

Индексы текстов и время их написаиия-

 

 

 

 

 

1<ТВ)

| 2(ТТ)

3(ТС>

4(ZA)

| 5 (TBq) |

6<At)

7 (TAf) | 8<RS)

 

 

 

 

963 —

конец

X - X I

1050

1060

1072 —

1145

1200

 

 

 

 

964 г

X в.

в.

г.

г.

1073 г.

г.

г.

Длина

текста (N)

 

2 3 7 6

2 3 0 2

2 1 6 5

2 2 8 9

2 4 2 4

2 2 9 9

2 2 5 3

2 2 5 9

Число

арабизмов

в

 

 

 

 

 

 

 

 

тексте (N&)

 

 

2 2 9

2 6 0

2 3 7

3 4 3

3 9 0

2 9 6

4 5 6

5 9 0

Объем

словаря (L)

4 5 0

4 7 7

4 9 4

5 1 4

5 8 6

5 1 9

5 6 3

6 9 4

Число

арабизмов

в

 

 

 

 

 

 

 

 

словаре

(La )

 

109

1 5 2

128

195

2 2 4

1 8 3

2 8 8

3 5 7

Процент

арабизмов

 

 

 

 

 

 

 

 

в тексте

 

. 100%j

9 , 6 4 .

1 1 , 2 9

1 0 , 9 4

1 4 , 9 8

1 6 , 0 9

1 2 , 8 7

2 0 , 2 4

2 6 , 1 1

Процент

арабизмов

 

 

 

 

 

 

 

 

в словаре

100%j

2 4 , 2 2

3 1 , 8 6

2 5 , 9 1

3 7 , 9 4

3 8 , 2 2

3 5 , 2 6

5 1 , 1 5

5 1 , 4 4

Используя данные, приведенные в табл. 3.1, постараемся оценить темп проникновения арабизмов в персидскую прозу X—XII в.

64

0 1 I
900 W00 U00 1200 t
Рис. 28
7 хус/г
3 4 5 6
3U5 6
Номера t памятников

Установим с помощью графика (рис. 28) зависимость между вре-

менем написания произведений и долей арабизмов,

встречающихся

в тексте и словаре. По оси

абсцисс отложим даты создания произ-

ведений,

а

по оси ординат — доли

арабизмов

в тексте (п —

— -j^-100%)

и в словаре

• 100%) каждого из них.

Как

следует из графика,

увеличение употребления

арабизмов

в тексте и их нарастание в словаре

аппроксимируется

прямыми

линиями, которым соответствуют

 

 

 

линеиные зависимости

У>%

 

 

yL = aLx + bL

(3.1)

(для

арабизмов

в

словаре) и

 

Уы = аых + Ьы

(3-2)

(для

арабизмов в

тексте);

здесь

у — доля

арабизмов;

х — вре-

мя,

начало

отсчета

которого

соответствует началу X в. (т. е.

900 г.); а

и

b — параметры за-

висимости.

 

 

 

 

 

50-

40-

50

20

10

Как известно, линейная зависимость рассматриваемого типа описывает равномерное движение некоторой материальной точки. Воспользовавшись физической аналогией, условим-

ся считать такой материальной точкой долю арабизмов, а пройденный точкой путь у — количественным ростом этой доли в процентах.

Предположим теперь, что к моменту времени х — 0 наша точка уже прошла путь у0, а в последующий момент времени х длина пути, пройденного точкой, равна у. Тогда расстояние, пройденное точкой за время х, равно разности у — у0, а скорость, согласно определению равномерного движения, выразится отношением

V = (У — Уо)!х.

(3.3)

Из равенства (3.3) нетрудно

получить следующее

выражение:

у =

vx + у0.

(3.4)

Соотношение (3.4) описывает закон равномерного движения и пред-

ставляет собой линейную

зависимость

относительно

х. При этом

v (скорость равномерного

движения)

есть величина

постоянная.

В нашем примере v характеризует темп диахронического процесса, точнее, скорость увеличения доли арабизмов в персидском словаре или тексте. В дальнейшем величину v будем называть диахронической скоростью.

3 Зак. 12 87—

6 5

Возьмем теперь некоторый момент времени хх. «Путь», пройденный долей арабизмов к моменту времени xit определим из выраже-

ния (3.4); он равен

У\ = VXi + уа.

Аналогично получим «путь», пройденный арабизмами к моменту

времени

х2:

Уг = vx2 +

у0-

 

 

 

 

 

 

Следовательно,

за отрезок

времени х2

— хх

«точка» пройдет «путь»

или

 

У2 — У\=

(vx-2 +

уи) — (vXi + уо),

 

 

Уг —

У1=*>

(*«— Xi),

 

откуда

 

 

получаем

 

 

 

 

 

 

 

(г/а — yi)/(x2

=

v.

(3.5)

Как

было

отмечено, «путь», пройденный

лингвистической

«точ-

кой» при равномерном диахроническом движении, есть функция от

времени, т. е. у = f (х). В нашем примере аргумент

последователь-

но принимает два значения: хг и х2. Разность хг хг

называется

приращением аргумента и

обозначается символом

Ах

(читается

«дельта *»):

 

 

 

Ах

= х2 xv

 

(3.6)

Разность значений функций, соответствующих значениям аргумента хх и дга, называется приращением функции и обозначается символом Ду:

АУ = f (xt) — f (*г) = У-i — у i-

(3.7)

На основании введенных понятий приращения аргумента и функции выражение (3.5) может быть записано в виде

^ = *

(3.8)

Ддс

 

Иными словами, скорость равномерного диахронического движения есть отношение приращения «пути» к соответствующему приращению времени.

Определим теперь числовые значения приращений аргумента (времени) и функции (доли арабизмов), а также скорости проникновения арабизмов в персидскую прозу.

На основании графика (см. рис. 28) составим таблицу теоретических значений долей арабизмов в словаре персидского литературного языка разных периодов. Условной единицей времени хусл будем считать промежуток в 50 лет, а величина у выражается в процентах.

Используя данные табл. 3.2, определим по формуле (3.8) среднюю скорость v в различные моменты времени х. Результаты приведены в табл. 3.3.

Нетрудно видеть, что диахроническая скорость проникновения арабизмов в персидскую прозу X—XII в. является постоянной величиной и составляет 6% за единицу времени (т. е. за 50 лет).

66

 

 

 

 

 

 

 

Т а б л и ц а

3.2

Т (ГОДЫ)

 

900

950

1000

1050

1100

1150

1200

 

 

 

 

 

 

 

 

*усл

 

0

1

2

3

4

5

6

 

 

 

 

 

 

 

 

у{%)

 

20

26

32

38

44

50

56

 

 

 

 

 

 

 

Т а б л и ц а

3.3

<

xi

 

 

*i+i-*i=AJt

 

 

у (*г>=Ду

Ах

1

0

20

 

1

 

 

6

6

2

1

26

 

1

 

 

6

6

3

3

32

 

1

 

 

6

6

4

3

38

 

1

 

 

6

6

5

4

44

 

1

 

 

6

6

2. История употребления местоимения hie в позднелатинеких памятниках. Мгновенная диахроническая скорость и понятие про-

изводной. Может показаться, что мы слишком усложнили дело, прибегая к сравнению приращения лингвистического «пути» с приращением времени. Гораздо проще было бы, определяя диахроническую скорость, поделить «путь», пройденный долей арабизмов, на время х. Однако рассмотренная задача решается подобным образом только в том случае, когда мы имеем дело с равномерно развивающимся лингвистическим процессом, который можно смоделировать при помощи линейной функции. Между тем историческому языкознанию и лингвистике речи приходится иметь дело с такими процессами, в которых лингвистическая скорость не является постоянной величиной. Рассмотрим, в частности, историю употребления латинского местоимения hie.

Судя по данным классической прозы и позднелатинским памятникам, латинское hie было наиболее вероятным претендентом среди других латинских местоимений на роль формировавшегося в то время романского артикля. Латинские памятники первых веков нашей эры показывают постепенное возрастание употребительности форм hie. Однако примерное IV в. этот процесс прекращается и употребительность hie идет на убыль. Это отступление отмечается и в латинских документах раннего средневековья, отражающих протороманскую речь. Имеющиеся статистические данные об употреблении hie [27, с. 12—15]; [32 в, с. 377—3811 хорошо аппроксимируются следующей формулой:

у = 23 — 0,75х* + 6х,

(3.9)

где у — доля употребительности hie в % среди других указательных местоимений, а х — время, измеряемое в условных единицах (каждая единица составляет столетие).

3*

67

Используя формулу (3.9), определим теоретическую долю употребительности hie в самом начале нашей эры («нулевой» Год), в 100-м, 200-м и т. д. годах н: э., а также увеличение этой доли за каждые 100 лет. Все эти данные показаны в табл. 3.4. На их основе построен график, изображенный на рис. 29.

 

 

 

 

 

Т а б л и ц а

3.4

i

-

*i

 

у <%>

' | + Г » 1 " [ с р ( е д '

**•)

0

(начало

н. э.)

23,00

5,25

 

1

 

(100

г.)

28,25

3,75

 

2

 

(200

г.)

32,00

2,25

 

3

 

(300

г.)

34,25

0,75

 

4

 

(400

г.)

35,00

—0,75

 

5

 

(500

г.)

34,25

— 2,25

 

6

 

(600

г.)

32,00

— 3,75

 

Из табл. 3.4 видно, что за каждую условную единицу времени (столетие) происходит увеличение доли употребительности hie

Годы

Рис. 29

в первую единицу времени (до 100 г. н. э) эта доля увеличилась на "5,25%, между 100-м и 200-м годами уже только на 3,75% и т. д, а после 400 г. вообще отмечается падение употребительности hie.

Прирост доли hie за 100 лет можно рассматривать как среднюю скорость (иор) нарастания роста его употребительности в течение нашей условной единицы времени (т. е. в столетие). Эта скорость не является постоянной величиной. Но если скорость роста употребительности hie, равная 5,25% в столетие в течение первого промежутка, упала до 3,75% в столетие в течение второго промежутка, то, следовательно, она менялась и внутри этих промежутков.

Очевидно, что если брать промежутки времени все меньшей и меньшей величины, то можно в конце концов прийти к мгновенной скорости. Определим мгновенную скорость нарастания употреби-

68

 

 

 

 

 

Т а б л и ц а 3.5

X

2

2,001

2,01

2,1

2 , 3

2 , 5

(200 г.)

(6.II 200 г.)

(201 г.)

(210 г.)

(230 г.)

(250 г.)

 

32

32,0030

32,0299

32,2925

32,8625

33,3125

тельности hie в самом начале 200-го г. н. э. Для этого, получив значения у для разных моментов времени в интервале от х = 2 до х — = 2,5 (см. табл. 3.5), с помощью выражения (3.9) будем вычислять с р е д н ю ю скорость для все более малых промежутков времени. В ито-

ге получим

следующие результаты:

 

 

 

 

 

 

от

2 до

2,5 имеем

 

33

3125

32

= 2,625%

в

столетие;

Уср = — :

0,5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

» 2 » 2 , 3

»

и с р =

3 2 ' 8 ^ 5 — 3 2

=

2 8 7 5 о / о

,

,

5

 

 

 

 

 

 

 

0,3

 

 

 

 

 

 

»

2

»

2.1

 

У с р =

 

=

 

 

2,925%

»

 

 

»

2

»

2,01

 

 

3 2 ' ° ^ ~ 3 2

=

2,990%

»

 

 

»

2

»

2,001

»

 

3 2 , 0 0 3 0 - 3 2

 

3,000%

»

>

 

 

 

 

 

 

CD

 

0,001

 

 

 

 

 

 

Из полученных данных видно, что чем меньше промежуток времени, тем ближе значение средней скорости к 3%. Короче говоря, можно утверждать, что мгновенная диахроническая скорость в момент х = 2 составляет 3% в столетие.

Теперь определим мгновенную скорость в момент х = 3 (см. табл. 3.6). Характер вычислений тот же, что и в предыдущем примере.

 

 

 

 

 

 

 

 

 

 

 

Т а б л и ц а

3 . 6

X

 

 

3

3,001

 

 

3,01

3,1

 

3,2

 

3,3

 

У(%)

 

 

34,25

34,2515

34,2649

34,3925

34,5200

34,6325

Таким

образом,

 

 

 

 

 

 

 

 

 

от

3

до

3,3

имеем

иср = 3 4 1 6 3 2 5 ~ 3 4 ' 2 5

=

1,275 %

в

столетие;

 

 

 

 

 

 

 

 

0,3

 

 

 

 

 

»

з

>

3,2

 

» • „ =

34,5200 - 3 4 , 2 5

 

, о , л о /

»

»

;

 

 

=1,350%

69