
Пиотровский
.pdfного интеллекта возникает необходимость формального описания внешних ситуаций, стимулирующих порождение текста. Для описания этих ситуаций используются как количественная, так и комбинаторная методика.
Что же касается моделирования непрерывных изменений языка во времени (диахроническая лингвистика), географическом пространстве (диалектология), а также в специально-профессиональном и художественном континууме (социолингвистика и стилистика), то целесообразно использовать понятия бесконечного множества, предельного перехода, непрерывности, т. е. понятия, составляющие основу математического анализа.
В области комбинаторной лингвистики наряду с фундаментальными исследованиями появилось уже немало работ типа учебных пособий, в которых систематизируются и популяризируются основные ее идеи [13]; [45]; [56]. В ином положении находится квантитативная лингвистика. Здесь можно указать лишь несколько книг и сборников, в которых исследуются или описываются отдельные вопросы приложения математического анализа, теории вероятностей и статистики в языкознании — см. [4]; [6]; [7]; [15].
Однако систематического изложения основных идей квантитативной лингвистики до сих пор нет. Предлагаемая читателю книга имеет своей целью восполнить этот пробел.
В первой части книги рассматриваются элементы математического анализа и их лингвистические приложения. С помощью этого аппарата строятся математические модели, описывающие: изменение лингвистических объектов во времени (гл. 1—4); распределение информации в письменном тексте (гл. 1, 2, 4), акустическую структуру устной речи (гл. 1).
Во второй части к лингвистическому материалу прилагается аппарат комбинаторики, теории вероятностей и математической статистики. Эта методика используется для: измерения смысловой информации слов и избыточности текста (гл. 5); описания функций распределения в тексте слогов, слов, словосочетаний и грамматических классов (гл. 6); построения статистических моделей текста и вероятностных характеристик норм языка (гл. 8, 9).
Математический аппарат, необходимый для построения всех этих моделей, чаще всего дается в виде определений без строгих математических доказательств, которые читатель всегда может найти в вузовских учебниках и пособиях по математическому анализу [28], теории вероятностей [10]; [14]; математической статистике [30]; [36] и лингво-статистике [6], [7].
Авторы приносят благодарность рецензентам проф. Б. Н. Головину и проф. А. С. Длину, а также доц. П. М. Алексееву и канд. техн. наук К. А. Разживину, замечания которых способствовали улучшению книги. Авторы благодарны В. В. Колесниковой, С. А. Моисеевой, П. В. Садчиковой и коллегам по группе «Статистика речи» за помощь при подготовке рукописи к печати. Кроме того, авторы выражают признательность редактору А. М. Суходскому, проделавшему большую работу по редактированию книги.
ЧАСТЬ ПЕРВАЯ
ИССЛЕДОВАНИЕ ЛИНГВИСТИЧЕСКИХ ПРОЦЕССОВ МЕТОДАМИ КВАНТИТАТИВНОЙ ЛИНГВИСТИКИ
ГЛАВА 1
ИСХОДНЫЕ ПОНЯТИЯ КВАНТИТАТИВНОЙ |
ЛИНГВИСТИКИ |
||
§ |
1. М н о ж е с т в о лингвистических |
объектов |
|
1. Понятие множества. Одно из основных понятий современной |
|||
математики — понятие множества. Оно является |
первичным, т. е. |
||
не поддается |
определению через другие, более |
простые понятия. |
С понятием множества мы встречаемся довольно часто: буквы русского алфавита образуют множество, то же можно сказать о словоупотреблениях*, содержащихся в данном предложении, на данной странице и т. д.
Приведенные примеры обладают одним существенным свойством: все эти множества состоят из определенного конечного числа объектов, которые мы будем называть элементами множества. При этом каждый из объектов данного вида либо принадлежит, либо не принадлежит рассматриваемому множеству. Так, например, буква ф вне всякого сомнения принадлежит множеству букв, образующих русский алфавит, в то время как буква / этому множеству не принадлежит. Множества, включающие только такие объекты, принадлежность или непринадлежность которых к тому или иному множеству не вызывает сомнения, называются четкими множествами. Поскольку каждый рассматриваемый объект либо принадлежит, либо не принадлежит к рассматриваемому четкому множеству, эти множества всегда имеют ясно очерченные границы.
* В дальнейшем мы будем различать |
следующие лексикологические |
|||
понятия: |
с л о в о у п о т р е б л е н и е , |
ф о р м а |
с л о в а |
( с л о в о - |
ф о р м а ) , |
с л о в о , а также и с х о д н а я ф о р м а |
с л о в а . |
Под слово- |
употреблением понимается цепочка букв, заключенная между двумя пробела-
ми в тексте и имеющая одно значение |
(омонимические |
словоупотребления |
|||||
рассматриваются как различные). |
Полностью совпадающие словоупотребле- |
||||||
ния представляют |
одну |
словоформу. |
Слово выступает как |
некоторый |
класс |
||
(сумма) семантически и |
грамматически |
связанных между |
собой словоформ. |
||||
Словоупотребление |
является единицей |
текста, |
слово — единицей двуязыч- |
||||
ного, толкового, энциклопедического и т. д. словаря. В этих словарях |
слово |
||||||
представлено в так называемой исходной |
форме, |
в качестве которой в русском |
языке выступает обычно именительный падеж единственного числа — для игменных форм и инфинитив — для глагольных форм. Что же касается словоформы, то она используется обычно в качестве единицы частотного словаря.
11
Четким множествам противопоставлены нечеткие или «лингвистические» множества, включающие такие объекты, которые могут быть отнесены к тому или иному множеству лишь с определенной степенью достоверности. Понятие нечеткого множества проиллюстрируем на примере семантических полей прилагательных младенческий, детский, отроческий, юношеский, молодой, среднего возраста, старый [26, с. 210].
Чтобы определить границы семантических полей указанных слов и словосочетаний, произведем следующий эксперимент.
Предложим большой группе испытуемых — носителей русского языка относить к той или иной возрастной группе мужчин различного возраста. При этом выясняется, что интервал от 10 до 14 лет
Сценка дсстоВерносщи |
|
|
|
|
|
|
||||
|
mm |
|
|
|
Ш |
Щ |
Щ |
|
1 |
1 |
|
ш |
|
|
|
|
|||||
|
|
|
|
M |
—гi |
* |
|
|
||
|
Ш |
8 |
12 |
16 |
|
|
||||
|
4 |
28 |
32 |
36 «0 М 48 |
|
|||||
Рис. 3. |
Вероятностно-семантические |
поля |
русских |
|
||||||
прилагательных |
(н |
адъективальных |
словосочетаний) |
|
||||||
младенческий |
(1), детский (2), |
отроческий |
(<?), |
юно- |
|
|||||
шеский |
(4), |
молодой |
(5), |
среднего возраста |
(6), |
ста- |
|
|||
|
|
|
рый |
(старческий) |
(7) |
|
|
|
|
одними испытуемыми будет квалифицироваться как детский, а другими — как отроческий возраст. Аналогичным образом период от 17 до 23 лет может считаться либо как юношеский, либо как относящийся к молодому возрасту.
Если нанести результаты этого эксперимента на график, где на оси абсцисс отмечать конкретный возраст, а на оси ординат — процент достоверности его отнесения к той или иной понятийной области, то -мы получим картину распределения семантических полей указанных терминов. При этом выясняется, что каждое из рассмотренных семантических полей представляет собой нечеткое подмножество с размытыми краями (рис. 3).
Объекты, попадающие на эти размытые края, относятся к указанным множествам лишь с известной долей достоверности. Так, например, двадцатилетний мужчина может быть с достоверностью
50% отнесен |
к множеству юношей, и с той же достоверностью — |
к множеству |
молодых людей. |
Аппарат нечетких множеств начинает применяться для описания процессов мышления, лингвистических явлений и вообще для моделирования человеческого поведения, при котором допускаются частичные истины, а строгий математический формализм не является чем-то категорически необходимым [65, с. 6—12].
12
Множества, которые состоят из конечного числа элементов, называются конечными множествами.
К числу конечных множеств относится также и пустое множество, т. е. множество, не содержащее ни одного элемента. Введение понятия пустого множества связано с тем, что, определяя тем или иным способом множество, мы не можем знать заранее, содержит ли оно хотя бы один элемент. Например, множество двухбуквенных комбинаций чы, бй, оъ, можно считать пустым, если иметь в виду только русские тексты, написанные на литературном языке и не содержащие опечаток*.
Лингвистика чаще всего имеет дело с конечными множествами объектов. Однако приходится рассматривать и бесконечные' множества. Например, бесконечным является множество всех словоупотреблений в текстах данного языка при условии, что этот язык беспрерывно порождает и будет порождать новые тексты без какоголибо ограничения во времени.
2. Способы задания множества. Существуют два различных способа задания множества. Можно дать полный перечень элементов этого множества. Этот способ называется перечислением множества. Элементы перечисляемого множества заключают обычно в фигурные скобки**. Например, множество А, состоящее из букв русского алфавита, вместе с пробелом (его обозначают знаком А) запишется так:
А = {а, б, в, ..., ю, я, Д}.
Другой способ состоит в том, что задается правило для определения того, принадлежит или не принадлежит любой данный объект рассматриваемому множеству. Этот способ называют описанием множества. При описании множеств используются различные символы, операции. Если А есть некоторое множество, а х — входящий в него объект, то символическая запись х £ А означает, что х является элементом множества А\ при этом говорят: «с входит в А»,
*х принадлежит А» (рис. 4, а). |
х £ А |
|
Если х не принадлежит множеству А, то пишут |
(за- |
|
штрихованная область на рис. 4, б). Пусть, например, |
А есть |
мно- |
жество букв русского алфавита, а л — буква этого алфавита; |
так |
|
как буква I в русский алфавит не входит, то можно записать л |
£ А, |
IIА.
*Однако этого нельзя утверждать с полной уверенностью относительно любого русского текста, поскольку этн комбинации могут появиться в записях диалектной речи, а также в результате орфографических ошибок или опечаток, например чысто вместо чисто, оъ вместо об. Кроме того, такие комбинации букв могут быть использованы в качестве каких-то условных обозначений, например, как обозначение серии перед номерами документов или денежных знаков. Поэтому множество двухбуквенных комбинаций чы, ба, оъ применительно к любому русскому тексту целесообразно рассматривать как нечеткое множество.
**Множества звуков, так же как н отдельные звуки, мы будем обозна-
чать квадратными скобками [ |
], а множества фонем и отдельные фонемы — |
||
косыми скобками |
/ /. Для обозначения звуков |
и фонем используются знаки |
|
международной |
фонетической |
транскрипции [5. |
с. 475]. |
13
В том случае, когда речь-идет о нечетком множестве, указывается степень достоверности, с которой х принадлежит множеству А. Это выражается записью Р (х £ Л). Например, пусть А — множество юношей, а х обозначает двадцатилетнего мужчину; тогда, исходя из приведенных выше рассуждений, можно записать 0,5 (х £ А).
Если имеются два множества А а В, причем каждый элемент множества А принадлежит множеству В, то множество А называется частью (или подмножеством) множества В. Записывается это так: А а В или В zd А. Соотношение, выраженное знаком с:, называется включением (рис. 4, в).
Операцию включения можно проиллюстрировать на следующем лингвистическом примере. Русские [и] и [о], образующие множество
огубленных |
(лабиализованных) гласных, принадлежат множест- |
||||
|
т |
т т |
|
•в) |
|
|
| |
А ¥ |
К |
|
|
©Оа) |
б) |
|
Г) |
||
ш |
|
® |
|
GD |
SD |
д) |
|
е) |
|
ж) |
з) |
|
|
|
Рис. 4 |
|
|
ву гласных |
звуков. |
Таким |
образом, множество лабиализованных |
гласных следует рассматривать как подмножество, включенное во множество гласных звуков.
3. Основные операции над множествами. Основными операциями, осуществляемыми над множествами, являются сложение (объединение), умножение (пересечение) и вычитание. Эти операции, как мы увидим дальше, не тождественны одноименным операциям, производимым над числами.
'Объединением (или суммой) двух множеств называется множество, содержащее все такие и только такие элементы, которые являются элементами хотя бы одного из этих множеств (сумма множеств обозначается знаком (J или + ) . Это определение означает, что сложение множеств А и В есть объединение всех их элементов в одно множество А + В или А \] В (рис. 4, г). Если одни и те же элементы содержатся в обоих множествах, то в сумму А + В эти элементы входят только по одному разу (рис. 4, 5). Так, если множе-
ство губных казахских согласных |
[р, b, ш, wl есть А, а множество |
||
сонорных согласных [ш, n, n, w, |
1, г, |
j] есть В, то сумма А |
В |
состоит из элементов [р, b, m, n, |
n, w, |
1, г, j]. Число элементов во |
множестве А + В равно 9, а не 11, как это имело бы место при сложении чисел.
14
Сложение множеств, как и сложение чисел, обладает свойствами к о м м у т а т и в н о с т и : Л + В — В + Л, и а с с о ц и а -
т и в н о с т и: (А -+- В) + С = А |
+ (В + С), что легко проверить |
на примере множества казахских |
согласных. |
Кроме того, сложение множеств обладает еще и такими свойствами, которые неприсущи сложению чисел; например, если А с: В, то А + В — В. Действительно, если множество всех звонких согласных принять за Л, а множество шумных согласных — за В, то сумма множеств А и Б равна В, т. е. множеству шумных согласных. Всякое множество есть часть самого себя, т. е. Л с: Л. Пустое множество есть часть всякого множества Л.
Два множества Л и В считаются равными (Л = В), если они состоят из одних и тех же элементов, т. е. каждый элемент множества
Л является |
элементом |
множества В, |
и наоборот. Иначе говоря, |
|||
Л а: В |
и В cz |
А (рис. |
4, е). Например, сравнивая множество Л, |
|||
состоящее из словоформ |
бы, вас, вам, |
вами, с множеством В, |
вклю- |
|||
чающим формы склонения местоимения вы, убеждаемся, что A |
cz В |
|||||
и В гэ |
А, т |
е |
что оба |
множества равны. |
|
Неравенство множеств А и В (Л Ф В) указывает на то, что, по крайней мере, в одном из этих множеств есть такой элемент, которого нет в другом множестве. Например, множество ударных гласных звукотипов (фонем) по классификации Л. В. Щербы [40] не равно множеству тех же звукотипов (фонем) в классификационной схеме Р. И. Аванесова [11; [2]. Легко заметить, что первое множе-
ство [а, е, i, о |
и, ы] |
содержит |
элемент [ы], которого нет во втором |
|||||
множестве {а, е, i, о, и]*. |
|
|
и В (обозна- |
|||||
Пересечением (ИЛИ умножением) двух множеств Л |
||||||||
чается |
А П В |
или |
А В) |
называется |
множество тех элементов, |
ко- |
||
торые |
принадлежат |
и к |
Л, и |
к В |
(заштрихованная |
область |
на |
рис. 4, ж) Если мы обозначим множество ртовых чистых твердых смычных согласных (р, b, t, d, k, g] в русском языке через В, а множество заднеязычных твердых звуков [k, g, х] через Л, то пере-
сечение этих множеств АВ |
или А |
(] В даст множество согласных |
||
Ik, gl . |
|
|
|
|
Операция пересечения |
множеств |
обладает |
свойствами: |
|
1) к о м м у т а т и в н о с т и : |
АВ |
= ВА\ |
|
|
2) а с с о ц и а т и в н о с т и : |
(ЛВ) С = Л |
(ВС); |
3) д и с т р и б у т и в н о с т и : (Л + В) С = АС + ВС. Пересечение множеств обладает также такими свойствами, каких операция умножения чисел не имеет: например, если Л с: В, то А В = А (см. рис. 4, в), в частности, Л Л = Л. Эти свойства легко проверяются на 'множестве твердых смычных согласных.
В действительности мы имеем здесь дело с разными разбиениями (группировками) одного и того же множества конкретных звуков — разбиениями, определяемыми разными фонологическими позициями ленинградской (Л. В. Щерба) и московской (Р. И. Аванесов) школ. Фонологическая позиция авторов настоящей работы изложена в [24].
15
Разностью двух множеств А и В называется множество всех таких элементов множества А, которые не содержатся во множестве
В. Разность множеств обозначается А — В или А\В |
(рис. 4, з). |
|
Определение вычитания не требует, чтобы A cz В. Если жеЛ |
с |
|
с: В, то разность В — А называется дополнением к |
множеству |
А |
во множестве В (см. рис. 4, в). Нетрудно видеть, что разность только что рассмотренных множеств согласных составляет
В \ А = [р, b, t, d].
Более сложное применение указанных операций для определения лингвистических понятий «язык», «диалект», «поддиалект», «го- Еор», «подговор» см. в работе [251.
4. Упорядочение множества лингвистических объектов. В предыдущем параграфе мы рассматривали множества, не задаваясь вопросом о порядке расположения составляющих их лингвистических единиц. Однако порядок расположения единиц в том или ином лингвистическом множестве имеет принципиальное значение. Так, например, в толковых, энциклопедических словарях и разного вида справочниках слова расположены по алфавиту; размещение лексических единиц в другом порядке, например по убыванию частот, в корне меняет организацию этих множеств и их лингвистические приложения.
Рассматривая порядок размещения элементов внутри разного вида лингвистических множеств, мы приходим к понятию упорядоченного множества. Это понятие можно определить следующим образом: множество А называется упорядоченным, если для любых двух элементов один считается предшествующим другому.
Относительно любых элементов alt аг, а3 множества А это правило удовлетворяет следующим условиям: 1) если ах предшествует а2, то а2 не предшествует аг ( а с и м м е т р и ч н о с т ь ) ; 2) если Й! предшествует а2 и а2 предшествует а3, то и аг предшествует а3 ( т р а н з и т и в н о с т ь ) .
Одно и то же множество можно упорядочить многими различными способами — ср. в этом смысле разные построения словарей. Вместе с тем не для каждого множества удается задать конкретный и эффективный закон упорядочения. Например, неясно, как можно упорядочить множество значений всех слов или словосочетаний в произведениях Шекспира или Льва Толстого.
§2. Действительные числа
1.Понятие числа. Квантитативная лингвистика, исследующая количественную сторону языка и речи, постоянно оперирует не только понятием множества, но также и другим основным понятием математики — понятием числа.
Понятие числа выводится из понятий величины и измерения. Основное свойство величины состоит в том, что она может быть сопоставлена с другой определенной величиной того же класса, кото-
1 А
рая выступает в роли -единицы меры. Сам процесс сопоставления первой величины с единицей меры и называется измерением. В итоге измерения мы получаем некоторое число, которое выражает отношение рассматриваемой величины к величине, принятой за единицу меры.
Если измеряемая величина соизмерима с единицей меры, то отношение между этой величиной и единицей меры выражается рациональным числом. К множеству рациональных чисел относятся числа целые и дробные (и те, и другие могут быть положительными и отрицательными), а также число нуль. Для лингвистов, разумеется, наиболее привычным является понятие целого положительного (натурального) числа: в каждом слове имеется целое положительное число букв, а в каждом предложении — целое положительное число слов и т. п. Упорядоченное множество целых положительных чисел 1, 2, 3, 4, ..., п составляет натуральный ряд чисел. Однако запаса одних лишь натуральных чисел оказывается недоста-
'точным для квантитативных измерений текста. Так, например, для измерения средней встречаемости той или иной грамматической, лексической, фонологической единицы используются дробные числа.
•В некоторых зависимостях, описывающих лингвистические явления и процессы, используются отрицательные величины.
Если квантитативное языкознание ограничивало бы свои измерения четырьмя действиями элементарной математики, то запаса рациональных чисел было бы здесь вполне достаточно. Однако в лингвистике приходится решать задачи, которые требуют использования более сложных действий, например логарифмирования, извлечения корня. Бывает, что решение таких задач оказывается невозможным во множестве рациональных чисел. Так, например, располагая одними рациональными числами, мы не могли бы решить такое использующееся при исследовании информационного веса лингвистических единиц простейшее уравнение, с помощью которого оценивается нулевая энтропия английского алфавита:
Н0 = Iog2 27.
Действительно, среди рациональных чисел нельзя найти такое, которое будучи степенью числа 2, давало бы 27. Этим числом оказывается иррациональное число, которое изображается бесконечной десятичной дробью: Ioga"27 = 4,7548... .
Запаса действительных (т. е. рациональных и иррациональных) чисел вполне достаточно для решения основных задач квантитативной лингвистики.
2. Множество действительных чисел. Все элементы множества действительных чисел — положительные и отрицательные (как рациональные, так и иррациональные, равно как целые и дробные), а также число нуль — упорядочены по величине. Это значит, что все эти числа связаны соотношениями взаимного расположения «равно» (=), «больше» (>), «меньше» (<). При этом для двух произвольных действительных чисел а и b имеет место одно и только
17
одно из трех соотношений* а = Ъ, a>b, a<Lb. Короче говоря, два числа или два составленных из этих чисел выражения могут быть связаны отношениями равенства или неравенства.
Из курса средней школы известно, что каждому действительному числу соответствует определенная точка числовой осп, поэтому только что указанные алгебраические отношения можно перевести на язык геометрии. Так, например, записи а = Ь эквивалентно предложение «точка а совпадает с точкой &», выражению а > b соответствует высказывание «точка а лежит правее точки Ь, а вместо а<Ь говорят: «а лежит левее 6». Отсюда следует, что в тех случаях, когда между двумя лингвистическими элементами существуют отношения равенства и неравенства, они могут быть представлены не только алгебраически, но и геометрически.
§3. Лингвистическое явление как математическая величина
1.Математическая величина. При изучении количественных закономерностей языка приходится встречаться с такими лингвистическими явлениями, как употребительность слова или словосочетания и их порядок в частотном списке [3], длина звука, длина буквосочетания, информационный вес слога, морфемы или слова [23, с. 79—89], степень аналитичности языка [26, с. 1901
Если такое лингвистическое явление может быть выражено в виде числа, то его можно рассматривать в качестве математической величины.
2.Переменные и постоянные величины. Величина, которая при данном исследовании принимает различные значения, называется переменной, а величина, сохраняющая одно и то же значение,— постоянной {константой). Величины, которые в любых условиях
сохраняют одно и то же числовое значение — так |
называемые об- |
||||||||||||||||
|
* |
Символы |
« > » « < » выражают так |
называемые |
строгие |
неравенства. |
|||||||||||
Кроме того, теория неравенств оперирует отношениями нестрогого |
неравенст- |
||||||||||||||||
ва а |
> |
Ь («а не меньше b», т. е. «а больше или равно й») и а |
< |
b («а не больше 6», |
|||||||||||||
т. е. «а меньше |
или равно 6»). В дальнейшем нам придется |
иметь дело со сле- |
|||||||||||||||
дующими |
свойствами: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
1) н е о б р а т и м о с т ь ю |
н е р а в е н с т в |
|
— если а < |
Ь, |
го Ь > |
а, |
||||||||||
если |
же а |
> 6, |
то Ь < |
а; |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2) |
о б р а т и м о с т ь ю |
|
р а в е н с т в |
— если а = |
Ь, то b — а', |
|
||||||||||
|
3) |
т р а н з и т и в н о с т ь ю |
н е р а в е н с т в |
и р а в е н с т в — |
|||||||||||||
если |
а < b |
и b |
< с, то а < с; |
аналогично, |
если а |
= |
b и b = с, |
то а = с', |
|
||||||||
|
4) |
м о н о т о н н о с т ь ю |
|
с л о ж е н и я |
н е р а в е н с т в |
и р а - |
|||||||||||
в е н с т в |
— если а < |
Ь, а |
с — любое |
действительное |
число, |
то |
а + с |
< |
|||||||||
< b + с; |
аналогично, |
если |
а |
= |
Ь, то а |
+ |
с = b |
+ |
с. Отсюда |
следует, |
что |
если к обеим частям неравенства прибавить любое действительное число, то
получится новое неравенство того же смысла, т. е. любой |
член |
неравенства |
||||||||||
можно |
перенести |
из одной |
части |
в другую |
с противоположным |
знаком. |
Так, |
|||||
если |
имеется |
неравенство |
а < |
b + с, то, |
прибавив к обеим его частям |
—с, |
||||||
получим а — с < |
6; |
|
|
|
|
|
|
|
|
|||
|
5) м о н о т о н н о с т ь ю |
|
у м н о ж е н и я |
н е р а в е н с т в |
— |
|||||||
если |
а |
> b и с > |
0, то ас |
> be, |
если а > |
b и с < |
0, то ас < |
Ьс\ |
иными слова- |
|||
ми, |
при |
умножении |
( или |
делении) |
обеих частей неравенства |
на |
отрицатель• |
|||||
ную |
величину |
знак |
неравенства |
|
меняется |
на |
противоположный. |
|
18
солютные постоянные (например, отношение длины круга к диаметру, равное л = 3,14159...) —встречаются довольно редко. Чаще мы будем иметь дело с величинами, сохраняющими одно и то же значение только при данных условиях исследования. Эти величины называются параметрами.
Понятия постоянной и переменной величин в значительной степени условны. Одна и .та же величина может оказаться в одних условиях переменной, а в других — постоянной, и наоборот.
Рассмотрим, например, зависимость между частотой словоформы, которую она имеет в тексте длиной в N словоупотреблений, и ее номером в частотном словаре, составленном на основе данного текста. Эта зависимость выражается формулой (называемой обычно законом Эсту—Ципфа—Мандельброта), которая имеет следующий вид:
В этой зависимости Ft (частота словоформы) и i (номер ее в частотном словаре) выступают в качестве переменных величин, а величины N (длина иссдедованного текста), k (коэффициент относительной частоты наибопее частого слова), р (поправочный коэффициент частых слов) и у (коэффициент Лексического богатства текста) выступают в качестве параметров, сохраняющих постоянное числовое значение лишь для текста определенной длины, определенного стиля и тематики.
Зависимость Эсту—Ципфа—Мандельброта представляет собой весьма грубое приближение к истинной статистической структуре текста. Она более или менее удовлетворительно выполняется лишь для двух-трех тысяч наиболее частых словоформ.
Для описания статистически редких словоформ приходится оперировать другими зависимостями, в которых величины k и у вы-
ступают уже в качестве переменных, |
а р |
может |
рассматриваться |
в качестве некоторого параметра [3]; |
[26, |
с. 1061; |
[551. |
Переменная величина считается заданной, если указано множество значений, которое она может принимать. Это множество называется областью изменения переменной. Например, номер слова в списке может иметь только целочисленное значение, поэтому областью изменения переменной i в зависимости (1.1) является множество натуральных чисел.
Для обобщения некоторых формулировок и рассуждений бывает удобным рассматривать постоянную величину как частный случай переменной, у которой область изменения состоит из одного единственного числа. Так, например, в отдельных участках частотного списка область изменения величин k и у можно с известным допущением охарактеризовать одним числом Это дает нам право считать величины k и у постоянными для определенных участков списка.
Геометрически можно изобразить область изменения переменной в виде некоторого множества точек числовой оси. Постоянной ве-