
Пиотровский
.pdfиз частных совокупностей, которые в свою очередь могут рассматриваться как единицы совокупности.
Если статистическая совокупность объединяет все однородные лингвистические объекты, обладающие данным качественном или количественным признаком (признаками), то такую совокупность называют генеральной лингвистической совокупностью. Генеральная совокупность может содержать как конечное, так и бесконечное количество единиц. Если генеральная совокупность бесконечна или очень велика, то исследованию подвергается некоторая обозримая ее часть, называемая выборочной лингвистической совокупностью (выборкой).
Например, если признаком объекта является длина словоформы в пушкинском тексте, то в качестве генеральной совокупности выступают все тексты, написанные А. С. Пушкиным. Отдельные же произведения, например «Капитанская дочка», являются выборками, извлеченными из генеральной совокупности. Если, же исследуется распределение длин словоформ в русском литературном языке, то генеральной совокупностью служит сумма всех русских литературных текстов. Заметим, что если хронологические границы существования русского литературного языка не фиксированы, то число словоупотреблений (однородных объектов) здесь бесконечно. Произведения А. С. Пушкина в этом случае выступают в виде конечной выборочной лингвистической совокупности внутри бесконечной генеральной совокупности языковых объектов.
2. Методы организации статистического наблюдения над текстом. Успех каждого лингвистического исследования зависит от организации статистического наблюдения, которая предусматривает, во-первых, выбор лингвистического признака и установление единицы совокупности, во-вторых, определение способа наблюдения.
Само собой разумеется, что каждый количественный или качественный признак, применяемый для выделения единицы совокупности, должен иметь лингвистический смысл и отвечать задачам данного языковедческого исследования. Часто случается, что в лингвостатистике используются такие качественные критерии, при которых граница переходов от одного состояния к другому оказывается весьма неопределенной, например деление слов текста на знаменательные (полнозначные) и служебные.
Однако каким бы ни было основание для группировки — естественное или искусственное, определенное или неопределенное — конечное решение должно быть всегда строго фиксированным. Каждый лингвистический объект должен быть признан либо обладающим, либо не обладающим данным качественным признаком.
Статистическое |
наблюдение предусматривает |
с п л о ш н о е |
|
и в ы б о р о ч н о е |
обследование генеральной совокупности. Сплош- |
||
ное обследование |
используется в лингво-статистике |
тогда, |
когда, |
во-первых, генеральная совокупность хотя и велика, но все |
же обо- |
зрима, во-вторых, когда необходимо учесть все употребления интересующих нас языковых объектов, например слов. Такая ситуация имеет место при статистическом описании языка писателя (частот-
220
ные словари произведений А. С. Пушкина или трудов основоположника современной казахской литературы Абая Кунанбаева) и при исследовании языка отдельного художественного произведения (частотные словари романа Дж. Джойса «Уллис» или «Стихов о прекрасной даме» А. Блока) — см. [7, с. 10).
Обычно же генеральная совокупность настолько велика, что применить сплошное обследование оказывается невозможным даже при условии использования вычислительной техники. Поэтому здесь применяется лишь часть единиц генеральной совокупности. Такое наблюдение может быть осуществлено с помощью либо повторной, либо бесповторной выборки (см. гл. 6, § 1, п.1). И в том , и в другом случае имеется в виду перенос результатов наблюдения над частотной выборкой на всю генеральную совокупность. Этот перенос может быть осуществлен в том случае, если средняя величина признака и его относительная частота (доля) в выборочном наблюдении доста-
точно хорошо |
воспроизводит среднюю величину и долю признака |
в генеральной |
совокупности. |
Статистика предполагает следующие приемы выборочного наблюдения.
1. С л у ч а й н ы й о т б о р . Здесь выбор отдельных единиц осуществляется либо по жребию, путем подбрасывания монет или игральной кости й т. д., либо путем использования таблиц случайных чисел. При этом каждая единица совокупности имеет равную возможность попасть в выборку. Это обеспечивает достаточную близость средней выборочной величины к средней генеральной величине. Этот вид отбора ввиду его громоздкости сравнительно редко используется в лингвистике.
2. М е х а н и ч е с к и й о т б о р . Здесь единицы совокупности выбираются в определенном, формально установленном порядке. Например, желая исследовать распределение гласных, мы нумеруем все фонемы текста, после чего фиксируем присутствие или отсутствие гласной во всех фонемных позициях, номер которых кратен 10 (или 5, 3 и т . п.).
3. С е р и й н ы й о т б о р . В противоположность рассмотренным выше видам выборки, где отбор каждой единицы проводится в индивидуальном порядке, серийная выборка предполагает отбор сериями. Эти серии отбираются в случайном порядке, чаще бесповторным способом. Отобрав таким образом серии, исследователь проводит внутри их сплошное наблюдение (см. гл. 6, § 1).
4. Т и п и ч е с к и й о т б о р . Общий недостаток первых трех приемов выборочного обследования текста состоит в том, что они не учитывают смысловых и жанрово-стилистических своеобразий отдельных частей текста, выступающего в роли генеральной совокупности. Эти различия оказывают заметное воздействие на статистику знаков — в первую очередь слов, словоформ и словосочетаний. Так, например, относительные частоты существительного крепость, местоимения я и первого лица глаголов в «Капитанской дочке» значительно выше, чем во всем пушкинском тексте. Типический отбор предполагает предварительную разбивку генеральной совокуп-
221
ности по определенному признаку на однородные тематические группы, из которых затем случайным порядком выбираются интересующие нас лексические или грамматические единицы. При сопоставлении частотных словарей типическая выборка сочетается с серийным отбором. Количество серий, извлекаемых из каждой тематической группы, определяется удельным весом этой группы в генеральной совокупности.
§2. Вариационные ряды лингвистических признаков
1.Дискретные вариационные ряды. В ходе наблюдения мы получаем сведения о количественном или качественном изменении изучаемого признака относительно каждой единицы нашей совокупности. Так, например, для определения длины словоформы в казахских публицистических текстах взято подряд сто словоупотреблений из передовой статьи газеты «Казахстан мугалими» (26.Х. 1969 г.).
Врезультате получена следующая последовательность чисел, каждое из которых характеризует длину словоупотребления в буквах:
3, |
6, |
4, |
7, |
ю, |
13, |
6, |
8, |
4, |
4, |
6, |
9, |
ю, |
10, |
ь |
6, |
5, |
9, |
11, |
9, |
5, |
4, |
8, |
8, |
3, |
7, |
8, |
3, |
и, |
и, |
7, |
9, |
5, |
12, |
6, |
11, |
8, |
8, |
7, |
8, |
И, |
5, |
6, |
5, |
5, |
7, |
8, |
8, |
8, |
7, |
5. |
7, |
6, |
6. |
6, |
8, |
9, |
3, |
11, |
11, |
16, |
7, |
11, |
11, |
3, |
3, |
9, |
9, |
ю, |
3, |
5, |
13, |
12, |
6, |
8, |
6, |
6, |
3, |
7, |
4, |
9, |
3, |
12, |
И, |
6, |
14, |
6, |
10, |
16, |
8, |
9, |
8, |
7, |
9, |
4. |
5, |
3, |
10, |
8, |
3. |
Порядок следования чисел повторяет здесь последовательность словоупотреблений в тексте. Рассматривая приведенную в примере последовательность чисел, нетрудно заметить, что величина интересующего нас признака (длины словоформ) варьирует от одной единицы совокупности (словоупотребления) к другой. Задачей статистического наблюдения, в том числе и лингво-статистического,
является |
изучение вариации признака (варьирующего признака) |
в данной |
совокупности. |
Вернемся к рассмотрению примера. Как уже говорилось, роль варьирующего признака выполняет длина словоупотребления, причем для каждого из ста словоупотреблений этот признак принимает
свое значение (3, 6, 4 и т. д. букв). Возможные значения |
признака |
в статистике называются вариантами. Различия между |
варианта- |
ми могут быть как количественными (дискретными или непрерывными), так и качественными (см. ниже).
222
Если ранжировать варианты нашего признака, расположив их
по возрастанию, то получим такую последовательность длин сло-
воупотреблений:
3, |
3, |
3, |
3, |
3, |
3, |
3, |
3, |
3, |
3, |
3, |
4, |
4, |
4, |
4, |
4, |
4, |
5, |
5, |
5, |
5, |
5, |
5, |
5, |
5, |
5, |
5, |
6, |
6, |
6, |
6, |
6, |
6, |
6, |
6, |
6, |
6, |
6, |
6, |
6, |
6, |
7, |
7, |
7, |
7, |
7, |
7, |
7, |
7, |
7, |
7, |
7, |
8, |
8, |
8, |
8, |
8, |
8, |
8, |
8, |
8, |
8, |
8, |
8, |
8, |
8, |
9, |
9, |
9, |
9, |
9, |
9, |
9, |
9, |
9, |
|
ю, |
ю, |
ю, |
ю, |
10, |
10, |
11, |
11, |
11, |
11, |
11, |
11, |
11, |
11, |
11, |
11, |
12, |
12, |
12, |
13, |
13, |
14, |
16, |
16. |
Ранжирование может быть осуществлено не только по возрастанию, но и по убыванию значений признака.
Ранжированная запись всегда слишком длинна и громоздка. Компактнее и нагляднее представить варьирование признака в виде таблицы, в верхней строке которой указываются значения признака (варианты), а в нижней — число повторений данного значения. Полученная в результате такого вторичного упорядочения таблица называется вариационным рядом (рядом распределений или эмпирическим распределением признака).
Вариационный ряд длины казахских словоформ по тексту из газеты «Казахстан мугалими» показан в табл. 7.1.
|
|
|
|
|
|
|
|
|
|
|
|
|
Т а б л и ц а |
7.1 |
||
Длина |
словоформы |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
15 |
16 |
Всего |
Число повторе- |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ний |
словоформы |
11 |
6 |
10 |
14 |
11 |
|
10 |
6 |
10 |
3 |
2 |
1 |
0 |
2 |
100 |
данной |
длины |
14 |
Обычно признак обозначается большими буквами латинского
алфавита |
X, |
Y, |
..., |
а варианты — соответствующими строчными |
|||
б у к в а м и . . . , x h , |
УиУг, |
«/л. • |
число повторений вариант — |
||||
через пи |
п2, |
..., |
nh. Сумма всех вариант N |
равна в этом случае |
|||
|
|
|
|
|
|
|
k |
|
|
N = |
пг + пг + |
... + |
nh = |
Е/ц. |
|
|
|
|
|
|
|
|
/=i |
Общий вид вариационного ряда показан в табл. 7.2.
Т а б л в я а 7.2
ч |
•*2 |
... |
xh |
Всего |
«I |
яа |
• • • |
«А |
N |
223
Вариационные ряды, представленные в табл. 7.1 и 7.2, содержат
в нижней строке абсолютные частоты tit, |
однако вместо абсолютных |
||||
частот |
можно указывать относительные |
частоты (частости) ft =я |
|||
— ^ |
или даже |
проценты |
/у 100% |
(табл. |
7.3). |
|
|
|
|
|
Т а б л и ц а 7.3 |
|
Х\ |
*2 |
... |
Xh |
Всего |
|
h |
и |
... |
ы |
1 |
tv |
100% |
^а-100% |
... |
ffe-100% |
100% |
В только что рассмотренном примере мы имели сравнительно небольшое варьирование признака (всего 14 вариант). Однако часто приходится иметь дело с несколькими десятками и даже сотнями вариант. В этом случае вариационный ряд получается очень растянутым и поэтому плохо обозримым. Чтобы избежать этого неудобства, в верхней строке таблицы указываются не сами вначения признака, а интервалы, в которых находятся эти значения. В нижней строке указывается, сколько вариант падает на один интервал.
Например, при подсчете распределения существительных в 500 случайных выборках по 100 словоупотреблений каждая, взятых из немецких текстов по физической химии, получен слишком длинный вариационный ряд (см. табл. 7.4).
|
|
|
|
|
|
|
|
|
|
|
|
|
Т а б л и ц а |
7.4 |
|
||
X (количество |
суще- |
13 |
14 |
15 16 |
17 |
18 |
19 |
20 |
21 |
22 |
23 |
24 |
25 |
26 |
27 |
||
ствительных в |
одной |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
сотне |
словоупотреб- |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
лений |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
N (количество |
со- |
1 |
0 |
2 1 |
5 |
6 |
10 |
15 |
20 |
26 |
23 |
31 |
41 |
33 |
35 |
51 |
|
тен) |
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Продолжение |
табл. |
7.4 |
X (количество суще28 29 30 31 32 33 34 35 36 37 38 39 40 41 ствительных в одной
сотне словоупотреблений
Всего
N (количество |
со34 33 33 24 19 16 14 12 7 2 4 0 1 2 500 |
тен) |
|
АГк Л
Интервалы
вариант
Частоты щ
Интервалы
вариант
Частоты tii
|
|
|
|
|
|
|
|
|
|
Т а б л и ц а |
7 . 5 |
||
со ю |
г- о> |
(N |
СО ю |
г- |
о> |
СО |
СО |
ю |
36—37 38—39 |
о |
|||
Т т |
"7 "Г |
сч |
сч |
(N |
(N |
со |
СО |
||||||
ОМ (N |
<N |
<м |
<м |
СО |
м |
S |
М |
||||||
| |
1 |
1 |
I |
I |
1 |
1 1 |
|
|
& |
||||
1 1 1 |
1 . 1 1 |
1 |
1 |
1 1 |
el |
1 |
|
|
|||||
сч ч> |
<0 |
ОО |
О |
сч |
ч> |
СО |
ОО |
о |
|
|
|
и |
|
| 11»И |
25 |
46 |
54 |
74 |
86 j 671»| 35 | 26 |
9 |
4 |
500 |
|||||
|
|
|
|
|
|
|
|
|
|
Т а б л и ц а |
7.6 |
||
1 |
15—17 |
18—20 |
|
21—23 |
24—26 |
27—29 |
30—32 |
|
33—35 |
36—38 |
39—41 |
Всего |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
13 |
45 |
80 |
|
109 |
118 76 |
42 |
•3 |
• |
500 |
Чтобы сделать этот ряд более компактным и обозримым, берем интервалы, содержащие по два (табл. 7.5) и по три (табл. 7.6) значения признака. Наиболее наглядную картину распределения дает, очевидно, вторая таблица.
2. Непрерывные вариационные ряды. В лингвистике используются не только дискретные, но и непрерывные вариационные ряды. Эти последние используются, как правило, при исследовании фонетических явлений, поскольку здесь значения признака (например длина, частота, интенсивность звука) могут отличаться друг от друга на как угодно малую (бесконечно малую) величину. Поскольку различия между вариантами имеют непрерывный характер, в этом случае используется только интервальное построение вариационного ряда.
Рассмотрим следующий пример. В ходе исследования длины китайского слога произведено 150 замеров времени звучания слогов, произнесенных дикторами-китайцами, причем длины слогов колеблются от 40 до .300 мс [7, с. 22]. В итоге вторичного упорядочения этих данных получено три вариационных ряда (см. табл. 7.7—7.9).
Интервалы
вариант (длины слогов в мс)
Частоты гц
Интервалы
вариант (длины слогов в мс)
Частоты tii
1 |
1 |
о |
д |
о |
о |
о |
о |
||
о |
Q |
д |
00 |
|
ю |
<5 |
|
|
|
•ч< |
S |
со |
г- |
1об |
2 |
0 |
5 |
2 |
4 |
|
|
|
|
|
180--190 |
190- -200 |
200--210 |
210--220 |
220—230 |
|
6 |
10 |
|
|
|
|
|
|
|
Т а б л и ц а |
7 . 7 |
||
|
о |
8 |
|
8 |
5 |
3 |
s |
оо |
8 |
1 |
Д |
|
I |
I |
Д |
I |
|
&35 |
8 |
|
|
1 |
СО |
|
ю |
1 |
|
|
|
|
|
|
|
* * |
|
3 |
16 |131 20 |
9 |
"1 7 |
11 6 |
||||
|
|
|
Продолжение |
табл. |
7.7 |
|||
240- |
250- |
260- |
|
о |
280- |
290- |
300- |
о |
|
сч |
|||||||
|
|
|
|
с» |
|
|
|
|
|
|
|
|
1 |
|
|
|
и |
230- |
240- |
250- |
|
& |
270- |
280- |
290- |
CQ |
|
(М |
8 |
||||||
|
|
|||||||
1 |
0 |
1 |
|
|
0 |
1 0 |
I ] 150 |
8 Зак. 1287 |
225 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т а б л и ц а |
7 . 8 |
||
Интервалы |
о |
|
О |
О |
о |
о |
|
о |
о |
о |
о |
о |
о |
о |
о |
|
|
вариант |
|
О |
|
|
|
со |
00 |
о |
см |
см |
со |
00 |
о |
|
|||
(длины |
|
СО |
ОО |
1 |
1 |
1 |
|
1—1 |
1 |
см |
см |
см |
см |
СО |
|
||
|
I |
|
1 |
|
1 |
1 |
1 |
1 |
1 |
1 |
1 |
|
|||||
слогов |
в |
|
1 |
1 |
1 |
1 |
|
д |
1 |
1 |
1 |
|
1 |
1 |
|
||
О |
|
Q |
О |
о |
о |
|
о |
о |
о |
<N |
о |
о |
СЭ |
|
|||
мс) |
|
|
|
2 |
00 |
о |
см |
|
•«с |
СО |
00 |
о |
см |
со |
00 |
|
|
|
|
|
|
|
|
|
|
|
— 1 |
|
см |
см |
см |
СЧ |
|
||
Частоты |
ГЦ | |
2 |
| |
7 |
| 7 | |
29 | |
29 |
| |
24 | |
17 | |
11 | |
12 | |
7 | |
11 |
2 | |
1 | |
1 150 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т а б л и ц а |
7.9 |
||
Интервалы |
|
|
|
|
о |
|
о |
|
о |
§ |
о |
|
о |
|
о |
|
|
вариант |
|
|
|
о |
|
|
|
|
|
||||||||
о |
|
|
со |
|
2 |
|
OS |
ю |
00 |
|
со |
|
|||||
(длины |
|
|
|
о |
7 |
|
|
7 |
СМ |
(N |
сч |
|
о |
||||
слогов |
|
1 |
|
1 |
|
7 |
|
| |
|
|
1 |
|
1 |
||||
|
|
|
|
о |
|
о |
|
|
|
8 |
|
•6 |
8 |
||||
в мс) |
|
о |
|
|
о |
8 |
|
со |
|
со |
4 |
к |
|
|
оо |
||
|
|
|
|
t^ |
|
|
|
|
|
сч |
|
<м |
со |
||||
Частоты |
п; |
|
7 |
|
9 |
49 |
|
33 |
22 |
18 |
7 |
3 |
|
2 |
150 |
||
Накоплен- |
|
7 |
|
16 |
65 |
|
98 |
120 |
138 |
145 |
148 |
|
150 |
|
|||
ные часто- |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ты п* |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В общем случае непрерывный интервальный |
ряд задается |
так, |
|||||||||||||||
как это показано в табл. 7.10. |
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т а б л и ц а |
7.10 |
||
Значения |
признака |
X |
|
(*1. |
х г) |
|
|
(*2. |
*») |
... |
|
( х т |
*m+l) |
||||
Частоты |
|
|
|
|
|
"1 |
|
|
«г |
|
|
|
|
|
"m |
||
Частости |
|
|
|
|
|
к |
|
|
|
h |
|
... |
|
|
fm |
||
Здесь (хъ х2), |
(х2, |
Ха), |
..., |
(хт, |
хт+1) |
являются |
интервалами, на |
которые разбиты возможные значения признака. Введем понятие
интервальных |
разностей kx — x2 |
— xlt k2 |
= хз — х2, |
..., km = |
= х т + 1 — х т , |
характеризующих |
ширину |
интервалов. |
Если ин- |
тервалы имеют одинаковую ширину, то интервальные разности равны, т. е. kx = k2 = ... = km.
В тех случаях, когда вариационный ряд имеет разные по величине интервалы, целесообразно пользоваться понятием плотности распределения, представляющей собой частоту, приходящуюся на единицу величины интервала:
vf = щ/ki.
Вместо плотности интервала можно пользоваться также относи' тельной плотностью распределения
Фi = ft!ki-
rn
Желательно, чтобы длина интервала, а также его границы и середины были выражены целым или округленным числом. Так как все интервалы должны иметь одинаковую длину, то совершенно
очевидно, |
что |
начало первого интервала не обязательно |
долж го |
||
совпадать |
со |
значением |
минимальной |
варианты — таков, |
напри- |
мер, вариационный ряд, |
описывающий |
распределение существи- |
тельных в немецких технических текстах. Аналогичным образом, конец последнего интервала может и не совпадать со значением максимальной варианты, как это имеет, например, место в вариационных рядах, описывающих распределение длин китайских слогов. Вообще же при построении интервального ряда необходимо определять интервал настолько ясно, чтобы не оставалось никаких сомнений в отношении его границ и не мог бы возникнуть вопрос о том, к какой группе принадлежит та или другая варианта.
Не менее важным является вопрос об определении величины интервала при выборе количества интервалов. При уменьшении количества интервалов (соответственно при увеличении ширины интервала) общий вид распределения становится более наглядным (см. табл. 7.6—7.9), однако теряется информация о промежуточных вариациях признака внутри большого интервала. Эту информацию можно получить, сужая интервалы и увеличивая тем самым их число, но при этом таблица становится громоздкой и труднообозримой (см. табл. 7.7).
Выбор ширины интервала и их числа должен осуществляться таким образом, чтобы выделить характерные особенности распределения и сгладить случайные колебания. При решении этой задачи в лингво-статистике используются два приема.
Во-первых, ширина интервала может быть определена с помощью формулы Стерджесса [7, с. 24]
^ _ *тах — *mln |
/у |\ |
l + log2W |
|
При этом интервальная разность k округляется до ближайшего целого числа. Число же интервалов определяется из выражения
/ a = w - * m l a — 1 4- log2 N. |
(7.2) |
Если же минимальная и максимальная варианты оказываются за пределами полученных интервалов, то соответственно добавляются два интервала — один слева, другой справа.
Во-вторых, при определении числа и ширины интервалов можно пользоваться эмпирическими соответствиями, приведенными в табл. 7.11.
Используя формулы (7.1) и (7.2), а также данные табл. 7.11, проверим корректность нашего интуитивного построения вариационного ряда немецких существительных (см. габл. 7.5 и 7.6).
8* |
227 |
|
|
|
|
|
Т а б л и ц а 7.11 |
Количество вариант |
Число интервалов |
Количество вариант |
Число интервалов |
||
25— |
40 |
5 - |
6 |
100—200 |
8—12 |
40— |
60 |
6— |
8 |
более 200 |
10—15 |
6 0 - 1 0 0 |
7—10 |
|
|
Подставляя соответствующие |
значения |
в формулу |
(7.1), |
имеем |
|||
к - |
4 1 ~ 1 3 |
= |
2 8 |
»2,81; |
|
|
|
|
l + log 2 500 |
|
1 + 8 , 9 6 |
|
|
|
|
если округлить полученный |
результат до трех, оказывается, |
что он |
|||||
соответствует выбранной в табл. 7.6 ширине интервала. |
|
||||||
Число интервалов |
/ = |
1 + |
log2 500 « |
10 также |
соответствует |
количеству групп в табл. 7.6, которое оказывается, однако, заниженным по сравнению с рекомендацией табл. 7.11.
3. Порядковый признак у лингвистических единиц. В лингвистических исследованиях часто встречаются такие ситуации, когда дать точную количественную характеристику признака либо невозможно, либо нецелесообразно. В то же время условия эксперимента позволяют нам ранжировать варианты, т. е. расположить их в определенном порядке.
Например, при проведении эксперимента по индивидуальному угадыванию текста испытуемый не может назвать вероятности появления букв в той или иной позиции текста. Однако языковое чутье позволяет ему довольно точно указывать, какая буква является наиболее вероятной в данной позиции, а какие буквы по вероятности их появления стоят на втором, третьем и т. д. местах [23, с. 12—15, 44—47, 53—55].
Аналогичным образом при составлении частотных словарей, опирающихся на малые выборки, пользоваться абсолютными и относительными частотами отдельных слов и словосочетаний нецелесообразно, поскольку статистическая ошибка при определении этих частот слишком велика. В этих случаях рассматривается порядок (ранг) расположения отдельных словоформ или словосочетаний.
Ранжирование широко используется в лингво-психологических исследованиях. В частности, этот прием применяется при коллективном тестировании, причем в итоге выводятся «коллективный» ранг для вариант исследуемого признака.
Этот прием использован Р. М. Фрумкиной [7, с.27—28] при сравнении объективных (статистических) и субъективных (интуитивных) оценок вероятностей слов. В качестве экспериментального материала были взяты десять слов, ранжированных по убыванию их частот согласно данным «Частотного словаря современного русского языка» Э. А. Штейнфельдт [39]. Этим путем получено объективное (статистическое) ранжирование. Для определения субъективного
228
ранжирования указанные слова были переданы десяти преподавателям русского языка, каждый из которых должен был, опираясь на свою лингвистическую интуицию, ранжировать эти слова по убыванию их вероятности.. Индивидуальные ранги суммировались по отдельным словам. Каждая сумма рассматривалась как число баллов, количественно характеризующее соответствующее слово. Затем производилось вторичное ранжирование по возрастанию количества баллов. Слову, набравшему наименьшую сумму баллов, приписывался ранг 1; слову, имеющему следующую по величине сумму, был дан ранг 2 и т. д. Ход обработки результатов эксперимента показан в табл. 7.12.
Т а б л и ц а 7.12
Ранговое сравнение субъективных и статистических оценок вероятностей слов
Слова
Испытуемые
1 2 |
3 |
4 |
5 |
в |
7 |
s |
9 |
|
«. |
|
1S |
10 |
Сумма |
|
Ag
Ч О ч я
гов, прежевныхтуемым
С9 |
& 5=S |
||
0> Й |
|||
се |
|
||
О " й |
< •И4 о, |
||
о |
2-& |
||
с я а. |
с д а |
||
t* 01 |
|||
ь а и |
и |
в |
|
я >» stf |
-S я <о |
||
о . « л |
И й |
Сказать |
4 |
2 |
1 |
3 |
2 |
3 |
3 |
1 |
4 |
1 |
2 4 |
2 |
1 |
Работа |
1 |
1 |
2 |
1 |
1 |
2 |
1 |
2 |
2 |
4 |
17 |
1 |
2 |
Хорошо |
2 |
4 |
4 |
2 |
3 |
1 |
2 |
4 |
3 |
2 |
27 |
3 |
3 |
Лицо |
3 |
8 |
8 |
5 |
5 |
5 |
4 |
6 |
8 |
6 |
58 |
5 |
4 |
Друг |
5 |
5 |
3 |
4 |
4 |
6 |
8 |
3 |
1 |
8 |
47 |
4 |
5 |
Длинный |
6 |
3 |
5 |
7 |
7 |
8 |
7 |
5 |
7 |
5 |
60 |
6 |
6 |
Характер |
7 |
6 |
6 |
10 |
6 |
4 |
5 |
8 |
5 |
3 |
60 |
7 |
7 |
Сигнал |
10 |
10 |
9 |
6 |
10 |
10 |
10 |
10 |
6 |
10 |
91 |
10 |
8 |
Неизвестный |
8 |
9 |
10 |
8 |
8 |
9 |
9 |
9 |
9 |
7 |
86 |
9 |
9 |
Энергичный |
9 |
7 |
7 |
9 |
9 |
7 |
6 |
7 |
10 |
9 |
80 |
8 |
10 |
Мы не будем сейчас рассматривать вопрос о степени близости объективного и субъективного ранжирования, а обратим внимание читателя на то, что два слова — длинный и характер — получили одинаковое количество баллов. Эта ситуация встречается довольно часто при построении вариационных рядов. Примером могут служить частотные словари, в которых большие массивы редких словоформ имеют одинаковые частоты [33, с. 376—567]. В этом случае упорядочение происходит либо по какому-либо качественному признаку, например по алфавитному, либо обеим вариантам приписывается одинаковый ранг, представляющий собой среднее арифметическое порядковых номеров, либо ранг первой варианты в группе наших вариант.
4. Качественный признак у лингвистических единиц. Качественными признаками группировки вариант являются такие признаки, которые не содержат ни количественной оценки вариант, ни возможности их ранжирования. Примером может служить группировка словоформ по семантическим или грамматическим классам, или расположение фонем, исходя из иерархии дифференциальных
229