
Пиотровский
.pdf5. Определение достаточности объема выборки по заданной покрываемости текста. Первая задача, с которой сталкивается лингвист, приступающий к составлению частотного списка букв, звуков, фонем, слогов, морфем, слов, словоформ, словосочетаний или грамматических форм,—это, как уже говорилось, определение минимально достаточного объема текста.
Существуют различные подходы к решению этой задачи. Иногда требование достаточности заменяется «критерием» осуществимости: в этом случае определяется такой объем выборки, который можно произвести в отведенный для этого срок.
При определении длины обследуемого текста можно исходить из требования, согласно которому в частотный список попала бы заранее заданная доля разных слов (соответственно букв, слогов и т. д.), образующих данный текст.
Однако чаще всего объем выборки определяется исходя из требовайий к покрываемости наугад взятого текста наиболее частыми единицами составляемого списка. При этом предполагается, что частоты и частости этих единиц будут достоверными, т. е. определены в пределах допустимой относительной ошибки и с заданной надежностью. Чтобы решить эту задачу, необходимо сначала выяснить, чему равна частость той единицы частотного списка, которая выступает в качестве нижней границы массива, дающего заданную покрываемость текста. Будем обозначать эту относительную частоту термином граничная частость (/,.р). Если в частотном списке указываются относительные накопленные частоты отдельных единиц, то граничная частость находится на той накопленной частоте, которая соответствует заданной покрываемости текста (fc)-.
При определении объема выборки, обеспечивающей заданную покрываемость текста, кроме величин frp и fc, приходится учитывать также относительную ощибку 6 и надежность р. Если фикси-
ровать для /гр относительную ошибку бт а х , то для частостей /г |
> |
|||||||||
> /Гр |
имеет |
место неравенство бг < |
бшах. Таким образом, можно |
|||||||
утверждать, |
что для |
массива единиц |
частотного |
списка, |
обладаю- |
|||||
щего |
покрываемостью |
С, относительная ошибка |
частости |
не пре- |
||||||
восходит заданной |
величины б т а х . Итак, задав относительную ошиб- |
|||||||||
ку бтах. надежность V и соответствующую ей величину |
Zp, а также |
|||||||||
определив опытным путем по покрываемости C = fc • 1Р0% |
гранич- |
|||||||||
ную частость /гр, |
мы можем согласно |
формуле |
(8.66) |
вычислить |
||||||
минимально |
необходимый |
объем выборки; в тех случаях, когда |
/гр |
|||||||
очень |
мало, он равен |
|
|
|
|
|
|
|
||
|
|
|
|
|
. Д |
• |
|
|
(8.63) |
|
|
|
|
|
|
°гпах |
' г р |
|
|
|
|
Для тех случаев |
когда /гр |
заметно отличается от нуля, |
исходя |
из |
||||||
(8.58), |
получаем |
|
|
г! (1 —/гр) |
|
|
|
|
||
|
|
|
|
|
|
|
(8.64) |
|||
|
|
|
|
N(C) = -L—-L-. |
|
|
"max I-гр
Проиллюстрируем описанную процедуру двумя примерами.
300
1. Пусть необходимо определить минимальный объем казахского текста для получения достоверных статистических данных относительно массива наиболее частых словоформ, покрывающих 80% текста. Относительная ошибка не' должна превышать 30%, надежность Р •= 0,95.
По частотному словарю казахской публицистики находим значение накопленной частоты /с — 0,8, соответствующее заданной покрываемое™, это значение имеет словоформа с порядковым номером i = 5503 и./гР = 0,00004. Учитывая, что Smax = 0,3, z0,ee — = 1,96, а /гр достаточно мало, используем для определения минимального объема выборки выражение (8.63). Тогда получим
iVC-»o% = 1,962/(0,332 • 0,00004) « 880 000 словоупотреблений.
2. Пусть требуется определить минимально необходимый объем русского разговорного текста для получения достоверных статистических данных с относительной ошибкой в 30% и надежностью Р = 0,95 о массиве наиболее частых служебных слов. Этот массив дает покрываемость С = 17%.
По данным пробного частотного словаря русских разговорных
текстов находим, что С ~ |
17% |
соответствует f^ •>» 0,013; учитывая |
|||||
также, что 6 т а х |
= |
0,3, |
а гр = |
1,96, |
получаем |
||
A W ^ 1 |
' 9 2 2 * |
1 - |
0 ' 0 1 |
* - |
3 t 8 4 ' 0 ' " |
= 4224 словоупотребления. |
|
* |
0,32.0,01 |
|
0,09-0,01 |
|
Г Л А В А 9 |
|
ИССЛЕДОВАНИЕ ВЕРОЯТНОСТНЫХ СВОЙСТВ |
ЯЗЫКА |
И СТАТИСТИКИ ТЕКСТА С ПОМОЩЬЮ МЕТОДА |
ГИПОТЕЗ |
§1. Элементы теории статистических гипотез
1.Статистические и нестатистические гипотезы в лингвистике. Рассмотренные в предыдущей главе процедуры перехода от текстовой статистической модели (вариационного ряда) к генеральному распределению давали возможность обнаружить количественные параметры нормы, однако лингвистику интересуют не только количественные характеристики языка и речи, но и в первую очередь их качественные признаки.
Среди различных научных методов, с помощью которых могут быть обнаружены, описаны и количественно оценены качественные лингвистические явления, важное место занимает метод статистической проверки лингвистических гипотез.
Прогресс каждой науки, в том числе и языкознания, связан с выдвижением и проверкой гипотез. Использующиеся в науке гипотезы очень разнообразны как по способам их формулировки, так и по методам их проверки. Среди всего разнообразия этих гипотез особое место занимают статистические гипотезы, т. е. такие гипотезы, которые формулируются либо относительно вида распределения случайной величины, либо относительно параметров распределения, либо относительно ранговой упорядоченности значений случайной величины. Будучи сформулированными относительно вероятност- но-статистических и ранговых величин, эти гипотезы могут проверяться и оцениваться с помощью разного вида статистических приемов и критериев. По результатам проверки и оценки статистических гипотез мы получаем возможность делать качественные лингвистические выводы.
Рассмотрим несколько статистических и нестатистических гипотез.
Статистическими можно считать гипотезы о том, что служебные слова в тексте имеют нормальное (или же пуассоновское) распределение, а употребление большинства знаменательных слов, особенно слов терминологического значения, не подчиняется этим видам распределения. Действительно, обследуя выборочные значения средних частот интересующих нас слов по различным сериям, мы можем оценить, насколько близко рассматриваемое эмпирическое распределение к теоретическому распределению Пуассона или же к нормальному распределению.
К |
статистическим гипотезам можно отнести предположение |
о том, |
что употребление служебных и многих знаменательных слов |
в немецких публицистических текстах из ГДР и ФРГ подчиняется одним и тем же вероятностным нормам. Это предположение можно проверить путем сравнения частостей соответствующих слов в газетных текстах ГДР и западногерманских публицистических текстах. Также статистическим может считаться предположение о том,
302
что средняя длина слова, измеренная в буквах латинского или кириллического алфавитов относительно научно-технического и делового стиля, во всех языках мира равна 5,5 буквам, а дисперсия составляет 1,2 буквы. Эти гипотезы рассматривают значения параметров в генеральных лингвистических распределениях, и их можно проверить, взяв случайные лингвистические выборки. Напротив, к статистическим гипотезам нельзя отнести предположение Тура Хейердала о южноамериканском происхождении населения острова Пасхи, равно как и альтернативную гипотезу Те Ранги Хироа (П. Бака) об этнической связи жителей этого острова с древним населением Юго-Восточной Азии. Нестатистическими являются гипотезы о иберо-кавказском происхождении баскского языка или предположение С. Девиса о том, что фестский диск написан похеттски. Все эти гипотезы сформулированы и проверяются с Помощью неколичественного научного аппарата, они не рассматривают ни вид распределения, ни величины параметров, ни ранговые последовательности и поэтому не могут быть проверены статистическим путем. С другой стороны, далеко не все оперирующие количественными данными научные концепции могут рассматриваться в качестве статистических гипотез. Примером могут служить глоттохронологические гипотезы (см гл. 2, §3, п. 1 и 2), которые хотя и используют количественные данные, но не могут быть сформулированы относительно какого-либо вида распределения, параметра или ранговой последовательности.
2. Нулевая и альтернативная гипотезы. Ошибки первого и второго рода. Утверждение о предполагаемом виде распределения, ранговой последовательности или параметре формулируется в виде нулевой (или основной) гипотезы Нп, которой противопоставляется другая — альтернативная гипотеза Нг. Например, предположение о том, что служебные слова в тексте имеют пуассоновское (или же нормальное) распределение, можно считать нулевой гипотезой Н0. Утверждение же о том, что указанные слова не подчиняются пуассоновскому (или нормальному) распределению, в этом случае выступает в качестве альтернативной гипотезы Нх.
Альтернативных гипотез может быть несколько. Например, если считать предположение о том, что средняя длина слова во всех языках мира равна 5,5 буквы, то в качестве альтернативных гипотез #!, Н%, ..., Hi, ..., Нп, выступают предположения о том, что средняя длина слова равна 5, 6, ..., 20 и т. д. буквам.
В дальнейшем мы будем рассматривать лишь такие случаи, когда речь идет о нулевой гипотезе Н0 и одной альтернативной гипотезе Нг. Последняя может объединять несколько альтернативных гипотез, выступая в качестве отрицания нулевой гипотезы, т. е. Hi = Я0 .
Проверка лингво-статистической гипотезы всегда осуществляется на случайной выборке. Поскольку выборка конечна, она не может идеально точно отразить распределение в генеральной лингвистической совокупности. Вместе с тем всегда существует риск сформировать такую «неудачную» выборку, которая дала бы совершенно
303
ложную информацию о положении дел в генеральной лингвистической совокупности (вряд ли следовало бы проверять лингво-ста- тистические гипотезы, относящиеся к мертвым языкам во всем их стилевом разнообразии, на выборках, составленных из культовых текстов или надгробных надписей). Короче говоря, при проверке лингво-статистической гипотезы всегда есть шанс прийти к ложному решению.
В результате проверки лингвистической гипотезы с помощью того или иного статистического критерия возникает одна из следующих четырех ситуаций:
1)нулевая гипотеза Н0 принимается, и она верна (соответственно отвергается ложная альтернативная гипотеза Нj);
2)нулевая гипотеза Н0 отвергается, и она ложна (соответственно принимается верная альтернативная гипотеза Ях);
3)нулевая гипотеза Н0 отвергается, хотя она и верна (соответственно принимается ложная гипотеза #j);
4)нулевая гипотеза Я0 принимается, хотя она и ложна (соответственно отвергается правильная альтернативная гипотеза #i).
Первые две ситуации представляют собой правильные решения, а две последние — ошибочные решения. При этом третье решение, состоящее в отвержении правильной гипотезы Я0 , дает ошибку первого рода, в то время как четвертое решение, заключающееся в принятии нулевой гипотезы Н0, хотя она ложна, представляет собой ошибку второго рода (табл. 9.1).
|
Т а б л и ц а 9.1 |
Гипотеза Н , верна |
Гипотеза Н и не верив |
Гипотеза Но
гается
Гипотеза Но
мается
отвер- |
Ошибка первого рода |
Правильное решение |
прини- |
Правильное решение |
Ошибка второго рода |
Может показаться, что выбор одной из двух возможных гипотез в качестве нулевой, т. е. основной, а другой — в качестве альтернативной является совершенно произвольным и определяется соглашением. Этим соглашением определяется и то, какое из неправильных решений считать ошибкой первого рода, а какое — ошибкой второго рода.
Предположим, например, что алтайскую гипотезу о генетическом родстве тюркских, монгольских, тунгусо-маньчжурских языков удалось сформулировать таким образом, что ее можно проверить с помощью некоторого статистического критерия. В этом случае совершенно безразлично, будем ли мы считать нулевой гипотезой предположение о том, что эти языки родственны, или объявим в качестве гипотезы # 0 утверждение о том, что эти языки не имеют генетического родства. В первом случае ошибка первого рода состоит в отрицании родства этих языков, хотя они в действительности восходят
304
к одному источнику. Во втором случае ошибкой первого рода слу-
жит утверждение о том, что алтайские языки родственны, |
хотя |
в действительности они неродственны. Аналогичным образом в |
пер- |
вом случае ошибкой второго рода будет утверждение о родстве алтайских языков (принятие гипотезы Н0, в то время как языки эти не имеют генетического родства), а во втором случае ошибкой второго рода — утверждение о том, что языки не имеют генетического родства, хотя они и восходят к одному источнику.
Из приведенного примера видно, что с точки зрения широкой лингвистической общественности выбор нулевой гипотезы при решении алтайской проблемы является чисто „условным, а различия между ошибками первого и второго рода не являются значимыми.
Однако встречаются ситуации, когда определение того, какую гипотезу считать основной (нулевой), небезразлично для исследователя, и в связи с этим ошибки первого и второго рода получают разную значимость.
Предположим, что имеется программа машинного перевода текстов военно-оперативной тематики с одного языка (этим языком может быть как язык противника, так и язык союзника) на другой. Техническое исполнение программы сомнений не вызывает, необходимо оценить лингвистический алгоритм. Лингвистическое качество программы экспериментально проверяется на малых порциях
текста. Результаты эксперимента дают частные значения хи |
хг, ..., |
||
xN |
случайной величины X, |
в качестве которой выступает |
число |
неправильно переведенных фраз порции. |
|
||
|
При такой постановке эксперимента мы можем сформулировать |
||
две |
лингво-статистические |
гипотезы. Первая (гипотеза |
утверж- |
дает, что программа пригодна и ее можно принять на вооружение. Вторая (гипотеза Л2) состоит в том, что программа непригодна для использования в войсках и ее следует вернуть на доработку.
Возьмем в качестве нулевой гипотезу ALT тогда ошибка первого рода заключается в том, что пригодная программа будет направлена на доработку. Это приведет к потере времени и к дополнитель-
ным затратам средств, прежде чем будет выяснено, |
что программа |
|
в доработке |
не нуждается. |
|
Если же |
лринять в качестве основной гипотезы |
предположение |
о том, что программа непригодна (Л2), то ошибка первого рода состоит в принятии негодной программы, использование которой может привести к срыву военных операций.
Нетрудно понять, что ошибка первого рода, могущая возникнуть в том случае, когда Н0 = Л2, гораздо более серьезна, чем ошибка первого рода, которая может образоваться при проверке
нулевой гипотезы Н0 = AT. |
|
|
|
|
|
Заметим попутно, что в ситуации, |
при которой Н0 = |
А2, ошиб- |
|||
кой второго рода является ошибка |
первого рода ситуации |
# 0 |
= |
||
=» АХ (т. е. ошибка, состоящая в |
отвержении |
доброкачественной |
|||
программы), и наоборот, ошибка первого рода |
ситуации |
Я0 |
= |
Аг |
|
служит ошибкой второго рода для ситуации Н0 |
— А^ |
|
|
|
305
Только что рассмотренный пример показывает, что при испытании гипотез часто возникают такие ситуации, при которых избежать одной из двух возможных ошибок оказывается важнее, чем допустить другую. В этом случае ошибкой первого рода считается та из возможных ошибок, которую нам важнее избежать. Отсюда следует, что нулевой гипотезой следует считать то предположение, отвержение которого в том случае, когда оно является истинным, приводило бы к ошибке первого рода.
Возвращаясь к примеру с машинным переводом, нетрудно показать, что в качестве нулевой гипотезы следует принять предположение Л2 о том, что программа машинного перевода военнооперативных текстов непригодна для использования в войсках. В этом случае мы должны будем стараться максимально уменьшить ошибку первого рода, состоящую в том, что в результате ошибочного отвержения гипотезы Н0 = Аг на вооружение поступает недоброкачественная программа машинного перевода.
Разумеется, определение значимости ошибки, особенно в лингвистике, носит часто субъективный характер. Так, например, для убежденного алтаиста наиболее опасной ошибкой (ошибкой первого рода) служит отвержение нулевой гипотезы, состоящей в том, что алтайские языки восходят к одному источнику. Ошибка второго рода, состоящая в принятии алтайской гипотезы, хотя последняя
неверна, будет, разумеется, менее опасна для алтаиста. |
|
||||
3. Проверка статистических гипотез. Проверка |
статистических |
||||
гипотез опирается на такие фундаментальные понятия, |
как к р и- |
||||
т и ч е с к а я о б л а с т ь , у р о в е н ь |
с у щ е с т в е н н о с т и |
||||
( у р о в е н ь з н а ч и м о с т и ) , к р и т е р и й |
п р о в е р к и , |
||||
а также м о щ н о с т ь |
к р и т е р и я . |
|
|
|
|
Начнем с разъяснения понятия критической |
области, |
используя |
при этом теоретико-множественные представления из аксиомати-
ческого построения теории вероятностей |
А. |
Н |
Колмогорова |
|
(см. гл. 5, § 3, п. 4). Пусть U обозначает множество (пространство) |
||||
значений случайной величины X, a W — выборочное, |
наблюдаемое |
|||
в опыте подмножество этих значений. Подмножество |
W состоит |
|||
из возможных выборочных точек еь ег, ..., |
ет, |
каждая |
из которых |
|
представляет собой определенную совокупность |
наблюдаемых зна- |
чений хъ хг, ..., Хы случайной величины. Точки еъ ег, ..., ет, в свою очередь, можно рассматривать как некоторые выборочные числовые значения некоторой статистической характеристики Е, относительно которой выдвигаются гипотезы Н0 и Ях. Нулевая гипотеза Я0 проверяется с помощью некоторого статистического критерия С. Гипотеза эта отвергается лишь тогда, когда наблюдаемая характеристика, т. е. выборочная точка ei, попадает внутрь определенной области подмножества W — в так называемую критическую область Wc- Если эта наблюдаемая характеристика попадает внутрь об-
ласти W — Wc, |
называемой областью |
приемлемости |
решений, |
то гипотеза Я„ |
принимается (рис. 64). |
|
|
Нетрудно понять, что выбор критерия проверки гипотезы эквивалентен выбору критической области, а задача проверки гипо-
306
тезы является задачей выбора критической области. Основная цель испытания гипотезы состоит в том, чтобы уменьшить ошибку в принятии решения, причем избежать ошибки первого рода важнее, чем допустить ошибку второго рода. Поэтому статистический критерий, а следовательно и критическая область, должны быть выбраны таким образом, чтобы в случае справедливости нулевой гипотезы Н0 выборочные наблюдения et попадали бы в критическую область Wc как можно реже. С этой целью фиксируется произвольно малое число а, называемое уровнем существенности, и выдвигается требование, согласно которому вероятность ошибки первого рода при проверке истинной гипотезы Я0 не должна превосходить этого уровня.
Итак, |
между понятиями |
кри |
|
|
|||
тической области, |
статистической |
|
|
||||
характеристикой гипотезы и уров- |
|
|
|||||
нем |
существенности имеет |
место |
|
|
|||
следующее |
соотношение: критичес- |
|
|
||||
кая |
область Wo должна |
быть та- |
|
|
|||
кова, |
что |
вероятность |
принятия |
Рис. 64 |
|||
статистической характеристикой Е |
|||||||
числового |
значения, |
попадающего |
|
|
|||
в Wc., не превышает уровня сущест- |
|
|
|||||
венности а |
(при этом предполагается, что гипотеза |
# 0 истинна). |
|||||
Выбор |
уровня |
существенности |
определяется |
практическими |
соображениями, точнее, ожидаемыми последствиями ошибки первого рода. Чем серьезнее эти последствия, тем должен быть меньше
уровень |
существенности. В лингвистике обычно используется |
а = 0,05. |
Такой уровень существенности вполне приемлем, напри- |
мер, при статистическом испытании алтайской гипотезы. Однако при проверке ответственных инженерно-лингвистических гипотез этот уровень целесообразно значительно уменьшить: так, при проверке нулевой гипотезы о непригодности программы машинного перевода следовало бы взять уровень существенности, не превышающий 0,01. Здесь мы имели бы только один шанс из ста принять на вооружение непригодную программу.
При рассмотрении проблемы выбора уровня существенности в тех случаях, когда ответственность за ошибку первого рода достаточно велика, может возникнуть вопрос: нельзя ли настолько уменьшить уровень существенности, чтобы вероятность ошибки первого рода была бы близка к нулю?
Чтобы ответить на этот вопрос, предположим, что мы взяли а = 0. Тогда независимо от результатов опыта нулевая гипотеза Н0 будет приниматься и в том случае, когда она верна, и в том случае, когда она ложна. Принимая нулевую гипотезу в тех случаях, когда она ложна, мы совершаем, как уже говорилось, ошибку второго рода. При бесконечном уменьшении а вероятность ошибки второго рода возрастает, что часто приводит к нежелательным результатам.
307
Например, проверяя качество программы машинного перевода, мы должны при любом результате испытания нулевой гипотезы, состоящей в предположении, что программа перевода непригодна, принимать эту гипотезу, отвергая альтернативную гипотезу о пригодности программы. Цена этого скептицизма будет достаточно велика: органы управления и связи вооруженных сил не получат ни одной программы машинного перевода военно-оперативных текстов.
Итак, стремясь к уменьшению вероятности ошибки первого рода, мы не должны забывать о том, что оно может привести к нежелательному увеличению вероятности р ошибки второго рода. Оптимальное соотношение вероятностей а и р достигается при удачном
выборе критической области. |
Условие |
такого выбора состоит в сле- |
|||
дующем: если вероятность |
того, |
что выборочное значение |
стати- |
||
стической характеристики et попадет |
в критическую область |
Wo |
|||
при справедливости гипотезы |
Н0, |
составляет |
|
|
|
P{et£ Wc/H0} « |
а, |
|
(9.1) |
||
то вероятность того, что это же значение et попадет в область |
Wc |
||||
при неверной гипотезе Н0 и истинной |
гипотезе Иь должна |
иметь |
|||
максимальное значение, т. е. |
|
|
|
|
|
WdHy) = |
max. |
|
,9.2) |
Тогда вероятность р ошибки второго рода, состоящей в том, что ошибочно отбрасывается верная гипотеза Нх, является минимальной.
Вся процедура проверки нулевой гипотезы осуществляется с помощью определенного критерия С, представляющего собой правило, которое устанавливает, при каких результатах случайной выборки мы имеем право принять нулевую гипотезу, а при каких — отвергнуть. Требование, выраженное равенством (9.2), называется постулатом мощности критерия С, мощности, которая измеряется вероятностью того, что не будет допущена ошибка второго рода.
§2. Гипотеза о лексической нормативности текста
иее проверка с помощью порядковых критериев
1.Порядковые и статистические критерии. Метод статистических гипотез особенно широко используется при определении нормативности лексических и грамматических единиц, а также при
сопоставлении стилевых и жанровых разновидностей языка [32 а, с. 16 и сл.]; [33, с. 131 и сл.]. Этот прием может быть применен и для выявления лексико-грамматических особенностей стиля отдельных авторов.
Исследования этого типа предполагают количественное сопоставление двух лингвистических множеств (частотных списков, распределений частот слова или грамматической формы и т. п.), одно из которых может рассматриваться в качестве эталонного. Выдвигается предположение о том, что оба множества по своей
308
лингвистической природе идентичны и статистически однородны. Если это предположение рассматривать в качестве нулевой гипотезы Н0, то альтернативной гипотезой Hi служит утверждение, что сравниваемые множества имеют разную лингвистическую природу.
Гипотеза Я0 проверяется, как уже говорилось, с помощью некоторого объективного критерия С, который должен количественно оценить степень (силу) сходства между сопоставляемыми лингвистическими множествами. Если оценка сходства попадает в область приемлемости решений W — WQ (см. выше), то гипотеза об идентичности сравниваемых лингвистических множеств принимается.
Наиболее мощными критериями контроля лингвистических предположений являются статистические критерии, с помощью которых либо проверяется нулевая гипотеза применительно к значениям некоторых параметров распределения, либо оцениваются гипотезы о характере самих распределений при условии, что оценка строится на исследовании параметров распределения. Такие правила проверки называются параметрическими критериями. Более простыми с точки зрения используемого математического аппарата являются непараметрические статистические критерии, которые, используя лишь частости или частоты лингвистических единиц, не требуют знания параметров распределения. Непараметрические правила проверки гипотез менее эффективны, чем параметрические критерии. Бывает, что проверку предположения об идентичности двух лингвистических множеств нельзя провести с помощью указанных статистических критериев ввиду того, что нет надежных оценок параметров распределения, неизвестен его характер, а также отсутствуют достоверные значения (частоты) лингвистических величин. В этих случаях для проверки статистической гипотезы используются порядковые критерии, в которых применяются не сами значения случайных величин, а ранговая упорядоченность этих значений. Использование рангов вместо частот связано с потерей части статистической информации и влечет за собой снижение мощности критерия, увеличивая тем самым вероятность ошибки второго рода (ср. § 1, п. 2).
Несмотря на эти недостатки, порядковые критерии являются наиболее простыми и универсальными приемами оценки лингвистических гипотез.
Чаще всего эти критерии используются для проверки гипотезы об однородности двух текстовых выборок относительно заданного лингвистического признака или гипотезы об идентичности (нормативности) функционирования данного лингвистического признака в обеих выборках.
Идею проверки лингвистической гипотезы с помощью порядкового критерия можно сформулировать следующим образом.
Имеется лингвистический признак L, в роли которого может выступать конкретное слово, грамматическая категория и т. п. Взяты также две текстовые выборки и N2, разбитые на п порций каж-
309