Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Пиотровский

.pdf
Скачиваний:
174
Добавлен:
06.06.2015
Размер:
9.13 Mб
Скачать

Задачу определения доверительного интервала неизвестной теоретической функции F (я) можно решать, исходя из интегральной предельной теоремы Муавра—Лапласа (см. гл. 6, § 3, п. 4).

Оценивая теоретический закон F (Х) с помощью эмпирической функции Fn (х), мы будем считать, что значение FN (л) сходится по вероятности к F (я), т. е.

(*) = /*

P' = F(x).

Тогда отношение между накопленной частостью и накопленной вероятностью при заданном х будет таким же, как и между относительной частотой и вероятностью в схеме Бернулли с N независимыми испытаниями. Следовательно, в качестве меры расхождения FN(х) — F(x) накопленной частости /* от вероятности р* можно взять среднее квадратическое отклонение

<*(/*)= VP*{L—P*)!N.

Опираясь на указанную теорему, можно утверждать, что

lirti f — z <

'*~ f j i

- < zl = 2Ф (г).

w-oо\

yp*(i-.p*)/N

I

Иными словами, вероятность того, что абсолютная величина отклонения эмпирического распределения накопленных частот от теоретического интегрального закона будет меньше величины

г Кр*(1— p*)/N = го (/*), при достаточно большом N приближается к 2Ф (г):

lim Р {| /*—р* | < га (/*)} = 2Ф (г).

N -+оо

Теперь можно утверждать с вероятностью Р = 2Ф(2р), сколь угодно близкой к единице, что относительно каждой точки из после-

довательности

(8.46) справедливо неравенство

 

 

 

- г р а ( Г Х П - р ' 1 < 2 р а ( 1 * ) .

(8.47)

Используем

двойное

неравенство

(8.47) для построения

дове-

рительной полосы теоретической функции распределения

F

(х).

Для этого, задавшись

вероятностью

р и определив из табл.

VI

на стр. 369 величину Zp, можно при известных р" = F (х) и N найти

для каждого Xi величину г^р (/*). Откладывая эту величину

вверх

и вниз от точек Р* — F (XT), получим доверительную

полосу

(пунктирные линии на рис. 61). Если график эмпирической функции FN (Х) (сплошная линия на рис. 61) всюду находится в пределах доверительной полосы, то вероятность события, состоящего в том, что для любого х отклонение | /* — р*\ меньше величины г^о (/*), равна Р.

Положение доверительной полосы в значительной степени зависит от вида функции F (х). Поэтому если FN (х) оказывается за

290

пределами полосы, то это может указывать на несоответствие теоретического и эмпирического распределений. В этом случае следует искать другую функцию F (Х), соответствующую эмпирической функции FN (*).

2. Построение доверительного интервала с помощью функции Колмогорова. Было бы неверным утверждать, исходя из всего сказанного, что выполнение неравенства

г - р*I < (Г) (8.48) гарантируется с той же большой вероятностью Р о д н о в р е м е н -

н о

для

 

всех

 

точек

я*.

 

В

самом

деле,

несмотря

 

на то что вероятность невы-

 

полнения

неравенства

(8.48)

 

в о п р е д е л е н н о й

 

точ-

 

ке Xi очень мала, вероят-

 

ность нарушения

его

х о т я

 

б ы в о д н о й т о ч к е х

 

может

оказаться

достаточно

 

большой. Отсюда следует, что

 

проверка

соответствия

пред-

 

полагаемого

теоретического

 

распределения опытному рас-

 

пределению на основании ин-

 

тегральной предельной

теоре-

Рис. 61

мы не

гарантирует

от

появ-

 

ления

существенных

откло-

 

нений

FN(xt)

— F (xt)

для отдельных значений xi. Можно по-

казать, что

при

взятом нами значении гро (/*) > 0 максимальное

расхождение

эмпирических и теоретических

значений

 

 

 

 

 

DN

=

max I F ^ ) — F

(xt)|

почти наверняка будет больше zpa(/*).

Одновременно возникает вопрос: что представляет собой функция распределения величины DN И какова ее доверительная оценка? Ответ на этот вопрос дает предельная теорема Колмогорова, которая формулируется так: если функция F (х) непрерывна, то вакон распределения

Р {шах | FN ( X ) - F ( X ) I < %/VN} = kN

(X)

(8.49)

не зависит от F (х)

и при N

оо имеет пределом

К

представ-

ляющую собой сумму

бесконечного ряда:

 

 

 

= 2

(— D*е- 2k2X2

 

 

Вначения функции Колмогорова К (ty приведены в табл. VII на стр. 369, 370.

10*

291

При больших N выражение (8.49) можно переписать следующим образом:

Р {FN (X)—X/V7F

< F ( x ) < FN (X) + К/УЩ » К (Ч

где %fV~N = е можно считать величиной погрешности оценки закона F (лс), К = *> — надежностью, а 1 — К (Ц = Ч — уровнем значимости (табл. 8.2).

 

 

 

 

Таблица

8.2

Надежность К(А.) = р

0,50

0,90

0,95

0,99

0,999

Уровень значимости

0,50

0,10

0,05

0,01

0,001

 

h

0,828

1,224

1,358

1,627

1,950

 

 

 

 

 

Если обратиться к геометрической интерпретации, то теорема Колмогорова утверждает с вероятностью К что график неизвестной теоретической функции F (х) целиком находится внутри полосы Ск ft), ограниченной кривыми /* = FN (xt) — е и

Гя(хН*

N = FN(XI)

+

e(рис.

62).

Эти кривые

получаются

 

путем смещения

вниз и

 

вверх, вдоль оси ординат

 

эмпирических

 

значе-

 

ний FN (XT) на величину

 

точности е.

 

 

 

 

 

Применение

функ-

 

ции

Колмогорова пред-

 

полагает,

 

во-первых,

 

что теоретическая функ-

 

ция

F (х)

непрерывна;

 

во-вторых,

что

эмпири-

 

ческая функция

FN

(х)

Рис. 62

построена

по

не сгруп-

пированным

в

интерва-

 

 

лы

значениям

случай-

ной величины X. В практических

приложениях допускается

ис-

пользование малых интервалов группировки, но получаемая оценка в этом случае действует с некоторым приближением.

Построение доверительной полосы для неизвестного теоретического закона распределения F (я) с помощью функции Колмогорова осуществляется по следующей схеме.

1. Вычисляют значения эмпирической функции FN(x), представляющие собой накопленные частости

il = FUN.

( 8.50)

292

2. По заданному значению надежности

— Р с помощью

табл. VII определяют значение ^

(обычно

используют Р = 0,90,

или 0,95, или 0,99).

 

 

3. С помощью равенства

 

 

*p~Xp/V~N

(8.51)

определяют величину погрешности.

 

 

4. С помощью формул

 

 

 

 

(8-52)

/1 = /; +

е„

(8.53)

вычисляют границы доверительного интервала закона распреде-

ления F (х) относительно точек xt (i =

1, 2,

...,

N).

З а м е ч а н и е .

Если

окажется,

что

/7 <

0, а /7 > 1, то

следует считать /7

=

0, а /7

= 1.

 

 

 

5. На график

наносят значения

~f*

и таким образом опреде-

ляют границы доверительной полосы (если имела место интервальная группировка данных, то графики /7 и /7 носят ступенчатый характер). Полученная полоса с вероятностью Р покрывает график

теоретической функции F (х).

Теперь, пользуясь данными о распределении длин китайских слогов (см. гл. 7, § 2, п. 2), дадим оценку неизвестного теоретического интегрального закона этого распределения (табл. 8.3).

 

 

 

 

 

 

Т а б л и ц а 8 . 3

 

Fi

*

 

 

 

 

 

Pi

fN

<*i>=f;=fVN

ltrfr-*p

 

(1)

(2)

(3)

 

(4)

(5)

(6)

50

2

2

 

0,0133

0

0,1246

70

7

9

 

0,0600

0

0,1713

90

7

16

 

0,1667

0,0554

0,2780

110

29

45

 

0,3000

0,1887

0,4113

130

29

74

 

0,4933

0,3820

0,6046

150

24

98

 

0,6533

0,5420

0,7646

170

17

115

 

0,7667

0,6554

0,8780

190

И

126

 

0,8400

0,7287

0,9513

210

12

138

 

0,9200

0,8087

1,0000

230

7

145

 

0,9667

0,8554

1,0000

250

1

146

 

0,9733

0,8620

1,0000

270

2

148

 

0,9867

0,8754

1,0000

290

1

149

 

0,9933

0,8820

1,0000

310

1

150

 

1,0000

0,8887

1,0000

 

ЛГ=150

 

 

 

 

 

Воспользуемся схемой построения доверительной полосы.

293

1. Приняв в качестве величин xt середины интервальных значений длин китайских слогов (ср. табл. 7.8 на стр. 226), запишем в столбце (2) табл. 8.3 количество Ft слогов, длина которых соответствует данному интервалу, а в столбце (3) — абсолютные накопленные частоты F* для каждого xt. Пользуясь равенством (8.50) и учитывая, что общее число измеренных слогов N равно 150, в столбце

(4) получим величины /*, выступающие в качестве значений эмпирической функции FN (Х).

 

 

 

 

2. Пусть надежность р=0,95,

 

 

 

тогда

по

табл.

VII

получаем

 

 

 

Яр

=

1,358.

 

 

 

 

 

 

 

 

3.

На

основании

равенства

 

 

 

(8.51) находим, что

 

 

 

 

 

 

= 1,358/УТ50= 1,358/12,206^

 

 

 

 

 

 

»

0,1113.

 

 

 

 

 

4.

Пользуясь

формулами

 

 

 

(8.52)

и (8.53), с учетом заме-

 

 

 

чания, получаем значения ниж-

50 so w

170 гго 250 Ш

х-

ней (/7) и

верхней

ф ) границ

Доверительной

полосы

теорети-

р

6 3

'

ческой

функции

распределения

 

ПС'

 

F

(*).

3>ги значения

помещены

 

 

 

в

столбцах (5)

и

(6)

табл. 8.3.

5. Нанеся на график значения // и

 

получаем

графическое

изображение доверительной полосы (рис. 63).

§ 6. Определение достаточности объема выборки

Ценность всякого лингвистического исследования измеряется степенью достоверности его выводов. Само собой разумеется, что лучшим средством оценки этой достоверности является проверка полученных выводов на практике. Но такая проверка может быть осуществлена в течение длительного времени после завершения самого исследования. Между тем лингвисту нужны приемы, с помощью которых можно было бы уже при постановке эксперимента прогнозировать достоверность получаемых результатов. Наиболее простым приемом такого прогнозирования является определение того минимального объема выборки, при котором получается заслуживающая доверия лингво-статистическая информация. Необходимый объем выборки можно определить, опираясь на оценку одного из параметров распределения, которое должно быть близким к нормальному, а также исходя из заранее установленной степени точности или относительной ошибки и надежности наших суждений.

Рассмотрим несколько вариантов определения достаточного объема лингвистической выборки.

294

1. Определение минимально достаточного объема выборки в грамматических и фонетико-фонологических исследованиях. Учитывая соотношение (6.129), можно утверждать, что величина максимально допустимой абсолютной ошибки равна

 

£ шах =

Zp y p ( l — p)/N

( 8 . 5 4 )

ср. с формулой

(8.36)]

при

условии, что | / — [ с р

. с

(6.115)].

что величина

абсолютной ошибки е задана

и за-

Предположим,

ранее определена надежность Р. Однако это не дает нам возможности вычислить величину выборки N, поскольку неизвестна вероятность р той лингвистической единицы, относительно которой определяется достаточность объема выборки. Чтобы оценить величину р, пользуются той частостью / лингвистической единицы, которая либо получена ранее в аналогичных условиях, либо извлечена из небольшого предварительного выборочного наблюдения. Заменяя р в выражении (8.54) на ее оценку Д получаем

 

е =

2 р

j / / ( l _ / ) / / V ,

(8.55)

откуда приходим

к формуле,

указывающей минимально

достаточ-

ный в данных условиях объем выборки:

 

 

 

N =

4

/(1 -

f)h\

 

(8.56)

[ср. с (6.130)]. В тех случаях,

когда дана не абсолютная,

а относи-

тельная ошибка

= г/р «

 

 

zpV(

 

 

6

е// =

1 -F)/{N[)

(8.57)

выражение (8.56)

принимает вид

 

 

 

 

A/ = z £ ( l - / ) / ( 6 2 / ) .

(8.58)

Описанную процедуру целесообразно

использовать при иссле-

довании употребительности грамматических, фонетических и фонологических единиц, которые обычно дают нормальное распределение и вероятность которых не очень мала.

Например, по данным предварительного эксперимента относительная частота употребления мягких согласных фонем в украин-

ском

драматургическом тексте

равна

0,0828 [34, с. 51]. Необхо-

димо

при заранее заданных максимальной абсолютной ошибке

е =

0,0022 и надежности р =

0,95

определить минимально до-

статочный объем выборки N для получения достоверных сведений об употребительности мягких согласных фонем в украинских драматур-

гических

текстах.

 

 

 

Здесь

f -

0,0828, 1 — f — 0,9172,

е =

0,0022; по заданной

величине р из табл. VI на стр. 369 находим

=

1,96. Подставляя

все эти

данные в равенство (8.56), получаем

 

N =

1,962

• 0,0828 . 0,9172/0,00222 =

60284 «

60 тыс. фонем.

Если вместо е была бы задана величина б, которая в данном случае равна 0,027, то для определения N следует воспользоваться

295

равенством (8.68); в конечном итоге мы получаем аналогичный результат:

N = 1,962 • 0,9172/(0,027® • 0,0828) =» 58374 яе 60 тыс. фонем.

2. Определение минимально достаточного объема выборки в лексикологических исследованиях. В ходе лексикологических исследований минимальный объем выборки вычисляется с помощью приближенных равенств

N «

Zp//e2

(8.59)

и

 

 

N »

zJ/(62/),

(8.60)

которые легко выводятся из выражений (8.56) и (8.58), если принять во внимание, что частости / лексических единиц обычно очень малы и, следовательно, разности 1 — / близки к единице.

Рассмотрим в связи с этим следующую лингвистическую задачу. Относительная частота словосочетания split cylinder 'разрезной цилиндр' в английских текстах по строительным материалам составляет 0,000175 [33, с. 410]. Необходимо определить минимально

достаточный

объем выборки, удовлетворяющей надежности

0,95

и 33%-ной относительной

ошибке.

 

Здесь f =

0,000175, б

= 0,33 и zp = 1,96 (при р = 0,95);

по-

скольку f очень мало, для расчета величины N можно использовать формулу (8.60):

N = 1,967(0,ЗЗ2 • 0,000175) » 200000.

Таким образом, для получения достоверных результатов при статистическом исследовании лексических единиц, обладающих частостью не менее 0,000175, при заданной 33%-ной относительной ошибке и 95%-ной надежности нужна выборка объемом не менее 200 тыс. словоупотреблений.

В столбцах (4) — (6) табл. 8.4 показаны минимальные объемы выборки, необходимые для того, чтобы получить с надежностью р и относительной ошибкой б (соответственно с абсолютной ошибкой е) достоверные данные об употребительности лингвистических единиц, имеющих частоту выше заданного f .

Минимальные выборки, необходимые для получения достоверных данных об употребительности лингвистических единиц, имеющих частоту выше заданного Д если / достаточно мало, показаны

встолбцах (7) — (9) табл. 8.4.

3.Определение достаточности объема выборки с учетом рассеяния лингвистического признака. В предыдущих разделах объем выборки мы определяли, исходя из оценки только одного параметра распределения —вероятности р. Однако в лингвистических и инже- нерно-лингвистических исследованиях нередко встречаются задачи, которые требуют, чтобы при определении минимального объема выборки были учтены средняя частота F, оценивающая матема-

296

 

 

 

 

 

 

 

Т а б л и ц а

8.4

 

Необходимые

объемы выборки при известных

б (или е), р (z^) и I

 

 

 

 

(р оценено через /)

 

 

 

 

 

 

 

г., ( 1 - р )

г„ (1-/)

 

 

 

 

 

 

 

 

N

 

v

 

w = — l i -

 

 

 

 

 

 

Рб>

16'

 

f e '

 

 

 

/

8

6

 

 

 

 

 

 

 

® I

 

 

 

 

 

 

 

»

 

 

 

 

 

 

 

 

 

 

 

 

 

ю

 

оо

Ю

«О

со

 

л

 

 

 

О»

ю

«о

О»

ю

 

 

 

 

 

 

<N

 

 

сч

 

а

 

 

 

IIа-

Иа-

IIа-

II&•

IIa-

IIft

 

II

 

 

 

N

N

N

N

N

N

 

г

(1)

(2)

(3)

(4)

(Б)

(6)

(7)

(8)

(9)

 

(10)

0 , 0 0 0 1 0 , 0 0 0 0 1

0 , 1 2 7 2 0 0 0 0 3 8 4 0 0 0 0 6 6 5 0 0 0 0 2 7 2 0 0 0 0 3 8 4 0 0 0 0 6 6 6 0 0 0 0

 

 

 

0 , 0 0 0 0 2

0 , 2

6 8 0 0 0 0

9 6 0 0 0 0 1 6 6 0 0 0 0

6 8 0 0 0 0

9 6 0 0 0 0 1 6 6 0 0 0 0 |

9 0 0 0 0

 

0 , 0 0 0 0 3 0 , 3

3 0 0 0 0 0

4 3 0 0 0 0

7 4 0 0 0 0

3 0 0 0 0 0

4 3 0 0 0 0

7 4 0 0 0 0

 

 

0 , 0 0 1

0 , 0 0 0 1 0 , 1

2 7 2 0 0 0

3 8 4 0 0 0

6 6 5 0 0 0

2 7 2 0 0 0

3 8 4 0 0 0

6 6 6 0 0 0

|

9 0 0 0

 

0 , 0 0 0 2 0 , 2

6 8 0 0 0

9 6 0 0 0

1 6 6 0 0 0

6 8 0 0 0

9 6 0 0 0

1 6 6 0 0 0

 

0 , 0 0 0 3 0 , 3

3 0 0 0 0

4 3 0 0 0

7 4 0 0 0

3 0 0 0 0

4 3 0 0 0

7 4 0 0 0

 

 

0 , 0 1

0 , 0 0 1

0 , 1

2 7 0 0 0

3 8 0 0 0

6 6 0 0 0

2 7 2 0 0

3 8 4 0 0

6 6 6 0 0

 

 

 

0 , 0 0 2

0 , 2

6 7 0 0

9 5 0 0

1 6 5 0 0

6 8 0 0

9 6 0 0

1 6 6 0 0

|

9 1 0

 

0 , 0 0 3 0 , 3

3 0 0 0

4 2 0 0

7 2 0 0

3 0 0 0

4 3 0 0

7 4 0 0

 

 

0 , 0 5

0 , 0 0 5 0 , 1

5 2 0 0

7 3 0 0

1 2 6 0 0

5 4 5 0

7 7 0 0

1 3 3 0 0

 

 

 

0 , 0 1 0

0 , 2

1 3 0 0

1 8 0 0

3 2 0 0

1 3 6 0

1 9 2 0

3 3 0 0

|

1 9 0

 

0 , 0 1 5

0 , 3

5 7 5

8 1 0

1 4 0 0

6 0 0

8 5 0

1 5 8 0

 

 

0 , 1 0

0 , 0 1

0 , 1

2 4 5 0

3 4 6 0

6 0 0 0

2 7 2 0

3 8 4 0

6 6 0 0

 

 

 

0 , 0 2

0 , 2

6 1 0

8 6 0

1500

6 8 0

9 6 0

1 6 6 0

j

100

 

0 , 0 3 0 , 3

2 7 0

3 8 0

6 7 0

3 0 0

4 3 0

7 4 0

 

 

0 , 2 0

0 , 0 2

0 , 1

1 1 0 0

1 5 4 0

2 6 6 0

1 3 6 0

1 9 2 0

3 3 3 0

J 6 0

 

0 , 0 4

0 , 2

2 7 0

3 8 0

6 7 0

3 4 0

4 8 0

8 3 0

 

0 , 0 6

0 , 3

1 2 0

170

3 0 0

1 5 0

2 1 0

3 7 0

 

 

0 , 5 0

0 , 0 5 0 , 1

2 7 0

3 8 0

6 7 0

5 4 0

7 7 0

1 3 3 0

 

 

 

0 , 1 0

0 , 2

7 0

100

170

140

190

3 3 0

|

4 0

 

0 , 1 5

0 , 3

3 0

4 0

70

6 0

8 0

150

 

 

297

тическое ожидание М (X) этого

признака,

и стандарт s,

оцениваю-

щий среднее

квадратическое отклонение

а = D (X) (величины б

и Р считаются при этом заданными).

 

 

 

 

Величина выборки определяется здесь исходя из следующих

соображений.

 

 

 

 

 

 

 

На

основании

центральной

предельной

теоремы

Ляпунова

(см. гл. 6, § 4, п. 4), можно утверждать, что погрешность I F — F |

распределена

нормально^ Максимальная

величина

этой погреш-

ности

егаах =

шах

| F F | может быть определена

как

 

Отсюда

«max — Fb = г^ЫУN » грЫУ

N.

 

 

 

 

 

 

 

 

 

 

 

 

 

б2).

 

 

 

(8.61)

Построение двуязычных и одноязычных машинных словарей связано с разного вида сжатием лексической информации. При этом важно иметь очень точные сведения о средней длине словарного глоза или словоформы. Эти сведения можно получить, обследуя не тексты, а одноязычные или двуязычные словари разного объема.

Так, например, предварительное обследование русского технического словника показало, что средняя длина словоформы равна здесь 8,68 буквы при достаточно высоком рассеянии численных значений ее длины: стандарт здесь составляет 3,12 буквы. Нужно определить минимально необходимый объем словаря L, из которого можно получить при б = 0,01 и р = 0,95 достоверные данные о средней длине словоформы.

Здесь F = 8,68, s = 3,12, б = 0,01, р = 0,95 р = 1,96). Подставляя эти данные в формулу (8.61), получаем

L= l,962>3,122/(8,682-0,012) = 4970 словоформ.

Вработе [7, с. 184] показано, что в тех случаях, когда дисперсия

D(XJ = о2 = Np( 1 — р) больше или равна 9, случайная величина распределена нормально. Отсюда можно утверждать, что величину минимально необходимой выборки для определенного вначения р, оцениваемого частостью /, можно установить из неравенства

N > —

(8.62)

Ш-f)

 

Из столбца (10) табл. 8.4 видно, что формула (8.62) указывает объемы выборок, в несколько раз меньшие чем минимально необходимые объемы выборок, рассчитанные по формулам (8.56) — (8.60). Однако эта оценка выборки не гарантирует какой-либо надежности р и не фиксирует какую-либо определенную величину относительной ошибки б.

4. Оценка точности результатов лингво-статистических исследований. В лингвистических исследованиях нередко приходится оценивать точность получаемых статистических результатов. Для

299

оценки точности можно использовать величины относительной ошиб- ки б и погрешности (абсолютной ошибки) е, которые можно найти по приведенным выше формулам. При этом нужно псинить, что

степень точности

находится в обратной зависимости по отношению

к величинам 6 и

е: чем выше точность лингво-статистического изме-

рения, тем меньше должны быть величины относительной ошибки или погрешности.

Степень точности лингво-статистических измерений связана также с объемом выборки и надежностью.

Например, при исследовании устного украинского драматургического текста длиной в 60 тыс. фонем обнаружено, что относительная частота мягких согласных фонем равна 0,0828. Необходимо определить абсолютную ошибку е и относительную ошибку б

при

получении

указанного результата,

если

надежность

Р =

0,95 (гр =

1,96).

 

 

Пользуясь формулами (8.54) и (8.57), получаем

 

 

е =

1,96 ]Л),0828-0,9172/60000» 0,0022.

 

 

о = 1.96 У0,9172/(60000-0,0828) » 0,027 = 2 7 %.

Из выражений (8.56) и (8.58) видно, что величины

погрешности

и относительной

ошибки находятся в обратной

зависимости по от-

ношению к объему выборки. Чем больше объем лингво-статисти- ческих наблюдений, тем меньше погрешность и относительная ошибка и тем выше точность наших лингво-статистических результатов. В только что рассмотренном примере получена довольно высокая точность наблюдений (всего 2,7% относительной ошибки). Однако эта точность была оплачена довольно дорогой ценой: пришлось просчитать текст длиной в 60 тыс. фонемоупотреблений (т. е. около 30 страниц среднего объема). Можно было бы при желании уменьшить относительную ошибку в 10 раз, доведя ее до 0,27%, но тогда выборку пришлось бы увеличить в 100 раз, просчитав 2400 страниц фонетической записи украинского текста. В связи с этим возникает вопрос: каков же разумный предел повышения точности лингво-статистических измерений?

Выбор уровня точности, так же как и выбор надежности наших суждений, зависит от теоретических и практических приложений той дисциплины, которая использует описываемые статистические приемы. Если для авиационной и ракетной техники относительная ошибка измерения в 2,7% может рассматриваться как предельная, то для лингвистических исследований такая точность оказывается излишней и приводит к неразумному увеличению объема выборки и, таким образом, к неоправданному расходованию сил исследователя на механическую нетворческую работу. В настоящее время

принято считать, что в фонетико-фонологических

и грамматических

исследованиях относительная ошибка не должна

превышать

20%,

а при анализе лексики и фразеологии относительная ошибка

может

достигать 33 — 35% [7, с. 189].

 

 

299