книги из ГПНТБ / Лакин Г.Ф. Биометрия учеб. пособие
.pdfОпределим среднюю (х) и дисперсию (о12) для этих данных. Рас чет необходимых вспомогательных значений приводится в табл. 22.
|
|
|
|
|
|
Таблица 22 |
Число |
Частота по |
ххр |
л —х |
(х-х)* |
р (х—х)* |
|
клеток (д |
ражений (р \ |
|||||
0 |
112 |
|
0 |
— 1,54 |
2,3716 |
265,9192 |
1 |
168 |
|
168 |
—0,54 |
0,2916 |
48,9888 |
2 |
130 |
|
260 |
- 0 ,4 6 |
0,2116 |
27,5080 |
3 |
68 |
|
204 |
1,46 |
2,1316 |
144,9488 |
4 |
32 |
|
128 |
2,46 |
6,0516 |
193,6512 |
5 |
5 |
|
25 |
3,46 |
11,9716 |
59,8580 |
6 |
1 |
|
6 |
4,46 |
19,8916 |
19,8916 |
7 |
1 |
|
7 |
5,46 |
29,8116 |
28,8116 |
Сумма . . • |
517 |
|
798 |
— |
— |
790,5772 |
Пользуясь данными табл. 22, находим: |
|
|
||||
X — |
Ихр |
_ 798 |
1,54 |
и |
790,6 |
|
п |
|
= 1,53. |
||||
|
' ==~ЪѴІ |
|
517 |
|
Из этого примера видим, во-первых, что средняя величина и дис персия совпадают друг с другом по абсолютной величине, что ха рактерно для распределения Пуассона'. А во-вторых, коэффи циент івариации в данном случае оказывается действительно до вольно высоким:
100 У 1,53
80,2%.
1Д34
Наконец, следует обратить внимание на еще одну особен ность коэффициента вариации, которую необходимо учитывать в исследовательской работе. Дело в том, что на величине коэффи циента вариации сказывается размерность признаков: для одних и тех же признаков этот показатель оказывается различным в за висимости от того, в каких величинах размерности они выраже ны. Иллюстрацией могут лужить данные, приведенные в табл. 23 (по Артемьеву, 1969) 2.
1 Нужно иметь в виду, что равенство между х и о2 не исключено и для строго симметричных распределений. Например, для ряда
X : 0 2 4 6 8 10
р: 1 5 10 10 5 1 — г= 5 и а2=5.
2 Ю. Т. А р т е м ь е в . К трактовке коэффициента вариации... «Науч. докл. высшей школы». «Биол. науки», № 11, 1969.
80
|
|
Т а б л и ц а 23 |
|
Коэффициент вариации внут- |
|
|
ренних органов малых сусли- |
|
|
ков при |
|
|
Органы |
кубическом |
|
линейном |
|
|
выражении |
выражении |
|
признаков |
признаков |
Сердце ....................................................... |
3,4 |
10,2 |
Л егкие....................................................... |
9,6 |
29,5 |
Селезенка ................................................ |
9,8 |
29,8 |
П о ч к а ........................................................ |
3,1 |
9,4 |
Печень....................................................... |
3,0 |
9,3 |
Известно, что соотношения между линейными, поверхностны ми и объемными величинами одного и того же предмета выража ются как 1:2:3. Отсюда следует, что при одинаковой точности измерений коэффициент вариации весовых величин будет в три раза больше, чем величин линейных. Отмеченные особенности, связанные с конструкцией этого показателя, необходимо учиты вать при использовании его для сравнительной характеристики варьирования признаков разной размерности.
НОРМИРОВАННОЕ ОТКЛОНЕНИЕ
В области биометрического анализа видное место принадле жит еще одному показателю, называемому нормированным от клонением и обозначаемому символом t. Нормированное откло нение показывает, на сколько сигм (т. е. единиц меры, которой служит среднее квадратическое отклонение) та или иная вариан та или какой-нибудь другой член данной совокупности отклоня ется от среднего уровня варьирующего1признака. Мы уже встре чались с этим относительным показателем, когда рассматривали формулу, описывающую нормальную кривую. В простейшем ви
де нормированное отклонение представляет |
отношение |
отдель |
ных вариант от их средней арифметической |
к величине |
сигмы, |
т. е. |
|
|
X — X |
|
|
о |
|
|
Помимо теоретического значения, нормированное отклонение находит широкое практическое приложение. Например, обследо вание физического развития учащихся ремесленных школ Моск
вы, проведенное в 1957/58 учебном году, |
показало,, что средний |
рост юношей в возрасте 15 лет равен |
164,8 см при а = 5,8 с м 1. |
1 А. И. Л а п п о - Д р о з д о в а . Динамика физического развития подрост ков. Медгиз, М., 1960.
81
Оценивается юноша, рост которого оказался равным 171,2 см:
171,2-164,8
t = |
+ 1 ,1 . |
5^8 |
|
Поскольку любая варианта, |
принадлежащая к совокупности, |
распределяемой по нормальному закону, может отклониться от средней арифметической до трех сигм, найденная величина, рав ная 1,1 сигмы, указывает на незначительное увеличение роста этого юноши по сравнению со средним уровнем этого признака для данной группы индивидов.
Нормированное отклонение можно использовать и для срав нительной оценки индивидов по тому или иному признаку. На пример, при изучении кожной рецепции (т. е. чувствительности) юношей и девушек 16—17-летнего возраста показало, что рассто яние ножек эстезиометра, при котором еще ощущаются две точ ки прикосновения к ладони правой руки, равно в среднем у юно шей Xі==3,1 мм, а у девушек — £2 = 2,63 мм. Это значит, что в среднем девушки обладают более высокой степенью рецепции, чем юноши. Средние квадратические отклонения для этих групп оказались равными, соответственно: сң= 0,9 мм и О2= 0,3 мм.
Сравниваются друг с другом юноша и девушка одного и того же возраста, у которых показатели рецепции ладоней правой ру ки оказались: у юноши 3,31 мм, а у девушки 2,70 мм. Как и сле довало ожидать, рецепция ладоней, выраженная в абсолютных показателях, выше у девушки. Если же сравнивать их по относи тельным показателям, то разница между юношей и девушкой по этому признаку отсутствует, именно:
и = |
Q Q1 __ Q 1А |
0,233, |
или 23,3%; |
|
’ в |
9 ’-----= |
|||
h = |
о 70 |
_2 63 |
0,233, |
или 23,3%. |
------ -— = |
||||
|
0,3 |
|
|
ГЛАВА ШЕСТАЯ
ВЫБОРОЧНЫЙ МЕТОД
ВЫБОРКА И ЕЕ РЕПРЕЗЕНТАТИВНОСТЬ
Чтобы получить исчерпывающую информацию о состоянии той или иной статистической совокупности, нужно учесть весь ее со став без исключения. Так иногда и поступают, например, при государственных переписях населения, при поголовном учете жи вотных той или иной породы (вида) в стране, при полной регист рации больных в данной местности и в других случаях, когда возникает необходимость иметь точные данные о состоянии изу чаемого явления.
Однако', в силу разных обстоятельств, не всегда приходится прибегать к сплошному обследованию изучаемых совокупностей. Во-первых, потому, что эта работа сопряжена с большими затра тами труда и времени, не говоря уже о больших затратах мате риальных средств, а во-вторых, ввиду практической невозможно сти или нецелесообразности полного учета всех членов совокуп ности. Естественные популяции, как правило, недоступны сплош ному статистическому описанию. Невозможно, например, учесть все население фитоили зоопланктона даже небольшого водоема ввиду практически необозримого числа составляющих его орга низмов. Нецелесообразно высевать всю партию семян для того, чтобы определить их всхожесть и т. д.
Вследствие этого и в целях экономии времени и средств вместо сплошного учета всех членов изучаемой совокупности анализу подвергается обычно какая-то ее часть, по которой и судят о состоянии всей совокупности в целом. Отсюда идут по нятия о генеральной (общей) и выборочной совокупности, ис следуемых с точки зрения интересующего нас признака (или признаков). Совокупность, из которой отбираются варианты для совместного изучения, называется г е н е р а л ь н о й , а отобран
ная |
из генеральной совокупности часть ее членов носит назва |
||||
ние |
в ы б о р к и , или |
выборочной |
совокупности. |
Объем |
гене |
ральной совокупности |
обозначается |
символом N, |
а объем |
вы |
|
борки — п. |
|
|
|
|
Сущность выборочного метода заключается в том, чтобы по свойствам части (выборки) судить о численных характеристи ках целого (генеральной совокупности), по отдельным группам вариант — об их общей совокупности, которая иногда мыслится как совокупность неограниченно большого объема. Основу вы борочного метода составляет та внутренняя связь, которая су ществует в популяциях между единичным и общим, частью и це лым.
83
Выборочный метод имеет очевидные преимущества перед сплошным изучением генеральной совокупности, так как сокра щает объем работы (за счет уменьшения числа наблюдений), позволяет экономить силы и средства, получать информацию о таких совокупностях, полное обследование которых практиче ски невозможно или нецелесообразно.
Опыт показал, что правильно произведенная выборка до вольно хорошо представляет или репрезентирует (от лат. гергеsento — представляю) структуру и состояние генеральной сово купности. Однако полного совпадения выборочных данных с данными обработки генеральной совокупности, как правило, не бывает. В этом и заключается недостаток выборочного метода, на фоне которого видны преимущества сплошного описания ге неральной совокупности.
Ввиду неполного отображения выборкой статистических ха рактеристик (параметров) генеральной совокупности перед ис следователем возникает важная задача: во-первых, учитывать
исоблюдать те условия, при которых выборка наилучшим обра зом репрезентирует генеральную совокупность, а во-вторых, в каждом конкретном случае устанавливать, с какой уверенностью можно перенести результаты выборочного наблюдения на всю генеральную совокупность, из которой выборка взята.
Репрезентативность выборки зависит от целого ряда условий
ипрежде всего от того, как она осуществляется — или плано мерно, т. е. по заранее намеченной схеме, или путем неплано
мерного отбора вариант из генеральной совокупности. В любом случае выборка должна быть т и п и ч н о й и вполне о б ъ е к т ив но й . Эти требования должны выполняться неукоснительно как наиболее существенные условия репрезентативности выбор ки. Например, при измерении длины колосьев или подсчете со держащихся в них зерен нельзя учитывать, т. е. включать в выборку, пораженные головней, оборванные и вообще испорчен ные колосья, так как они нетипичны для данной совокупности. Поэтому прежде чем обрабатывать выборочный материал, его нужно тщательно проверить и освободить выборку от всего лиш него, что нарушает условия репрезентативности. В то же время при образовании выборки нельзя поступать по произволу, вклю чать в ее состав только те варианты, которые кажутся типичны ми, а все остальные браковать. Доброкачественная выборка должна быть объективной, т. е. производиться без предвзятых по буждений, при исключении субъективных влияний на ее состав, Выполнению этого условия репрезентативности отвечает прин цип р е н д о м и з а ц и и (от анг. random — случай), или случай ного отбора вариант из генеральной совокупности. Этот принцип положен в основу теории выборочного метода и должен соблю даться во всех случаях образования репрезентативной выбороч ной совокупности, не исключая и случаев планомерного или преднамеренного отбора.
84
Случайный отбор вариант из генеральной совокупности — это не хаотический, не беспорядочный отбор, а такой, при кото ром устраняются субъективные влияния на состав выборочной совокупности. Случайный отбор производится по способу лоте реи или жеребьевки, когда ни одна варианта генеральной сово купности не получает никаких преимуществ перед остальны ми — попасть или не попасть в состав выборочной совокупности. В целях полного исключения субъективных влияний на состав выборки в особо ответственных исследованиях прибегают к ис пользованию специальных таблиц случайных чисел, с помощью которых производится формирование выборочной совокупности. Сущность этого метода заключается в следующем. На численно ограниченной, но достаточно большой искусственной модели ге неральной совокупности путем случайного отбора образуют ряд чисел. Отбор производится по схеме «возвращенных в урну ша ров» *. Получаемые при этом случайные числа заносятся в таб лицу таким образом, чтобы числа имели одинаковое количест во цифр. Этим обеспечивается удобство использования таблицы случайных чисел в практических целях. Например, при трехзначности чисел цифра 8 заносится в таблицу в виде 008, число 69 — в виде 069 и т. д.
Числа записываются в таблицу вне всякой последовательно сти, в случайном порядке. На этом основании она и называется таблицей случайных чисел. Такая таблица приводится в прило жениях под № IV. Как пользоваться этой таблицей? Покажем это на следующем примере. Для проведения эксперимента не обходимо из общего числа 120 лабораторных животных, содер жащихся в виварии, отобрать 6 особей. Если выбрать первых попавшихся на глаза, можно ошибиться: особи могут резко вы деляться по учитываемому признаку от всех остальных. Чтобы выборка действительно носила случайный характер, а следова тельно, наилучшим образом была репрезентативной, следует поступить так: всем животным вивария присвоить индивидуаль ные номера от 1 до 120. Затем по таблице случайных чисел нахо дим те из них, которые не превышают 120, т. е. отвечают постав ленной задаче. По условию опыта таких чисел должно быть отобрано шесть. Так как табл. IV состоит из четырехзначных, а мы должны отбирать числа не больше трехзначных, условим ся учитывать первые три цифры каждого четырехзначного числа в колонках этой таблицы. Можно, конечно, исходить и из друго го условия, лишь бы оно обеспечивало отбор нужных номеров. В первой колонке табл. IV находим числа 90 и 91 (т. е. числа 0905 и 0912, но последние их цифры — 5 и 2 не учитываем, как1
1 В приложении к лотерее с билетами, на которых написаны номера, эта схема означает: из урны вынимается билет, его номер регистрируется, после ■чего он возвращается обратно в урну, так что может выйти в тираж неодно кратно.
85
условились). Во второй колонке той же таблицы отбираем чис ла 47 и 41 (других отвечающих нашим требованиям в ней нет) и
в третьей колонке находим остальные два числа — 62 и |
84. Все |
|
го отобрали |
шесть чисел: 90, 91, 47, 41, 62 и 84. Особей |
с этими |
номерами и |
включаем в состав экспериментальной группы. |
РЕПРЕЗЕНТАТИВНОСТЬ ВЫБОРОЧНЫХ ПОКАЗАТЕЛЕЙ
Характеристики генеральной совокупности — средняя вели чина (М), дисперсия (а2) и среднее квадратическое отклонение (о ) — представляют собой величины постоянные (параметры). По отношению к ним соответствующие выборочные характерис тики— X, о2 и а 1, которые служат оценками генеральных пара метров, являются величинами случайными: они могут совпадать и не совпадать с величиной генеральных параметров. Отсюда возникает вопрос о репрезентативности выборочных показате лей.
Возможные отклонения выборочных показателей от их пара метров в генеральной совокупности, которая обычно мыслится
как совокупность |
неограниченно |
большого объема, |
называются |
||
о ш и б к а м и репрезентативности. Это |
ошибки |
не |
технические, |
||
а статистические, |
возникающие |
не в |
процессе |
измерений или |
учета единиц совокупности и не вследствие вычислительной ра боты, а исключительно в силу недостаточной точности, с какой выборка репрезентирует генеральную совокупность. Но, как и ошибки, допускаемые при измерении биологических объектов, выборочные ошибки, или ошибки репрезентативности, могут быть и случайными и систематическими. Первые возникают независи мо от воли естествоиспытателя, вторые являются следствием несоблюдения условий репрезентативности при образовании вы борочной совокупности или какой-нибудь другой определенной причины. Систематические ошибки устраняются с устранением вызывающих их причин, главным образом при соблюдении прин ципа рендомизации. Случайные же ошибки репрезентативности остаются и должны учитываться при оценке генеральных пара метров по данным выборочного наблюдения. При сплошном (т. е. невыборочном) изучении генеральной совокупности ошиб ки репрезентативности не имеют места.
Размеры выборочных ошибок зависят главным образом от объема выборки и от размаха варьирования признака; на них сказываются также и способы отбора вариант из генеральной совокупности.1
1 В ряде руководств через а2 обозначается дисперсия генеральной сово купности в отличие от дисперсии выборки, которую обозначают символом S 2. Чтобы не умножать число символов, в данном руководстве и генеральная и выборочная дисперсия обозначается одним и тем же символом а2.
86
Ошибка средней арифметической
Представим, что из одной и той же совокупности, распреде ляемой по нормальному закону, отобрано повторным случайным способом (т. е. по принципу «возвращаемых в урну шаров») какое-то количество независимых выборок, т. е. отдельных групп вариант. Очевидно, частные или групповые средние — хі,Х2 , хз,..., Xk, характеризующие эти выборки, как величины случайные бу дут варьировать вокруг одного и того же центра распределе ния— генеральной средней (М), которая, как уже было сказа но, является величиной постоянной. Спрашивается, какова величина этой вариации и как ее измерить? Из предыдущих глав известно, что основным мерилом вариации, т. е. возможных от клонений вариант от их средней величины, служит дисперсия и среднее квадратическое отклонение. Эти же показатели характе ризуют и варьирование выборочных средних. В математической статистике доказывается, что выборочные средние варьируют
в У п раз меньше, чем отдельные варианты одной и той же гене ральной совокупности. Отсюда следует, что среднее квадратиче ское отклонение, характеризующее варьирование выборочных средних вокруг их генерального параметра, равняется:
------ , или а—= |
(48) |
Y ч
Обычно этот показатель называют выборочной ошибкой сред ней (х), или ошибкой репрезентативности; в дальнейшем она обозначается буквой т, которая сопровождается символом того показателя, к которому относится ошибка.
Так как в формулу выборочной ошибки входит не генераль ная, а выборочная дисперсия, то более точной будет формула ошибки, в которой п заменяется на п—1, т. е. число степеней свободы:
т - = — ° - , или |
т - = 1 / |
j foüT-*)2- . |
(49) |
У ѣ— 1 |
' |
п{ѣ— 1) |
|
На выборках большого объема разница между п и п—1 прак тически не сказывается на величине ошибки, поэтому ее можно вычислять и по формуле 48. На выборках же небольшого объе ма («<30) выборочная ошибка должна вычисляться с учетом степени свободы, т. е. по формуле 49 или по следующим анало гичным формулам:
тх= |
(50) |
87
|
|
т7- |
|
|
|
|
а |
|
|
(51) |
|
|
|
|
|
|
ѣ{п— \) |
|
|
||||
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|||
Для примера возьмем следующие |
восемь |
вариант — 2 4 3 |
|||||||||
7 5 6 4 |
5 — и вычислим их среднюю величину с ее ошибкой: |
||||||||||
значения |
вариант |
(х): |
2 |
4 |
3 |
7 |
5 |
б |
4 |
5; |
Их = 36 |
квадраты |
{х2): |
|
4 |
16 |
9 |
49 |
25 |
36 |
16 |
25; |
2л:2=180 |
|
36 |
4,5, |
|
X 2 = (4,5)2 = |
20,25, |
откуда |
|||||
|
X = |
|
|||||||||
|
8 |
|
|
|
|
|
|
|
|
|
|
|
|
20,25 |
= 0,32 или |
т г = |
/0 ,3 2 = 0 ,5 7 . |
Если средняя арифметическая вычисляется упрощенным спо собом, то и ее средняя ошибка определяется тем же способом по формуле
т- |
1 |
"Ео2 |
(52) |
|
п — 1 |
п |
|||
|
( * ) * ] • |
где а = х—А, т. е. отклонение варианты от условной средней А. Применим эту формулу к тому же примеру:
варианты (я): |
2 4 |
- 1 |
3 |
7 |
5 |
6 4 |
5; |
А — 4 |
||
(* — А)=а: |
- 2 |
0 |
1 |
+ 3 +1 |
1 |
+ 2 |
0 |
+1; |
2д = + 4 |
|
а2: |
4 |
0 |
|
9 |
4 |
0 |
1; |
Тд2 = 20 |
тт |
|
|
|
. Sa |
4 |
Находим среднюю: |
х = А-{----- = |
4Ң----- = 4,5 и ее ошибку: |
|||
|
|
20 |
|
|
8 |
2 |
1 |
4_' 2 |
- 0,32 или от- =1^0,32 = 0,57. |
||
ОТ— = - |
8 ‘ |
8 |
|||
* |
7 |
|
|
Выборочная ошибка выражается в тех же единицах измере ния, что и сопровождаемые ею показатели. Она имеет два зна к а — плюс и минус, характеризуя отклонения выборочных пока зателей как в сторону больших ( + ), так и в сторону меньших
(—) их значений по отношению генерального параметра. В це лях упрощения записей знак ± , которым сопровождается ошиб ка, обычно опускается, но всегда подразумевается. Средняя арифметическая с ее ошибкой записывается так:
X± о т —.
Вданном примере эта запись выглядит в виде
X і от—= 4,5 + 0,57.
88
Свойства средней ошибки. Закон больших чисел
Выборочная ошибка характеризует варьирование выбороч ных показателей вокруг их генеральных параметров; она обла дает теми же свойствами, что и среднее квадратическое откло нение. Лишь одно свойство специфично для выборочной ошибки: она уменьшается при увеличении числа наблюдений (п ). Это свойство выборочной ошибки обусловлено действием статисти ческого закона б о л ь ш и х чисел. В этом законе выражается внутренняя связь между числом испытаний и приближением вы борочной средней к своему генеральному параметру — матема тическому ожиданию.
Первоначальные теоретические обоснования этого закона были даны еще Якобом Бернулли. А само его название Закон больших чисел предложил Пуассон. В дальнейшем Чебышев, Марков, Ляпунов и другие математики уточнили первоначаль ную формулировку закона. В общей формулировке Закон больших чисел утверждает, что вероятность апостериори будет сколь угодно близкой к вероятности априори события, если чис ло испытаний неограниченно возрастает. Применительно к эмпи рическим совокупностям эта формулировка означает, что выбо рочная средняя (ж) будет сколь угодно мало отличаться от генеральной средней (М), если число наблюдений (п) неогра ниченно возрастает. Иначе говоря, чем больше объем выборки, тем точнее средний результат, тем меньше выборочная средняя будет отличаться от средней генеральной совокупности. Следо вательно, при увеличении числа испытаний ошибка выборочной средней будет уменьшаться, т. е. при п— >-оо т— И). Отсюда ста новится яснее значение выборочной ошибки: она указывает на точность, с какой определена сопровождаемая ею средняя вели чина.
Величина средней ошибки зависит не только от объема вы борки, но и от размаха варьирования признака: чем больше раз мах вариации, тем больше будет и величина выборочной ошиб ки, и наоборот, при сравнительно слабом варьировании призна ка ошибка средней арифметической оказывается меньше.
Наряду с отмеченными причинами на величине средней ошибки сказывается и способ отбора вариант из генеральной совокупности.
Ошибка при разных способах отбора вариант из генеральной совокупности
В зависимости от характера и методики исследования отбор вариант из генеральной совокупности может производиться по-разному. Существует два основных способа отбора: повтор ный и бесповторный случайный отбор. Повторный отбор прово дится, как уже упоминалось выше, по схеме возвращаемых
89