Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Вариационная статистика

.pdf
Скачиваний:
50
Добавлен:
11.03.2016
Размер:
6.2 Mб
Скачать

Н. Н. СВАЛОВ

ВАРИАЦИОННАЯ

СТАТИСТИКА

Издательство

«ЛЕСНАЯ ПРОМЫШЛЕННОСТЬ:о

ПРЕДИСЛОВИЕ

В лесотехнических вузах нашей страны «Вариационная ста­ тистика» как учебная дисциплина имеет полувековую историю.

Большую роль в развитии данной. дисциплины сыграли труды

профессорав-математиков М. Ю. Поморского, В. В. Голубева, А. Н. Дьячкова, А. К. Митропольского, читавших этот курс

в лесотехнических вузах.

Ряд содержательных пособий по вариационной статистике

в последнее время написали специалисты-лесоводы - К. Е. Ни­ китин (1961}, М. Л. Дворецкий (1961, 1971}, Н. Л. Леонтьев

(1966), О. А. Трулль (1966), И. И. Гусев (1970), Э. Н. Фала­

леев, П. М. Верхунов, Л. П. Зайченко, 3. В. Медведева (1974). Возросшие возможности применения статистического ана­

лиза опытных данных, в связи с широким внедрением электрон­

но-вычислительной техники, привели в последнее время к рас­ ширению курса «Вариационная статистика» в лесотехнических

вузах.

В данной книге изложено содержание курса для студентов

лесохозяйственных факультетов в его новом, расширенном объ­

еме. По сравнению с ранее изданными пособиями в настоящей книге более значительное место отведено методам анализа

малых выборок, рассмотрены основы дисперсионного, корреля­

ционного и регрессионного анализа, введены понятия теории пла­ нирования эксперимента.

ВВЕДЕНИЕ

Статистическая теория количественного описания и анализа

массовых явлений берет свое начало в XVI-XVII вв. Особенно стремительное развитие она получила во второй половине ХХ в.

Разработка английским ученым Р. А. Фишером методов стати­

стического анализа малых выборок привела к широкому внед­

рению этих методов в практику принятия рациональных решений

и в экспериментальные исследования.

3

Статистические методы многочисленны и разнообразны.

Однако в целом они представляют единый систематический и ло­

гический подход к изучению явлений, имеем ли мы дело с при­ родными феноменами, комплексами физических единиц или ре­

зультатов массовых измерений одного и того же предмета. Ста­

тистические методы обеспечивают исследователям и специали­ стам, управляющим хозяйством, правильную постановку опытов (наблюдений), получение кратких сводок и небольшага числа

характеристик многочисленных опытных данных.

Главная черта современных статистических методов исследо­ вания явлений состоит в том, что они дают возможность полу­ чать оценки и обобщения, распространяющиеся за пределы непо­

средственно изученных выборочных данных. Это могут быть

решения, которые принимают или отвергают гипотезы.

В основе статистических методов лежит предположение,

называемое по-разному: единообразием или ограничением неза­

висимой вариации в природе, статистической устойчивостью опы­

та, законом больших чисел. Суть предположения состоит в том,

что поведение отдельно взятого индивидуума или результата

наблюдения случайно, непредсказуемо. Если такое поведение

или результат наблюдения рассматривать в сочетании с подоб­

ными, то получим совокупности, в которых наблюдается едино­ образие, поддающееся численной оценке.

Единообразие в природных явлениях не строгое. Поэтому

оценки явлений, получаемые по выборочным данным, даются

не однозначно, а выражаются в вероятностной форме. Эти оцен­

ки можно успешно использовать для познания массовых явле­

ний и в практике принятия рациональных решений. Теоретические основы для указанных статистических оце­

нок яв.r1ений изложены в главах I и II.

Статистическое исследование может охватить одно изучае­ мое явление. В этом случае получают числовые характеристики

распределения отдельных единиц (индивидуумов), составляю­

щих исследуемое явление,- среднюю величИну, показатели раз­

нообразия или вариации. При значительном объеме опытных

данных ( 100 единиц и более) возможно найти показатели формы кривой распределения, подобрать теоретическую модель, обес­

печивающую выравнивание распределения опытных данных.

Статистические методы исследования отдельных явлений

изложены в главах 111-,У, VIII.

Нередко исследования проводят в виде многогруппового опы­

·та, когда одно изучаемое явление подразделяют на группы, про­

веряя, например, эффект удобрения, действие препарата на рас­

тение, животных или насекомых и т. д. Статистические методы

при таком опыте позволяют найти обоснованные решения на

~снове сравнения статистических характеристик для групп.

Методы анализа данных многогруппового опыта; называемо­

го дисперсионным анализом, изложены в главе VII.

4

Часто приходится изучать одновременно два ИJ!'И более явле­

ния, например, размеры деревьев по высоте и толщине, рост

деревьев в связи с возрастом и т. д. Статистические методы дают

возможность количественно измерить связь между явлениями,

выразить ее конкретным математическим уравнением.

Изложению статистических методов оценки связи посвящены

главы IX-XI.

Опытной основой статистического исследования являются

данные наблюдений, которые обычно составляют выборку из

некоторой общей совокупности данных. Для правомерности индуктивных статистических заключений о совокупности по вы­

борочным данным неоqходимо, чтобы последние были репрезен­

тативными, т. е. достаточно полно представляли совокупность.

Вопросы планирования выборочных наблюдений кратко изло­ жены в главе XII.

Статистические методы в этой книге изложены в прикладнам лесабиологическом аспекте.

Глава 1

ПРЕДМЕТ И МЕТОД ВАРИАЦИОННОй СТАТИСТИКИ

§ J. ПРЕДМЕТ ВАРИАЦИОННОЯ СТАТИСТИКИ

П р е д м е т в ар и а ц и о н н ой с т а т и с т и к и - изучение

свойств массовых явлений в биологии, экономике, технике и дру­

гих областях. Эти явления обычно представляются сложными вследствие разнообразия (варьирования) отдельных индивиду­

умов или единиц. Чтобы получить правильное представление об

изучаемых свойствах массовых явлений и дать им определенные

количественные оценки, их подвергают совместному рассмотре­

нию и анализу. Отдельные единицы или индивидуумы, обладаю­ щие некоторым общим свойством, объединяют в совокупности. Наблюдаемые единицы называют в а р и а н т а м и, а образуе­

мую совокупность единиц - с т а т и с т и ч е с к о й с о в о к у п -

н о с т ь ю.

Единицами совокупности могут быть, например, деревья опре­ деленной породы, возраста, состояния. Ими могут быть семена

деревьев одной какой-либо породы или взятые с одного дерева

или ветви. Общее свойство, каким в данном примере являЮтся

порода, возраст, состояние деревьев, масса, размер или качество

семян, называют п р из н а к о м.

Статистическая совокупность может быть образована по одному или по нескольким признакам. Она может состоять из одной или нескольких однородных в отношении изучаемого свой­

ства групп. Так, можно изучать деревья· данного вида и возраста

вотношении, например, размера ствола, кроны или других их

частей. Однако часто бывает целесообразно подразделить от­

дельные наблюдаемые единицы на группы для достижения боль­

шей однородности их внутри этих групп.

Теорию и методы изучения свойств массовых явлений, вычис­

ления и анализа их количественных характеристик излагает нау­ ка, носящая названиевар и а ц и о н н а я с т а т и с т и к а.

6

Раньше других начали изучать массовые явления в биологии, rлавным образа!'/ размерные характеристики человека. В 80-е

годы XIX в. науку, излагающую методы изучения массовых явле­

ний в биологии, английский ученый Ф. Гальтон назвал б и о­ м е три ей (от лат. Ьiosжизнь, metron- мера).

Термин «вариационная статистика» был введен позднее. Он

шире и точнее отражает сущность данной науки и означает, что

вариационная статистика измеряет все массовые явления. Одна­

ко и этот термин не единственный. Теория и методы наблюдений

и интерпретации массовых явлений излагаются в последнее вре­

мя под различными названиями, среди которых наиболее общим

является термин «статистические методы».

§ 2. МЕТОД ВАРИАЦИОННОЯ СТАТИСТИКИ

Метод изучения массовых явлений, применяемый статисти­ кой, основан на теории вероятностей. Теория вероятностей уста­ навливает закономерности событий, наступающих случайно и на­ зываемых случайными. Статистика предполагает анализ массо­

вых явлений, имеющих также случайный характер в распределе­ нии значений отдельных единиц, составляющих явление.

Вместе с тем метод статистики принципиально иной. Теория

вероятностей имеет дело с исходными явлениями, структура

которых известна, например, содержание шаров в урне (сколько белых и сколько черных). В самом общем смысле задача теории вероятностей состоит в том, чтобы математически-дедуктивным путем (идя от общего к частному) вывести теоремы о наступле­

нии того или иного события в серии испытаний.

Дедуктивные выводы имеют такую общую форму: Б о .1 ь ш а я посыл к а: все зерна в ящике белые.

М а л а я посыл к а: эти зерна (определенная приrоршня) из данного

ящика.

3 а к л ю ч е н и е: эти зерна (прнгоршня) белые.

Дедуктивное заключение не может быть ошибочным, если посылки пра­ nильны. Здесь налицо вся .информация, содержащаяся в посылках. Заключе·

ние является только выражением подразумеваемой в посылках закономер·

!ЮСТИ.

Статистика имеет дело с открытыми системами, не охвачен­

ными сплошным изучением. Центральной задачей вариационной

статистики как метода исследования являются заключения,

выходящие за рамки изученного материала, т. е. заключения

о свойствах статистических совокупностей, принимая во внима­

ние и неизученную их часть.

Всю статистическую совокупность, в отношении которой

делают статистические обобщения и заключения, называют

о б щ е й, или г е н ер а ль н ой с о в о к у п н о с т ь ю, а часть

ее, охваченную непосредственным наблюдением, называют в ы -

б о р о ч н о й с о в о к у п н о с т ь ю.

7

Вариационная статистикаприменяет метод оценки общей

совокупности на основе изученных отдельных единиц или на

основе выборочных совокупностей.

Метод изучения явлений, при котором приходят к обобще­

ниям, изучив отдельные случаи этого явления, называется м е­

т о д о м и н д у к ц и и.

Следовательно, вариационная статистика использует метод индуктивных заключений.

Индуктивное заключение, как общий логический процесс, идущий от боль­

шой и малой посылки, имеет такую форму:

 

Большая

посыл к а:

эти зерна (определенная пригоршня)

из дан-

ного ящика.

 

 

 

М а л а я посыл к а: эти зерна белые.

 

3 а к л ю ч е н и е: все зерна

в ящике белые.

 

Очевидно, что заключение с индуктивной аргументацией шире. чем посыл­

ки. В заключении

добавляется

нечто новое, расширяющее знания об

изучае­

мом явлении. Это потенциальное расширение знаний требует осторожности.

Оно может быть плодотворно, но существует векоторая опасность получить необоснованные и ложные выводы.

ЛоГическим оанованием индуктивного заключения является предположе­ ние о единообразии в системе фактов, относящихся к посылкам и заключе­

нию. Это предположение, называемое по-разному- единообразием в природе,

статистической устойчивостью опыта, ограничением независимой вариации

в природе,- всегда представЛяет как бы невысказанную посылку индукции.

Если бы единообразие в естественных процессах не проявлялось, природе был бы свойствен полный хаос. При этом никакое нагромождение фактов не могло бы оправдать индукцию. Нельзя был~ бы ничего сказать об усло­ виях за пределами опыта. Но природе свойственно определ~нное единообра­

зие в поведении отдельных единиц, составляющих то или иное массовое явле­

ние. Однако это единообразие в природе не столь ст,рого, чтобы можно было сделать точную оценку массового (общего) явления наблюдаемых единиц. Поэтому статист,ические заключения о свойствах генеральных совокупностей по выборочным всегда имеют вероятностный характер, т. е. делаются с опре­ деленной степенью безошибочности и никогда не делаются с полной досто­

верностью.

Следует отметить, что конструкция выборочных оценок оказывается более

предпочтительной даже в тех случаях, когда все единицы, составляющие-то

или иное явление, могут быть измерены, т. е. относятся к ограниченным гене· ральным совокупностям. Это положение, затронувшее различные виды гене­

ральных совокупностей, нуждается в более широком пояснении. На практике встречаются обследуемые генеральные совокупности конечные и бесконечные.

Примерам первой может служить выборочное обследование, допустим, бюд­

жетов семей в определенном городе.

С бесконечными совокупностями имеют дело при различных эксперимен­

тальных исследованиях, когда вопрос заключается не в том, чтобы получить точный результат в данном эксперименте, но главным образом в оценке того,

каковы будут результаты массового применения данного процессабиоло­ гического, технологического или эконо~1ического. Предположим, производитсн

оценка степени повреждае:~~ости подроста на нескольких десятках лесосек при

данной технологии лесосечных работ (в % от обследованных единиц). В дан­ но:~~ случае генеральная совокупность бесконечна, ибо для оценки не столь уж

важно, сколько поврежден{) подроста на данных лесосеках, как то, сколько

его будет повреждаться при подобных условиях на всех других лесосеках,

не исследованных в опыте. Здесь научный эксперимент становится как бы «механизмом» нолучения случайной выборки.

Возможны обстоятельства, когда полезно прибегнуть к особой логиче­

ской конструкциипшотетической генеральной сверхсовокупности. Иногда мы

8

ыожем располагать данными даже сплошного обследования реально суЩест­ вующей совокупности, и все же бывает полезно рассматривать эти данные как выборку из векоторой сверхсовокупности. Так поступают, когда не только нужны полученные факты, но и необходимо выявить общую закономерность, но отношению к которой статистический материал представляется лишь част­

ным случаем.

ПредполоЖим, что из статистиЧеских обследований рождаемости 11 стране за ряд лет установлено, что 52% из числа родившихся составили мальчики.

Эти данные получены путем сплошного обследования и характеризуют явление однозначно. Однако, есл.и нас интересует результат и за пределами обследо­

ванных лет или проверяется заключение о том, что мальчиков рождается

больше, тогда полученные данные следует рассматривать как выборку из некоторой бесконечной сверхсовокупности различных возможных . пропорций рождений по полу. На основе таких данных, пользуясь методами статистики, нредставляется возможным исследовать, приемлемо ли предположение о более

частой рождаемости мальчиков. Заметим, что определяемая таким образом

сверхсовокупность не ограничена ни численностью, ни территорией, в которой

произведен эксперимент.

Глава 11

ОСНОВЬI ТЕОРИИ ВЕРОЯТНОСТЕН

Статистическая индукция или статистические заключения, как главная составная часть метода исследования массовых явлений, имеют свои отличи­ тельные черты. Статистические заключения делают с численно выраженной определенностью. Теоретической основой для их построения является раздел математики, изучающий закономерности случайных событий и называемый тео­ рией вероятностей. Предпосылка, что результаты статистического наблюдения отобраны в случайном порядке из соответствующих генеральных совокупно­

стей, дает возможность в соответствии с теорией вероятностей оценить сте­

пень отклонения результатов наблюдения от соответствующих показателей генеральной совокупности. Таким образом, вероятностная основа вариацион­

ной статистики позволяет оценить степень точности получаемых результатов

опыта.

Внастоящей -главе рассматриваются основополагающие понятия, теоремы

иметоды теории вероятностей, основные модели распределений случайных

собьпнй. Вопросы теории статистической оценки изложены в главе VI, т. е.

110сле рассмотрения в главе V техники вычисления статистических характе­ ристик выборки. Это сделано с тем, чтобы теорию оценки излагать на опыт­ ной основе.

§ 1. ПОНЯТИЕ СЛУЧАйНОГО СОБЬIТИЯ

Основу изучения природ11ых процес-сов составляет выявление причинно­

следственных связей между явлениями экспериментальным путем.

Осуществив по своему желанию одно или несколько первоначальных явле­

ШIЙ (в дальнейшем они называются факторами), экспериментатор получает IJозможность нзучать появляющиеся явленияследствия. Иногда в процессе эксперимента удается сделать случайное открытие, т. е. обнаружить явле­ ние-следствие, о которо~I ранее ничего не было известно. Но, как правило,

экспериментатор заранее намечает явления-следствия, появление которых он

ожидает. При этом самое сложное явление можно разбить на частные, мел­

кие явления, относительно которых остается выяснить: произошли они или

не произошлн.

Например, обрабатывая семена на всхожесть определенным препаратом,

экспериментатор мог поставить задачу оценить эффект различных его доз.

9

в качестве результата эффекта могло быть принято число всхожих и невсхо­

жих семян.

Измеряя массу какого-либо вещества, в качестве отдельных частных явле­ ний можно рассматривать всевозможные априорные значения этой массы. Задача экспериментатора, таким образом, сводится к наб.1юдению того, какие·

из значений массы осуществились.

Явления, рассматриваемые с той точки зрения, осущестоолись они или

не осуществялись, называются с о бы т и я м и. Применительно к событиям

ставится основная задача: предсказать, появится ли изучаемое событие при осуществлении некоторого наперед заданного комплекса факторов (явлений-­

причин). Событие, которое при заданном комплексе факторов обязательно про­

изойдет, называется д о с т о в ер н ы м. Событие, которое при заданном комп­

лексе факторов не может произойти,

называется н е в о з м о ж н ы м

с о б ы -

т я е м. Суждения о достоверности

или невозможности пекотарого

собы'!'ия

являются категорическими суждениями. Такие суждения принято считать. окончательным результатом исследования. Отсюда возникает интерес к об­

ратной задаче: указать комплексы факторов, при которых о заданном собы­

тии можно сделать категорические суждения.

Однако каждое событиерезультат действия многих факторов, часть из

которых иногда .нельзя предсказать или организовать в опыте. В этом случае категорическое суждение о событии невозможно. Получается ситуация: задан­ ные факторы благоприятствуют собыmю, и, следовательно, оно может про­

изойти. С д-ругой стороны, действия этих факторов недостаточно, чтобы гаран­

тировать появление события, и, значит, оно может и не произойти.

Событие, которое при заданном комплексе факторов может либо про­ изойти, либо не произойти, называется с луч а й н ы м с о бы т и е м. Случай­

ные события связаны с действием не вошедших в организованный комплеJ\С факторов, называемых случайными факторами в отличие от другой группы факторов, включаемых в комплекс и называемых основными, или неслучай­

ными.

Предположим, исследуется численность возобновления в лесу. Такие фак­

торы, как порода, возраст, полнота или густота материнского древостоя, тип

леса, можно организовать в опыте, т. е. учесть. Эти факторы являются основ­

ными. Другая группа факторов является нензвестной, или не поддающейся

учету. Эти факторы nри статистическом анализ~ получили" название слу­

чайных.

§2.8ЕРОЯТНОСТЬ СЛУЧАйНОГО СОБЫТИЯ

Для того чтобы выяснить, произойдет или не произойдет событие при

заданном комплексе факторов, нужно осуществить этот комплекс, т. е. про­ вести испытание. Испытаннем является любой эксПеримент, в результате кото-

рого производят наблюдения.

·

Предсказать результат единичного испытания можно только для досто­

верных или невозможных событий. Случайность же события не видна нз еди­

ничного яспытания. Любое случайное событие по единичному испытанию

было бы оценено как достоверное, если оно произошло, и как неQозможное­

если не произошло. Такие оценки, однако, были бы сами случайными, как

и результат ед:иничного испытания. Теория оценки случайных событий строится

на большом числе испытаний, т. е. для массовых событий.

Важным условием при этом является неизменность комплекса основных

факторов. События, происходящие при одном и том же комплексе факторов,.

называются о д н о родным и. Установлено, что однородные случайные

события в большой их массе подчиняются некоторым закономерностям. Эти

закономерности получили название вероятностных.

Характер вероятностных закономерностей можно уяснить на следующих

примерах.

Пр и м е.р. Предположим, мы подбрасываем монету. При этом событием

будем считать выпадение герба. Никто не может предсказать определенно,.

10

произойдет ·или не nроизойдет событие при одном nодбрасывании: одинаково

возможно как его настуnление, так и ненастуnление.

События с одинаковыми возможностями осуществления называются р а в -

11 0 в 0 з м о ж н ы м и. Так, при оимметричной монете выпадение герба и циф­

рыравновоэможны.

Однако, если бы было произведено, например, 1000 бросаний, и из них

600 раз выпал герб, то для следующей серии испытаний можно было бы

предсказывать, что герб nоявится в 60%

случаев. Причем такое отклонение

от ожидае~ых 600

появлений герба из

1000 бросаний можно было

бы счи­

тать связанным с неснмметричностью монеты.

 

Установленное в

,результате опыта отношение числа nоявления

события

к общему числу всех

испытаний называется ч а с т о т о й с о бы т и я.

В ука­

.занном примере с монетой частота выпадения герба равна 0,6.

 

Из примера можно заключить, что частота события, выступающая как

пекоторая статистическая закономерность, связана с внутренними характери­

стиками события. Частота является, мерой этих внутренних характеристик·

события. Она тем надежнее, чем большее число испытаний было произве­

дено. При очень большом числе испытаний частота почти перестает изменяться,

нриближаясь к некоторой величине. Эту величину и можно принять за инте­

ресующую нас числовую характеристику.

Так, при бросании монеты

4, 12

н 24 тыс. раз частота появления герба соответственно равнялась 0,5080;

0,5016;

 

1

 

0,5005. Очевидно, что она здесь приближается к числу /2-

 

Числовая характеристика случайного события, обладающая тем свойст­

вом, что для любой достаточно большой

серии испытаний частота события

лишь незначительно отличается от этой характеристики, называется в ер о я т­ н о с т ь ю события.

Из этого рассмотрения устанавливаем, что вероятность является как бы

тем теоретическим пределом, к которому стремится частость при увеличении

числа испытаний. Вероятностьидеальное выражение частости.

L{анное определение вероятности называется статистическим. Это опреде­ ление не является достаточно строгим с точки зрения математики. По стати-

пическому определению трудно изучать свойства вероятности.

1

Однако имеется и ряд положительных его свойств. Статистический под­ ход позволяет находить вероятности событнй, структура которых неизвестна.

Например, только статистический подход позволил

определить вероятность рождения мальчиков, рав-

ную 0,52, н девочек- 0,48.

Существуют два других, более удобных с фор­

мальной точки зрения, определения вероятности:

классическое и геометрич€ское. Однако для них тре­ буется знать структуру рассматриваемых событий.

Понятие о

г е о м е т р и ч е с к о м о п р е д е л е -

н и и в е р о я т н о с т и можно

получить из следую-

щего прнмера испытаний.

·

П р и м е р.

Предположим,

в некотором квадрате

случайным образом выбирается точка. Какова веро­ ятность, что она окажется в области D (рис. 1).

Очевидно, что вероятность эта будет тем большей,

чем больше область D. В качестве мерила вероятно­ сти выступает эдесь площадь. Вероятность того, что случайная точка попадет в область .D (осуществление

событня D) равна: p(D) =Sn/S (11.1), где Sn -пло-

Рис. 1. Иллюстра­

ция понятия гео­

метрической веро-

ятности

щадь области D; S - п.1ощадь всего квадрата.

Геометрическое определение вероятности пригодно не только для плос­

кости, но и для nрямой или пространства.

В первом случае основой для определения вероятности служит некото­ рый отрезок, а случайным событиям соответствуют его части. Вероятность

вычисляется как отношение длины частей к общей длине отрезка. Во втором

.случае основой к испытанию принимают некоторый куб, случайным событиям