Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Лекция № 3

.pdf
Скачиваний:
23
Добавлен:
21.05.2015
Размер:
576.78 Кб
Скачать

Признак. Классификация признаков

Признак – свойство, проявлением которого один предмет отличается от другого. В биологии признаками, по которым проводят наблюдение над объектами, служат такие характерные особенности в строении и функциях живого, которые позволяют отличить одну единицу измерения от другой,

сравнивать их между собой.

Характерным свойством биологических признаков является варьирование величины признаков в определенных пределах при переходе от одной единицы наблюдения к другой. Эти колебания величины одного и того же признака, наблюдаемые в массе однородных членов статистической совокупности, называют вариациями, а отдельные числовые значения варьирующего признака принято называть вариантами.

Все биологические признаки варьируют, но не все они поддаются непосредственному измерению. Отсюда возникает деление признаков на

качественные, или атрибутивные, и количественные. Деление признаков на качественные и количественные весьма условно, поскольку в массе однородных индивидов, доступных измерению, можно выделить группы высоких, средних и низких и т.д., а в окраске цветков обнаружить целую гамму количественных переходов, или градаций, и измерить их. И все же,

несмотря на очевидную условность, классификация необходима хотя бы потому, что количественные признаки распределяются в вариационный ряд,

а качественные не распределяются. А при разных способах группировки исходных данных применяют различные способы их обработки.

Обычно в статистике различают три типа значений переменных:

количественные, номинальные и ранговые.

Значения количественных переменных являются числовыми, могут быть упорядочены и для них имеют смысл различные вычисления (например,

среднее значение). Их делят на мерные, или метрические, и счетные, или

метристические. Величина мерного признака варьирует непрерывно: может принимать любое значение в определенных пределах (длина, масса).

Счетные признаки варьируют прерывисто, или дискретно: их числовые значения выражаются только целыми числами (количество потомства).

Качественные признаки не поддаются непосредственному измерению и учитываются по наличию их свойств у отдельных членов изучаемой группы.

Значения номинальных переменных (например: пол, вид, цвет) являются нечисловыми, они означают принадлежность к некоторым классам и не могут быть упорядочены или непосредственно использованы в вычислениях.

Ранговые переменные занимают промежуточное положение: их значения упорядочены (например: состояние больного, степень предпочтения), но не могут быть с уверенностью измерены и сопоставимы количественно.

Если результаты наблюдений группируются в противопоставляемые друг другу группы, их варьирование, в отличие от рядовой изменчивости,

называют альтернативным и признаки, по которым проводят наблюдение –

альтернативными (женский – мужской пол, здоровые – больные и т.д.)

Точность измерений и причины возникновения ошибок в ходе

биологического эксперимента и наблюдения. Случайная и

систематическая ошибка

Причины варьирования результатов экспериментов. Биологические признаки варьируют под влиянием самых различных, в том числе и случайных, причин. Наряду с естественным варьированием на величине признаков сказываются и ошибки, неизбежно возникающие при измерении изучаемых объектов. Опыт показал, что как бы точно ни были проведены измерения, они всегда сопровождаются отклонениями от действительного значения измеряемой величины, т.е. не могут быть проведены абсолютно точно.

Разница между результатами измерений и действительно существующими значениями измеряемой величины называется

погрешностью, или ошибкой.

Ошибки возникают из-за неисправности или неточности измерительных приборов и инструментов (технические ошибки), личных качеств исследователя, его навыков и мастерства в работе (личные ошибки),

особенностей используемого метода анализа (методические) и от целого ряда других, не поддающихся регулированию и неустранимых причин

(случайные ошибки).

Технические, личные и методические ошибки, объединяемые в категорию систематических, т.е. неслучайных ошибок, можно в значительной степени преодолеть, совершенствуя технические средства,

условия работы и личный опыт. Эти меры позволяют свести размеры таких ошибок до минимума, которым можно пренебречь. Случайные же ошибки,

как независимые от воли человека, остаются и сказываются на результатах наблюдений.

Итак, варьирование результатов наблюдений и экспериментов вызывают причины двоякого характера: естественная изменчивость признаков и ошибки измерений. Однако по сравнению с естественным варьированием случайные ошибки измерений, как правило, невелики,

поэтому варьирование результатов наблюдений рассматривают обычно как естественное варьирование признаков.

Точность измерений. Применяя биометрию к решению практических задач, исследователь имеет дело с измерениями биологических объектов.

Обычно измерения производят с точностью до десятых, сотых или тысячных долей единицы, более точные измерения производят реже. Конечно, в

особых случаях, таких, например, как дозирование или испытание ядов и других сильнодействующих веществ, измерения должны быть очень точными, выражаемыми миллионными долями единицы.

Нет необходимости в точности измерений, когда эта точность практически не нужна. Данное положение относится и к измеряемым объектам, и к вычислениям обобщающих статистических характеристик.

Исследователь может иметь дело с точными числами, получаемыми в

результате счета. Но гораздо чаще приходится оперировать приближенными числами, полученными в результате измерений. Такие математические операции, как логарифмирование, деление, извлечение корня тоже в итоге дают приближенные числа.

Чтобы избежать грубых ошибок в работе и получать сопоставимые результаты, необходимо неукоснительно соблюдать признанные правила записи приближенных чисел. Очень важно, чтобы числа, фиксируемые в документах учета, соответствовали точности, принятой при измерении варьирующих объектов. Так, если измерения проводят с точностью до одного десятичного знака, то результаты измерений нельзя записывать с произвольным количеством знаков после запятой.

Статистическая совокупность. Генеральная и выборочная

совокупности

Величина любого варьирующего признака является переменной случайной величиной. В отличие от постоянных величин, переменные принято обозначать последними прописными буквами латинского алфавита

X, Y, Z, а их числовые значения, или варианты – соответствующими строчными буквами: x1,x2, x3, … xn или y1, y2, y3, … yn и т.д. Общее обозначение любой варианты отмечают символом xi, yi, где индекс i

символизирует общий характер варианты.

Данные, исходные для статистического анализа, как правило,

получаются в результате эксперимента, опроса или наблюдения, в ходе которого регистрируются значения одной или нескольких переменных или параметров. Наблюдения над биологическими объектами могут охватывать все члены изучаемой совокупности без единого исключения или ограничиваться обследованием лишь некоторой части членов данной совокупности. В первом случае наблюдения называют полными, или

сплошными, во втором – частичными, или выборочными. Полное обследование совокупности позволяет получить исчерпывающую

информацию об изучаемом объекте, в чем и заключается преимущество этого способа перед способом выборочного наблюдения. Однако к сплошному наблюдению прибегают редко, так как эта работа сопряжена с большими затратами времени и труда, а также в силу практической невозможности или нецелесообразности проведения такой работы. В

подавляющем большинстве случаев изучению подвергают некоторую часть обследуемой совокупности, по которой и судят о ее состоянии в целом. В

терминах статистики говорят, что производится ограниченная выборка

(статистическая совокупность) из некоторой, часто неограниченной,

генеральной совокупности или популяции объектов или явлений.

Поэтому основным требованием в выборке является ее

репрезентативность, или правильная представленность в ней пропорций генеральной совокупности. Одним из способов достижения репрезентативности является такая организация эксперимента, при которой элементы выборки извлекаются из генеральной совокупности случайным образом (рандомизация).

Идеальный случайный отбор проводится по методу жеребьевки,

лотереи или генератора случайных чисел, позволяющих полностью исключить субъективное влияние на состав выборки.

Множество относительно однородных, но индивидуально различимых единиц, объединенных для совместного (группового) изучения, называют

статистической совокупностью. Совокупность, из которой отбирают часть ее членов для совместного изучения, называется генеральной.

Когда для каждого объекта в выборке измерено значение одной переменной, популяция и выборка называются одномерными. Если же для каждого объекта регистрируются значения двух или нескольких переменных,

то такие данные называются многомерными.

В целях классификации будем различать следующие типы исходных данных:

1). Одной выборкой будем называть совокупность измерений некоторой одной количественной, номинальной или ранговой переменной,

произведенных в ходе эксперимента, опроса, наблюдения. Выборка может быть:

-неупорядоченная, когда ее элементы различаются только по величине

иих порядок несущественен;

-структурированная, или упорядоченная, когда каждый элемент,

кроме своей величины, имеет и специальную индивидуальную характеристику (значение какого-либо внешнего параметра).

2). Когда имеется несколько выборок, будем различать два случая:

-независимые выборки, когда они получены в эксперименте независимо друг от друга;

-связные выборки, когда размеры выборок равны, а каждая строка значений переменных принадлежит некоторому отдельному объекту или измерению.

3). Временной ряд или процесс представляет собой значения количественной переменной-отклика, измеренные через равные интервалы значений другой количественной переменной-параметра (например, времени измерения). В качестве исходных данных, как правило, рассматриваются только значения переменной-отклика. Связные временные ряды

представляют собой, как правило, синхронные по временному параметру измерения одной переменной в разных точках или объектах или же измерения нескольких переменных в одной точке или объекте, при этом предполагается наличие некоторой физической связи между переменными,

точками или объектами.

4). Экспериментальная зависимость обычно трактуется как последовательность измерений зависимой количественной переменной или отклика, произведенных при заданных значениях одной или нескольких независимых количественных переменных. Исходные данные в этом случае представляются в виде прямоугольной матрицы, которая содержит

соответствующие значения зависимой и независимых переменных.

Экспериментальная зависимость от нескольких переменных может рассматриваться также как частный случай многомерных данных.

5). Многомерные данные представляются для статистического анализа в виде прямоугольной матрицы. Это могут быть измерения значений заданных переменных у нескольких объектов или в некоторых точках пространства или же это могут быть измерения значений переменных у одного объекта в различные моменты времени или при различных состояниях. Существенным для методов анализа многомерных данных является то, что все переменные рассматриваются как равноправные, без деления на зависимые и независимые переменные.

6). Данные контроля качества представляют собой последовательные измерения некоторого параметра, определяющего качество выпускаемой продукции.

Вариационный ряд

Вариационным рядом, или рядом распределения называют двойной ряд чисел, показывающий, каким образом числовые значения признака связаны с их повторяемостью в данной статистической совокупности.

Числа, показывающие, сколько раз отдельные варианты встречаются в данной совокупности, называются частотами, или весами вариант и

обозначаются буквой f. Общая сумма частот вариационного ряда равна объему данной совокупности, т.е.

k

 

 

fi

n

(22)

i 1

 

 

k

 

 

где fi обозначает действие суммирования частот

вариационного

i 1

ряда от первого до k-го класса,

n – общее число наблюдений, или объем совокупности.

Частоты (веса) выражают не только абсолютными, но и относительными числами (в долях единицы или процентах). В таких случаях веса называют относительными частотами или частостями.

Распределение исходных данных в вариационный ряд преследует определенные цели. Одна из них – ускорение работы при вычислении по вариационному ряду обобщающих числовых характеристик – средней величины и показателей вариации. Другая сводится к выявлению закономерностей варьирования учитываемого признака. Чтобы ряд полностью удовлетворял предъявляемым к нему требованиям, его нужно строить по ранжированным значениям признака.

Под ранжированием понимают расположение членов ряда в возрастающем или убывающем порядке.

Взависимости от того, как варьирует признак – дискретно или непрерывно, в широком или узком диапазоне, - статистическая совокупность распределяется в безынтервальный или интервальный вариационные ряды.

Впервом случае частоты относятся непосредственно к ранжированным значениям признака, которые приобретают положение отдельных групп или классов вариационного ряда; во втором – подсчитывают частоты,

относящиеся к отдельным промежуткам или интервалам (от - до), на которые разбивается общая вариация признака в пределах от минимальной до максимальной варианты данной совокупности. Эти промежутки, или классовые интервалы, могут быть равными или неравными по ширине.

Отсюда различают равно- и неравноинтервальные вариационные ряды.

Неравноинтервальную группировку в биологии применяют сравнительно редко. Как правило, биометрические данные распределяются в равноинтервальные ряды.

В зависимости от того, как распределены первичные данные – в равно-

или неравноинтервальный вариационный ряд, - для их характеристики применяют разные средние величины. Именно при распределении собранных данных в неравноинтервальный вариационный ряд более подходящей

обобщающей характеристикой изучаемого объекта служит плотность распределения, т.е. отношение частот или частостей к ширине классовых интервалов. Кроме того, числовыми характеристиками таких рядов могут служить средние из абсолютных или относительных показателей плотности распределения. Средняя плотность показывает, сколько единиц данной совокупности приходится в среднем на интервал, равный единице измерения учитываемого признака.

Приступая к построению равноинтервального вариационного ряда,

важно правильно наметить ширину классового интервала. Грубая группировка с широкими классовыми интервалами искажает типичные черты варьирования и ведет к снижению точности числовых характеристик ряда.

При выборе чрезмерно узких интервалов точность обобщающих числовых характеристик повышается, но ряд получается слишком растянутым и не дает четкой картины варьирования.

Для получения хорошо обозримого вариационного ряда и обеспечения достаточной точности вычисляемых по нему числовых характеристик следует разбить вариацию признака на такое число групп или классов,

которое удовлетворяло бы обоим требованиям. Эту задачу решают делением размаха варьирования признака на число групп или классов, намечаемых при построении вариационного ряда:

 

xmax xmin

 

(23)

K

 

 

где - величина классового интервала;

 

xmax –максимальная варианта совокупности;

 

xmin – минимальная варианта совокупности;

 

К – число классов, на которое следует разбить вариацию признака.

 

Число классов К можно определить по формуле Стреджеса:

 

К=1+1,32 lg n.

(24)

При наличии в совокупности большого числа членов (> 100) можно использовать формулу K=5 lg n.

Число классов К можно предварительно наметить, пользуясь таблицей:

 

Таблица

 

 

Число наблюдений n (от - до)

Число классов К

 

 

25-40

5-6

 

 

40-60

6-8

 

 

60-100

7-10

 

 

100-200

8-12

 

 

> 200

10-15

 

 

Вопрос о том, распределять ли данные в интервальный или безынтервальный ряд, решают в зависимости от характера и размаха варьирования признака. Если признак варьирует дискретно и слабо, т.е. в

узких границах (величина оказывается равной единице или может быть приравнена к ней), данные распределяются в безынтервальный ряд. Если же признак варьирует в широких границах, то независимо от того, как он варьирует – дискретно или непрерывно, по данным строят интервальный вариационный ряд.

Графики вариационных рядов. Для того чтоб более наглядно представить закономерность варьирования количественных признаков,

вариационные ряды принято изображать в виде графиков. Так, при построении графика безынтервального вариационного ряда по оси абсцисс откладывают серединные значения классов, по оси ординат – частоты.

Высота перпендикуляров, восстанавливаемых по оси абсцисс, соответствует частотам классов. Соединяя вершины перпендикуляров прямыми линиями,

получают геометрическую фигуру в виде многоугольника, называемую

полигоном распределения частот.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]