Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Предмет

.pdf
Скачиваний:
18
Добавлен:
21.05.2015
Размер:
474.45 Кб
Скачать

Значения количественных переменных являются числовыми, могут быть упорядочены и для них имеют смысл различные вычисления. Их делят на мерные, или метрические, и счетные, или метристические. Величина

мерного признака варьирует непрерывно: может принимать любое значение в определенных пределах (длина, масса).

Счетные признаки варьируют прерывисто, или дискретно: их числовые значения выражаются только целыми числами (количество потомства).

Качественные признаки не поддаются непосредственному измерению и учитываются по наличию их свойств у отдельных членов изучаемой группы.

Значения номинальных переменных (например: пол, вид, цвет) являются нечисловыми, они означают принадлежность к некоторым классам и не могут быть упорядочены или непосредственно использованы в вычислениях.

Ранговые переменные занимают промежуточное положение: их значения упорядочены (например: состояние больного, степень предпочтения), но не могут быть с уверенностью измерены и сопоставимы количественно.

Точность измерений и причины возникновения ошибок в ходе

биологического эксперимента и наблюдения. Случайная и

систематическая ошибка

Очень важно, чтобы числа, фиксируемые в документах учета,

соответствовали точности, принятой при измерении варьирующих объектов.

Так, если измерения проводят с точностью до одного десятичного знака, то результаты измерений нельзя записывать с произвольным количеством знаков после запятой.

Статистическая совокупность. Генеральная и выборочная

совокупности

Величина любого варьирующего признака является переменной

случайной величиной.

Наблюдения называют полными, или сплошными, во втором –

частичными, или выборочными.

Поэтому основным требованием в выборке является ее

репрезентативность, или правильная представленность в ней пропорций генеральной совокупности.

Множество относительно однородных, но индивидуально различимых единиц, объединенных для совместного (группового) изучения, называют

статистической совокупностью. Совокупность, из которой отбирают часть ее членов для совместного изучения, называется генеральной.

Когда для каждого объекта в выборке измерено значение одной переменной, популяция и выборка называются одномерными. Если же для каждого объекта регистрируются значения двух или нескольких переменных,

то такие данные называются многомерными.

В целях классификации будем различать следующие типы исходных данных:

1). Одной выборкой будем называть совокупность измерений некоторой одной количественной, номинальной или ранговой переменной,

произведенных в ходе эксперимента, опроса, наблюдения. Выборка может быть:

-неупорядоченная, когда ее элементы различаются только по величине

иих порядок несущественен;

-структурированная, или упорядоченная, когда каждый элемент,

кроме своей величины, имеет и специальную индивидуальную характеристику (значение какого-либо внешнего параметра).

2). Когда имеется несколько выборок, будем различать два случая:

-независимые выборки, когда они получены в эксперименте независимо друг от друга;

-связные выборки, когда размеры выборок равны, а каждая строка значений переменных принадлежит некоторому отдельному объекту или измерению.

3). Временной ряд или процесс представляет собой значения количественной переменной-отклика, измеренные через равные интервалы значений другой количественной переменной-параметра (например, времени измерения). В качестве исходных данных, как правило, рассматриваются только значения переменной-отклика. Связные временные ряды

представляют собой, как правило, синхронные по временному параметру измерения одной переменной в разных точках или объектах или же измерения нескольких переменных в одной точке или объекте, при этом предполагается наличие некоторой физической связи между переменными,

точками или объектами.

4). Экспериментальная зависимость обычно трактуется как последовательность измерений зависимой количественной переменной или отклика, произведенных при заданных значениях одной или нескольких независимых количественных переменных. Экспериментальная зависимость от нескольких переменных может рассматриваться также как частный случай многомерных данных.

5). Многомерные данные представляются для статистического анализа в виде прямоугольной матрицы. Это могут быть измерения значений заданных переменных у нескольких объектов или в некоторых точках пространства или же это могут быть измерения значений переменных у одного объекта в различные моменты времени или при различных состояниях. Существенным для методов анализа многомерных данных является то, что все переменные рассматриваются как равноправные, без деления на зависимые и независимые переменные.

6). Данные контроля качества представляют собой последовательные измерения некоторого параметра, определяющего качество выпускаемой продукции.

Вариационный ряд

Вариационным рядом, или рядом распределения называют двойной ряд чисел, показывающий, каким образом числовые значения признака связаны с их повторяемостью в данной статистической совокупности.

Числа, показывающие, сколько раз отдельные варианты встречаются в данной совокупности, называются частотами, или весами вариант и

обозначаются буквой f. Общая сумма частот вариационного ряда равна объему данной совокупности, т.е.

k

fi n

i 1

Частоты (веса) выражают не только абсолютными, но и относительными числами (в долях единицы или процентах). В таких случаях веса называют относительными частотами или частостями.

Под ранжированием понимают расположение членов ряда в возрастающем или убывающем порядке.

Взависимости от того, как варьирует признак – дискретно или непрерывно, в широком или узком диапазоне, - статистическая совокупность распределяется в безынтервальный или интервальный вариационные ряды.

Впервом случае частоты относятся непосредственно к ранжированным значениям признака, которые приобретают положение отдельных групп или классов вариационного ряда; во втором – подсчитывают частоты,

относящиеся к отдельным промежуткам или интервалам (от - до), на которые разбивается общая вариация признака в пределах от минимальной до максимальной варианты данной совокупности. Эти промежутки, или классовые интервалы, могут быть равными или неравными по ширине.

Отсюда различают равно- и неравноинтервальные вариационные ряды.

Параметры совокупности, характеризующие центральную

тенденцию ряда. Средние величины

Средняя арифметическая. Из общего семейства степенных средних наиболее часто используют среднюю арифметическую. Этот показатель является центром распределения, вокруг которого группируются все варианты статистической совокупности. Среднюю арифметическую

вычисляют как сумму всех значений, деленную на их число, что в физическом смысле соответствует центру тяжести тела:

 

 

 

 

n

 

 

 

x1 x2 ... xn

 

xi

 

x

 

 

i 1

(26).

n

n

 

 

 

 

Средняя арифметическая – одна из основных характеристик варьирующих объектов.

Средняя гармоническая xh. Эту характеристику, в отличие от средней арифметической, определяют как число вариант, деленную на сумму их обратных значений. Для определения средней гармонической применяют формулу:

xh

 

 

n

 

 

 

 

 

 

 

n

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

xi

Средняя гармоническая применяется тогда, когда результаты наблюдений обнаруживают обратную зависимость, заданы обратными

значениями вариант.

Средняя геометрическая xg. Этот показатель представляет собой корень n-ной степени из произведений членов ряда:

 

 

 

 

 

 

 

x

n x

x

x

... x

(30),

g

1

2

3

n

где n – объем совокупности; при этом xi 0.

Средняя геометрическая применяется в тех случаях, когда изменения вариант в ряду происходят в геометрической прогрессии, т.е. каждый

последующий уровень ряда, характеризующий развитие явления, примерно равен предыдущему, умноженному на некоторое постоянное для данной прогрессии число.

Между степенными средними существуют определенные соотношения,

выражаемые следующим рядом мажоратности: xQ xq x xg xh.

Во многих случаях в качестве обобщающих характеристик совокупности более полезными могут оказаться так называемые

структурные средние. Эти величины обычно представляют собой конкретные варианты имеющейся совокупности, которые занимают определенное место в ряду распределения.

Медиана (Ме) представляет собой значение, которое делит выборку пополам: число выборочных значений, меньших Ме (m), равно числу выборочных значений, больших Ме (m).

При симметричном распределении значений переменной значение выборочного среднего близко к значению медианы. При наличии небольшого числа вариант медиана определяется довольно просто. Для этого собранные данные ранжируют, и при нечетном числе членов ряда центральная его варианта и будет медианой. При четном числе членов ряда медиана определяется по полусумме двух соседних вариант, расположенных в центре ранжированного ряда. Для данных, сгруппированных в вариационный ряд, медиана определяется по следующей формуле:

Me xн

n

2

fi

 

 

 

(31)

 

fMe

 

 

 

где хн – нижняя граница классового интервала, содержащего медиану, или полусумма соседних классов безынтервального ряда, в промежутке между которыми находится медиана; fi – сумма накопленных частот, стоящая

перед медианным классом; fMe – частота медианного класса; - величина классового интервала; n – общее число наблюдений.

Мода (Мо) - это величина, наиболее часто встречающаяся в данной совокупности. Класс с наибольшей частотой называется модальным. Он определяется довольно просто в безынтервальных рядах:

Mo xн

 

 

f2

f1

(32)

2 f2

f1 f3

 

 

 

где хн – нижняя граница модального класса, т.е. класса с наибольшей частотой f2; f1 – частота класса, предшествующего модальному; f3 – частота класса, следующего за модальным; - величина классового интервала.

Квантили – это значения вариант, отсекающие в пределах ряда определенную часть его членов. Квартили представляют собой три значения признака, делящие ранжированный вариационный ряд на 4 части.

Аналогично, 9 децилей делят ряд на 10 равных частей, а 99 перцентилей – на

100 равных частей.

Параметры совокупности, характеризующие варьирование

признака

Средние величины не являются универсальными характеристиками варьирующих объектов. При одинаковых средних признаки могут отличаться по величине и характеру варьирования. Поэтому наряду со средними для характеристики варьирующих объектов используют показатели вариации.

Одними из таких показателей являются лимиты (lim). В биометрии под этим термином понимают значения минимальной xmin и максимальной xmax

вариант совокупности.

Размах вариации R. Это показатель, представляющий собой разность между максимальной и минимальной вариантами совокупности, т.е.

R = xmax - xmin (34)

Чем сильнее варьирует признак, тем больше размах вариации, и

наоборот, чем слабее вариация, тем меньше будет размах вариации.

Лимиты и размах вариации – простые и наглядные характеристики варьирования, однако им присущи существенные недостатки: при повторных измерениях одного и того же группового объекта они могут значительно изменяться; кроме того, они не отражают существенные черты варьирования.

Более удобной характеристикой вариации мог бы служить показатель,

который строится на основании отклонений вариант от их средней. Сумма таких отклонений, взятая без учета знаков и отнесенная к числу наблюдений n, называется средним линейным отклонением:

d xi x n

k

(xi x )2

Дисперсия и ее свойства (s2, 2). sx2

 

i

n

 

 

Чтобы получить несмещенную дисперсию, нужно в формулу (13)

ввести в качестве множителя поправку на смещенность, называемую

поправкой Бесселя. В результате формула (36) преобразуется следующим образом:

 

 

k

 

 

(xi x )2

s2

 

i

 

x

 

n 1

 

 

Среднее квадратическое отклонение sx показывает, насколько выборочные значения разбросаны относительно среднего. Этот показатель представляет собой корень квадратный из дисперсии:

k

(xi x )2

sx

i

 

(38).

 

n 1

 

 

 

Эта величина в ряде случаев является более удобной характеристикой варьирования, чем дисперсия, поскольку выражается в тех же единицах, что и средняя арифметическая величина.

Коэффициент вариации V, Cv. Дисперсия и среднее квадратическое отклонение применимы для сравнительной оценки одноименных средних величин. В практике же довольно часто приходится сравнивать изменчивость признаков, выраженных разными единицами. В таких случаях используют не абсолютные, а относительные показатели вариации.

Нормированное отклонение t. Отклонение той или иной варианты от средней арифметической, отнесенное к величине среднего квадратического отклонения, называют нормированным отклонением:

t xi x

sx

Ширину нормального распределения принято характеризовать

стандартным отклонением (синоним — среднее квадратичное отклонение),

точнее, выборочным стандартным отклонением, поскольку обычно мы работаем с выборочными распределениями.

Выборочная оценка генеральных параметров

Числовые показатели, характеризующие генеральную совокупность,

называются параметрами, а числовые показатели, характеризующие выборку, – выборочными характеристиками или статистиками.

Выборочные характеристики являются приближенными оценками генеральных параметров. Эти величины случайные, варьирующие вокруг своих параметров. Оценки генеральных параметров по выборочным характеристикам могут быть точечными или интервальными.

Вероятности, признанные достаточными для уверенного суждения о генеральных параметрах на основании известных выборочных показателей,

называют доверительными.

Принцип Фишера: маловероятные события считаются практически невозможными, а события, вероятность которых близка к 1, принимают за

почти достоверные. Обычно в качестве доверительных используют вероятности Р1 = 0,95; Р2 = 0,99 и Р3 = 0,999. Это означает, что при оценке генеральных параметров по известным выборочным показателям существует риск ошибиться в первом случае один раз на 20 испытаний, во втором – один раз на 100 испытаний и в третьем – один раз на 1000 испытаний.

Законы распределения

В теории вероятностей различают два основных класса случайных величин:

a) дискретные, множество значений которых представляет собой конечную, или счетную, последовательность;

б) непрерывные, значения которых принадлежат к некоторому диапазону и могут отличаться друг от друга на сколь угодно малую величину.

Непрерывные распределения

Следующие распределения относятся к непрерывным случайным величинам.

Нормальное, или Гауссово, распределение является наиболее распространенным, поскольку оно пригодно для описания широкого класса явлений, каждое из которых определяется взаимодействием большого числа разнородных факторов. Нормальное распределение определяется двумя параметрами: средним и дисперсией.

Логнормальное распределение характеризуется двумя параметрами:

средним значением a и масштабом k, определено для положительных Х и

связано с нормальным распределением преобразованием ln(X).

Экспоненциальное распределение (называемое также обратным экспоненциальным или показательным) имеет случайная величина,