- •1.Признаки и их классификация.
- •2. Однофакторные и двухфакторные дисперсные комплексы. Примеры этих комплексов.
- •3. Отправные положения и теоретическая основа биометрии.
- •4. Теоретические основы дисперсного анализа.
- •5. Формирование выборочной совокупности.
- •6. Построение динамических рядов.
- •7. Ранжированные и вариационные ряды. Построение вариационных рядов.
- •8. Стохастические процессы. Марковские процессы.
- •9.Структура и место в системе био.Наук дисциплины «Математические методы в биологии. Эвм и программирование».
- •10. Средние величины. Способы вычисления значения средней арифметической и средней геометрической.
- •11. Общая схема цвм и работа ее основных функциональных блоков.
- •12.Основные понятия теории вероятности. Классификация вероятностей.
- •13. Специальные области применения эвм в биологии.
- •14. Биноминальное распределение. Формулы Бернулли, бинома Ньютона и Лапласа.
- •15. Графики распределения значений био.Признаков. Основные правила построения графиков.
- •16. Метод индексов. Достоинства и недостатки метода. Примеры индексов.
- •17. Средства механизации и автоматизации вычислительных работ в биологии, требования к н им со стороны биометрии и математического моделирования биологических систем.
- •18. Показатели вариации. Вычисление среднего квадратического отклонения.
- •19. Общая схема авм и работа ее основных функциональных блоков.
- •20. Арифметические операции над вероятностями.
- •21. История развития эвм и языков программирования.
- •22. Распределение Пауссона.
- •24. Совмещение полигона эмпирического распределения с кривой нормального распределения.
- •25. Отклонение эмпирического распределения от нормального.
- •29. Вычисление теоретических частот эмпирических распределений.
Изучить, имеющиеся статистические пакеты анализа.
Компьютерные технологии имеют большое значение в статистической обработке данных. Это позволяет не только ускорить данный процесс в несколько раз, но и произвести его на более высоком качественном уровне.
4. Теоретические основы дисперсного анализа.
Все факторы влияющие на величину какого-либо био.признака, подразделяют на регулируемые/контролируемые и неконтролируемые. Величина воздействия первой группы факторов может быть задана исследователем (доза облучения, концентрация раствора, температура хим.реакции и т.д.) или измерена (освещенность, влажность воздуха и т.д.). Неконтролируемые факторы обычно варьируют случайным образом. Их влияние затрудняет выявление связи между величинами признака и регулируемого фактора.
Для решения такого рода задач Фишер (1925 г) предложил метод, который называется дисперсным анализом. Сущность его состоит в том, что результаты экспериментов оцениваются не по средним арифметическим, а по дисперсиям. Величина общей вариации признака Dy состоит из двух слагаемых: вариации Dx, обусловленной действием регулируемого фактора, и вариации Dz, обусловленной действием неконтролируемого фактора, т.е. Dy = Dx + Dz. Задача состоит в том чтобы найти общую дисперсию для всего комплекса наблюдений и разложить ее на составляющие части.
Перед началом анализа исходные данные группирую в комплексы, представленные обычно в форме таблиц. В зависимости от числа факторов, по которым производят анализ, комплексы подразделяются на однофакторные, двухфакторные и многофакторные. Анализ во всех случаях проводится по некоторым общим схемам. Достоверность влияния регулируемого фактора на рассмотренный признак оценивают с помощью критерия Фишера (фактического) Fф= σх2 / σz2 , где σх2 - межгрупповая дисперсия; σz2 - внутригрупповая дисперсия. Вычисленное значение критерия Фишера сравнивают со стандартным (Fст ). Если фактическое значение критерия Фишера рано/больше стандартного, то заключение о влиянии регулируемого фактора на рассмотренный признак достоверно.
Порядок выполнения дисперсного анализа для однофакторных комплексов:
Вычисляем среднюю арифметическую всего комплекса (общую среднюю) x̅ и частные (групповые) средние x̅i для соответствующих градаций фактора.
Определяем общую сумму квадратов отклонений Dy = Σ( xi - x̅)2
Вычисляем межгрупповую сумму квадратов отклонений Dx = Σni (x̅i - x̅)2 , где ni – статистический вес групповых средних (число повторностей)
Находим внутригрупповую (остаточную) сумму квадратов отклонений Dz = Dy - Dx
Устанавливаем числа степеней свободы: для общей дисперсии Ку =N – 1; для межгрупповой дисперсии Кх = а – 1; для внутригрупповой дисперсии КZ =N – а , где N – общее число значений признака, а – число градаций фактора.
Вычисляем значение дисперсий: общая σу2 = Dy / Ку ; межгрупповая σх2 = Dх / Кх ; внутригрупповая σz2 = Dz / Кz
Для установления достоверности заключения вычисляем критерий Фишера Fф= σх2 / σz2
Находим стандартное значении и сравниваем с значением критерия Фишера и делаем выводы.
Порядок выполнения дисперсного анализа для двухфакторных комплексов:
Все факторы комплекса суммируем. Найденную сумму возводим в квадрат и делим на общее число наблюдений. (Σxi)2 / N
Каждую варианту возводим в квадрат и находим сумму их квадратов: Σxi2
Находим сумму квадратов отклонений, общую для всего комплекса: Dy = Σxi2 - (Σxi)2/N
Для каждой клетки(нескольких значений при одной градации класса) находим сумму чисел, возводим ее в квадрат и делим на число повторностей. Полученные результаты суммируем. Σ[(Σxi)2/ni]
Находим межгрупповую сумму квадратов отклонений: Dх = Σ[(Σxi)2/ni] - (Σxi)2/N
Определяем внутригрупповую сумму квадратов отклонений: Dz = Dy - Dx
Находим сумму квадратов отклонений: - по фактору А DА = Σ[(ΣxА)2/nА] - (Σxi)2/N ; - по фактору В DВ = Σ[(ΣxВ)2/nВ] - (Σxi)2/N ; - по взаимодействию факторов DАВ = Dх – (DА + DВ)
Определяем число степеней свободы: КА = а – 1 ; КВ = b – 1 ; КАВ = КА ‧ КВ ; КZ = N – ab
Вычисляем величины дисперсий: σА2 = DА / КА ; σВ2 = DВ / КВ ; σz2 = Dz / Кz ; σАВ2 = DАВ / КАВ
Определяем значение критерия Фишера: - по фактору А, - по фактору В, - по совместному действию факторов.
Находим соответствующие стандартные значения критерия Фишера и сравниваем их с фактическими значениями.
5. Формирование выборочной совокупности.
Статистические совокупности - определенное количество относительно однородных наблюдений могут производиться на разных или на 1 объекте.
Примеры: - активность фермента у разных видов животных будет относиться генетически а в пробе с гомогенатами от 1 животного Могут быть расхождения связанные с недостаточной квалификацией исследователя.
- Испытуемого просят пройти по коридору спокойным шагом(длинна шага будет разная) вариабельность будет говорить о четности работы системо-моторного аппарата.
Варианта - отдельный замер в совокупности.
Объем совокупности (n)-число измерений или количество вариант.
Совокупности -генеральные(измеряются показатели на всех объектах) и выборочные(исп показатели части объектов.) или чаще используют выборку.
Выборки: большие(n>30) и малые (N<30)
Если обладает типичностью объективностью однородностью тогда выборка репрезентативная
Типичность - необходимо извлечь заведомо известные факторы, чтобы исключить ошибку (больные животные и т.д.)
Объективность - необходимо осуществить выборку непредвзято. Наугад. Как в лотерее
Однородность - одного пола, возраста, содержащиеся в одинаковых условиях. Не беременные.
В статистике применяются различные способы формирования выборочных совокупностей, что обусловливается задачами исследования и зависит от специфики объекта изучения.
Основным условием проведения выборочного обследования является предупреждение возникновения систематических ошибок, возникающих вследствие нарушения принципа равных возможностей попадания в выборку каждой единицы генеральной совокупности. Предупреждение систематических ошибок достигается в результате применения научно обоснованных способов формирования выборочной совокупности.
Существуют следующие способы отбора единиц из генеральной совокупности:
1) индивидуальный отбор — в выборку отбираются отдельные единицы;
2) групповой отбор — в выборку попадают качественно однородные группы или серии изучаемых единиц;
3) комбинированный отбор — это комбинация индивидуального и группового отбора.
Способы отбора определяются правилами формирования выборочной совокупности.
Выборка может быть:
собственно-случайная состоит в том, что выборочная совокупность образуется в результате случайного (непреднамеренного) отбора отдельных единиц из генеральной совокупности. При этом количество отобранных в выборочную совокупность единиц обычно определяется исходя из принятой доли выборки. Доля выборки есть отношение числа единиц выборочной совокупности n к численности единиц генеральной совокупности N, т.е. КS = n/N
механическая состоит в том, что отбор единиц в выборочную совокупность производится из генеральной совокупности, разбитой на равные интервалы (группы). При этом размер интервала в генеральной совокупности равен обратной величине доли выборки. Так, при 2%-ной выборке отбирается каждая 50-я единица (1:0,02), при 5%-ной выборке — каждая 20-я единица (1:0,05) и т.д. Таким образом, в соответствии с принятой долей отбора, генеральная совокупность как бы механически разбивается на равновеликие группы. Из каждой группы в выборку отбирается лишь одна единица.
типическая – при которой генеральная совокупность вначале расчленяется на однородные типические группы. Затем из каждой типической группы собственно-случайной или механической выборкой производится индивидуальный отбор единиц в выборочную совокупность. Важной особенностью типической выборки является то, что она дает более точные результаты по сравнению с другими способами отбора единиц в выборочную совокупность;
серийная - при которой генеральную совокупность делят на одинаковые по объему группы - серии. В выборочную совокупность отбираются серии. Внутри серий производится сплошное наблюдение единиц, попавших в серию;
комбинированная - выборка может быть двухступенчатой. При этом генеральная совокупность сначала разбивается на группы. Затем производят отбор групп, а внутри последних осуществляется отбор отдельных единиц.
В статистике различают следующие способы отбора единиц в выборочную совокупность:
одноступенчатая выборка - каждая отобранная единица сразу же подвергается изучению по заданному признаку (собственно-случайная и серийная выборки);
многоступенчатая выборка - производят подбор из генеральной совокупности отдельных групп, а из групп выбираются отдельные единицы (типическая выборка с механическим способом отбора единиц в выборочную совокупность).
6. Построение динамических рядов.
Динамические ряды применяются при анализе стохастических процессов. Они являются частным случаем рядов регрессии. Но в отличие от них связь между переменными в этих рядах односторонняя (зависит только признак от времени).
Основным условием правильного построения динамического ряда - это обеспечение сопоставимости уровней ряда (числовых значений изучаемого явления). Сопоставимость уровней (показателей) ряда обеспечивается путем строгого соблюдения целого ряда правил построения динамического ряда.
все показатели динамического ряда должны быть выражены в одних и тех же единицах измерения.
все показатели динамического ряда рассчитываются по единой методике, одним и тем же способом.
все показатели динамического ряда должны быть одинаковы по полноте охвата изучаемой совокупности. Это означает, что все показатели динамического ряда должны относиться к равным периодам времени (или за месяц, или за квартал, или за год и т.д.), к одной и той же территории.
для правильного построения динамического ряда необходимо обеспечить полную достоверность всех показателей ряда, их научную обоснованность, так как любая небрежность, неточность может и корне исказить исследуемую закономерность (тенденцию).
Для построения динамических рядов рекомендуется вначале выписать все исходные данные, и для удобства оформить их в таблицу (например, экзаменационные оценки каждого выпускника по семестрам). Затем по каждой группе/для каждого человека вычислить среднюю желательно с точностью до 0,01 ( с случае примера это средний балл студента). На основании этих данных найти среднюю арифметическую, среднее квадратическое отклонение и ошибку средней для каждого периода времени (в случае примера это для каждого семестра). Затем для одного из уровней значимости и числа степеней свободы k=n-1 найти табличное значение критерия Стьюдента tст , на основании его вычислить границы доверия Хmin и Xmax для каждого отрезка времени (семестра). По значениям x̅, Хmin и Xmax построить график, отражающий динамику изменений значений признака во времени (средней успеваемости по семестрам) и границы, в которых с заданной доверительной вероятностью будут находиться графики изменения средней величины для параллельных групп. Аналогичным образом можно построить динамические ряды по каждому исследуемому объекту в отдельности (по каждому студенту).
7. Ранжированные и вариационные ряды. Построение вариационных рядов.
Эмпирические данные, как правило, первоначально представляют бесконечный набор чисел. Для того, чтобы на основании этих чисел сделать правильные научные выводы, их по определенному плану группируют. Наиболее распространенным способом является построение рядов. Простейшими из них являются ранжированные ряды, в которых значения признака, входящие в выборочную совокупность, записывают одной строкой в порядке возроастания. Для больших выборок чаще всего используют вариационные (двойные) ряды: под значениями признака (хi ), располагаемыми в порядке возрастания, записывают частоту их встречаемости (pi) – кол-во повторяющихся значений в выборке. Для удобства сравнения между собой выборочных совокупностей по характеру распределения значений признака необходимо использовать не абсолютное значение частот (pi), а относительные (pi/n), которые называют частостями (n – объем выборки). Частость, деленная на классовый интервал дает значение плотности распределения f(x). Суммируя частоты встречаемости pi по мере увеличения признака хi, получают значения накопленных частот ∑ pi. Частные от деления накопленных частот на объем выборки дают значения функции эмпирического распределения F(x), которые изменяются в интервале от 0 до 1.
Порядок построения вариационных рядов:
Находим среди исходных данных минимальное и максимальное значение признака: Хmin и Xmax
Вычисляем диапазон варьирования признака: Xmax - Хmin
Устанавливаем число классов К, на которое необходимо разбить весь диапазон варьирования признака. Величина К зависит от объема выборки и может быть вычислена по формуле Стерждеса: К = 1+3,32Ig n. Число классов округляем до ближайшего целого числа.
Вычисляем классовый интервал: I = (Xmax - Хmin )/К. Рекомендуется варианту Хmin помещать в середину первого класса.
Установить границы классов и оформить для удобства в таблицу. Нижнюю границу первого класса необходимо взять приблизительно равной Хmin - i/2.
Найти средние значения классов (х). Оно равно полусумме значений его границ. Для облегчения можно к срединному значению первого класса последовательно прибавлять величину классового интервала.
Производим разноску вариант по классам. Для исключения ошибок рекомендуется разносить варианты по классам в порядке очередности. Варианту, совпадающую со значением границы двух классов, помещают в последующий класс.
Затем подсчитываем число вариант в каждом классе, т.е находим частоты классов (p).
Записываем вариационный ряд: х: 157 161 165 …
p: 3 8 9 …
8. Стохастические процессы. Марковские процессы.
Био.признаки в той или иной мере изменяются во времени. Значение признака – величина вероятная, поэтому и сам процесс ее изменения во времени будут вероятным/стохастическим. Стохастические процес сы можно изучать продольным или поперечным методом. При продольном методе данные для всего исследуемого отрезка времени получают на одних и тех же объектах. Например, возрастную динамику массы тела животных исследуют путем индивидуального взвешивания каждой особи в сформированной группе через определенные промежутки времени. Затем для каждого возраста вычисляют среднее арифметическое значение массы тела и на основании этих данных строят график изменения массы тела с возрастом. При поперечном методе данные для каждого момента времени получают на разных группах объектов. Так, для исследования возрастной динамики массы тела можно сформировать несколько групп животных, в каждую из которых входят особи одного возраста. Для каждой группы находят среднее арифметическое массы тела. Возможно комбинирование этих методов.
Величина средней арифметической для каждого момента времени зависит от характера кол-венной связи между значением признака и временем, так и от действия случайных факторов. Для того что бы выявить характер этой связи, необходимо кол-венно определить границы действия этих факторов. С этой целью для каждого момента времени помимо средней арифметической вычисляют ее ошибку mх; для заданной доверительной вероятности P и числа степеней свободы k=n-1 находят значение критерия Стьюдента tст (табличное значение) и рассчитывают границы доверия xmin= x̅- tст‧ mх , xmax= x̅- tст‧ mх . По точкам xmin , xmax строятся граничные линии, между которыми с заданной доверительной вероятностью должна проходить кривая, отражающая зависимость массы тела от возраста.
Совокупность значений признака в последовательные моменты или периоды времени составляет динамический ряд. Они являются частным случаем рядов регрессии. Но в отличие от них связь между переменными в этих рядах односторонняя (зависит только признак от времени).
Для того, чтобы выявить основную тенденцию в изменении значений признака во времени, необходимо произвести выравнивание динамического ряда (одним из способов: графическим, способом скользящей средней или наименьших квадратов).
Так исследуют стохастические процессы, траекторию которых во времени рассчитать невозможно.
Следует отметить, что большинство биологических явлений укладывается в схему так называемых марковских процессов, для исследования которых удается привлечь хорошо разработанные и сравнительно простые аналитические средства расчета. Марковские процессы, названные в честь выдающегося русского математика Маркова, характеризуются тем, что вероятность перехода системы в новое состояние зависит только от состояния ее в момент времени, непосредственно предшествующий этому периоду, и вся остальная предыстория на новое состояние системы влияния не оказывает. К числу таких процессов, в частности, относятся явления генетического наследования признаков.
9.Структура и место в системе био.Наук дисциплины «Математические методы в биологии. Эвм и программирование».
Биология - молодая наука, пока что описательного характера. Но разные разделы находятся на разном уровне.
Бифизика- физика биологических систем.
Создание технической базы стимулирует внедрение математики в биологию
Естественные науки развиваются однотипно, но с разной скоростью
Это происходит по этапам:
(Описательная наука)
Развитие естественной науки начинается со сбора сведений об объекте исследования (накопление исходных данных)
Классификация (выделение, объединение, группировка)
Установление связей и соотношений (качественных и колличественных) связь чисто из наблюдений.
(Больше чем описательная наука!!!)
Создание математической модели.
Выявление величины
Величина – философская категория (что-то конкретное для данного явления)
От величин появляются единицы измерения у которых существуют эталоны
Мат. Модель – конструкция
Величина – функция с помощью которой находят эту конструкцию
Модели:
первичные (точка, прямая, угол)
Условные (точечный источник света)
Физические (сила, масса)
В биологии первичных моделей нет, т.к биология охватывает все от атома до материи. Биология может их заимствовать.
Пример: плотность популяции водных организмов, пропорциональная концентрация растворов
Плотность организмов на поверхности аналогична концентрации на единицу поверхности (зайцы лисы волки)
Таким образом, биология переходит в систему точных наук – теоретическая биология, но сейчас преобладает экспериментальная
Эксперимент:
пассивный (наблюдение, ничего не меняя)
Активный – создание определенных условий, чаще в лаборатории
Точная наука (априорная) до опыта
Описательная (апостериорная) после опыта
Биология отстает из-за:
Многообразия уровней и объектов исследования
Сами объекты чрезвычайно сложны
Они эволюционируют
Они очень лабильны (действуют слабые связи)
Создаются новые виды – мутации и человек влияет (генная инженерия, сельское хозяйство).
10. Средние величины. Способы вычисления значения средней арифметической и средней геометрической.
Среднее арифметическое:
Простая средняя – частное от деления суммы всех вариант совокупности на объем совокупности.
X̅ = (X1+X2+…Xn)/n
Если в совокупности некоторые варианты повторяются, то используют взвешенную среднюю.
X̅ = (X1P1+X2P2+…XnPn)/2
Вес-частота встречаемости варианты (Р)
Если несколько групп, те несколько однородных совокупностей то считаем суммарную среднюю. (Xs)
X̅s = (X1n1+X2n2+…+XnNn)/(n1+n2+…+Nn)
Способы вычисления
Прямой: все сложить и поделить на объем выборки
Метод взвешенной средней (при повторяющемся Xi)
Суммарная средняя (упрощает и укорачивает вычисление)
Самый короткий способ упрощенной средней: одну из вариант (самую повторяющуюся) принимают за А (условную среднюю) и вычисляют Xср=А+(∑(Xi-A))/n
(Xi-A) –отклонение каждой варианты от условной средней
В качестве А можно взять не только варианту но и условное число удобное для измерений.
Свойства:
∑(Xi-Xcp)=0 и ∑(Pi(Xi-Xcp)=0
Сумма квадратов отклонений вариант от их средней арифметической. Меньше суммы квадратов отклонений от любой другой величины (С) не равной ср. арифметической.
Если каждую варианту увеличить или уменьшить на определенное число (С) то и средняя уменьшить или увеличить на то же число
То же самое с умножением на число (С)
Средняя квадратическая:
Величина необходимая для нахождения наиболее точного значения площади при измерении линейных размеров(пр: среднее значение листовой пластины, различных клеток(яйцевидных, эритроцитов)
Σ( xi -)2
x̅кв = √(∑хi2 ‧ pi) / n
x̅кв ˃ x̅
S=(ℼ‧D²)/4
Средняя кубическая:
Необходима для вычисления среднего значения объема на основании замерах линейного показателя.
x̅кб = 3√((∑Хi3 ‧ pi)/n)
x̅ ˂ x̅кв ˂ x̅кб
Средняя гармоническая:
Сумма обратных значений вариант, деленная на их число
x̅h=n/∑(1/Xi)
Пример: скорость протекания клеточного процесса.
Применяется тогда, когда результаты наблюдений обнаруживают зависимость обратную или заданы обратными значениями вариант.
x̅h ˂ x̅ ˂ x̅кв ˂ x̅кб
Средняя геометрическая:
Применяется для определения средней относительной скорости изменения, какой то величины во времени. Она характеризует процесс.
Wg = n√ (W1 ‧ W2 ‧ … ‧ Wn)
Скорость прироста можно вычислить по формуле Броди:
W=(X2-X1)/((X2+X1)/2) ‧ 100% , где Х1 и Х2 значения признака в начале и в конце
Через логарифмы
Lg (Wg) = (lgW1 + lgW2 +…+ LgWn) / n
x̅h ˂ Wg ˂ x̅ ˂ x̅кв ˂ x̅кб
11. Общая схема цвм и работа ее основных функциональных блоков.
Машины, в которых используется цифровая форма представления информации, называются цифровыми вычислительными машинами (ЦВМ). Величины в ЦВМ выражаются в виде цифровой последовательности, которая обычно представляет собой комбинацию нулей и единиц, так как большинство вычислительных машин в двоичной системе исчисления. ЦВМ обладают универсальностью и высокой точностью вычислений, они получили наибольшее распространение. Термином ЭВМ обычно называют ЦВМ.
Содержат пять наиболее важных устройств (блоков), каждое из которых выполняет свои специфические функции. Такими блоками являются: Память, устройство управления, арифметико-логическое устройство, устройства ввода и вывода.
Память – устройство для хранения информации. Подразделяется на оперативную и внешнюю. Оперативная (внутренняя) представляет собой совокупность ячеек, в каждую из которых можно поместить число/команду программы. В ней хранится информация, с которой непосредственно работает ЭВМ. Внешняя память содержит справочные данные, программы, не используемые ЭВМ в данный момент, и другую информацию. По объему она превосходит оперативную в десятки и сотни раз. Конструктивно внешняя память представлена магнитными лентами, дисками, барабанами с головками для записи и считывания инфррмации.
Устройство управления организует весь процесс работы ЭВМ в соответствии с программой, заданной пользователем. Оно расшифровывает каждую команду и подает сигналы устройствам ЭВМ, участвующим в выполнении данной команды.
Арифметико-логическое устройство осуществляет машинные операции (сложение, умножение и т.д.) над числами, поступающими из оперативной памяти.
Устройство управления и арифметико-логическое устройство образуют процессор.
Устройство ввода предназначено для подачи в ЭВМ информации (программы и исходных данных), которая может вводиться непосредственно с клавиатуры электрической пишущей машинки (типа «Консул») или дисплея (устройства, имеющего телевизионный экран и клавиатуру); либо путем считывания с перфокарт, перфоленты или магнитной ленты, на которые эта информация предварительно записана.
Устройство вывода преднозначено для отображения результатов работы ЭВМ, которые могут быть представлены в форме отдельных цифровых величин, таблиц графиков, геометрических фигур. Выводы информации осуществляется с помощью дисплея, различных печатающих устройств, графопостроителя.
С
Процессор
хема строения ЭВМ (ЦВМ)
Устройство управления
Арифметико-логическое устройство
Оперативное запоминающее устр.
Внешнее запоминающее устр
Устройство
вывода
Устройство
ввода
12.Основные понятия теории вероятности. Классификация вероятностей.
В России изучение ТВ началось с середины 19 века. Лобачевский Остроградский и Буняковский.
Во второй половине 19 века Чебышев Ляпунов и Марков
Вероятности событий – любой возможный факт, о котором можно сказать, что он произойдет или нет в данных условиях.
Р - вероятность А-событие
А (с черточкой сверху)- противоположное событие
Р(А)- вероятность события А
Вероятность невозможного события =0
Достоверного события =1
0<Р(А)случ<1
ВИДЫ ВЕРОЯТНОСТЕЙ:
Классическая - определяется без проведения экспериментов, расчетным путем. (равна отношению числа благоприятных исходов к общему числу исходов) ПР: игральная кость 1/6
Статестическая только опытным путем через испытания
Геометрическая - разновидность классической вероятности значения могут быть рассчитаны без проведения испытаний (вычислением площади геометрической фигуры.)
Сложение вероятностей - применяется, если имеет место несовместимые между собой вероятности но происходящие одновременно
Если ожидаемый результат достигается при определенном виде исхода из всех возможных видов исходов
Умножение вероятностей – применяется при изучении сложных совместно протекающих независимых друг от друга вероятностей.
Вероятность совместного наступления двух событий = произведению вероятности первого события на условную вероятность второго вычисленную в предположении что первое событие составляет (вероятность выпадения одной грани на двух кубиках).
13. Специальные области применения эвм в биологии.
В биологии используют АВМ для: - моделирования кинетики ферментативных реакций
- Роста биомассы микроорганизмов
- Процесса распространения инфекционного заболевания
- Работы нейрона
- Взаимодействия «хищник-жертва» и других процессов описываемых дифференциальными уравнениями.
Помимо моделирования и выполнения расчетных работ ЭВМ в биологии используется для создания банка данных и автоматизации экспериментов.
В банках данных концентрируется и систематизируется информация, поступающая из различных учреждений и со страниц различных изданий. Автоматизированные информационно0поисковые системы (АИПС) осуществляют поиск затребованной исследователем информации, формируют ответ на вопрос, переводят его с информационного языка на естественный. Основным звеном АИПС является ЭВМ, которая работает на специальной программе. В настоящее время банки данных различных научных учреждений электрически связаны между собой, что позволяет исследователю использовать объединенный массив информации.
Инструментальные методы исследования био.объектов позволяет получить большой объем информации, которую для последующего анализа необходимо из аналоговой формы перевести в цифровую. Решение этой задачи рутинными способами требует большой затраты труда и времени, вследствие чего приходится ограничивать кол-во исследованных объектов. При такой постановке эксперимента растет вероятность необнаружения редко встречающегося объекта/ признака. Многие исследовательские приборы дают информацию виде электронного сигнала, который для наглядности обычно переводят с помощью в самописца в графическую форму (кардиограммы, электромиограммы, электроэнцефалограммы, хроматограммы, спектрограммы и т.д.). Рутинная обработка графического материала связана с замером элементов графиков и выполнением расчетов. При машинном анализе информации обработке подвергается непосредственно электронный сигнал, поступающий с выхода исследовательского прибора. С помощью аналого-цифрового преобразователя сигнал переводится в дискретную форму и вводится в ЭВМ. ЭВМ осуществляет математическую обработку первичной информации и выдает в цифровой форме интересующий исследователя результат. Использование сканирующих устройств и специальных программ позволяет подвергать всестороннему анализу морфологическую информацию (распознание хромосом по форме, подсчет площади сечения клеток и субклеточных структур, определение количественного содержания различных веществ в них, объемная реконструкция микро срезов и т.д.). ЭВМ позволяет анализировать послойные рентгенограммы органов (томограммы), тепловизорные картины биологических объектов.
14. Биноминальное распределение. Формулы Бернулли, бинома Ньютона и Лапласа.
В случае с извлечением черных и белых шаров из урны сложные события появляются при многократных (начиная с двукратного) испытаниях. Та при двукратном испытании, результатом которого является определенная последовательность извлечения шаров с учетом их цвета, возможны следующие варианты исходов: АА, АВ, ВА, ВВ. Если вероятность извлечения черного шара при однократном испытании P(A)=MA/N- для краткости обозначить через p, а вероятность извлечения белого шара P(B)=MB/N – через q (МА и МВ) - число черных и белых шаров в урне; N=МА+МВ – число шаров), то вероятности указанных выше исходов двукратного испытания будут соответственно равны p2, pq, qp, q2.
Если не учитывать последовательность появления шаров определенного цвета при извлечении из урны, а регистрировать лишь конечный результат (число белых и черных шаров), то при двукратном испытании вероятности исходов 2А, 1А1В, 2В будут соответственно равны p2, 2pq, q2.
Анализ полученных выражений для вероятностей свидетельствует о том, что все они являются слагаемыми развернутой формулы бинома Ньютона (p+q)n. Так, для кратности испытаний n=2; (p+q)2= p2+2pq+q2
Поскольку в примере с извлечением шаров из урны сумма прямого и противоположного событий p+q=1, то (p+q)n=1 независимо от значения n.
Развернутая формула бинома Ньютона (p+q)n=1pn + (n/1)‧pn-1q1 + ((n(n-1))/1‧2) pn-2q2 + … + (n/1)‧p1qn-1 + 1qn содержит n+1 слагаемое, каждое из которых выражает появление в сложном событии прямого и противоположного исходов соответствующее число раз. Такое распределение называют биномиальным. Оно характеризует распределение дискретных величин, значения которых определяются независимым варьированием двух признаков (состояний) по альтернативной схеме при n-кратном испытании.
Каждый член биномиального распределения (каждое слагаемое в формуле) состоит из коэффициента и произведения вероятностей прямого и противоположного событий, возведенных в соответствующую степень. Якоб Бернулли дал общую формулу для нахождения величины каждого члена бинома Ньютона:
Pn(m)=Cnm pm qn-m = (n!/m!(n-m)! )‧ pm qn-m , где Pn(m) – вероятность появления событий А в n независимых испытаниях m раз; Cnm – число сочетаний из nэлементов по m (биноминальный коэффициент), Cnm = Cnn-m; p и q – вероятности прямого (ожидаемого) и противоположного событий при единичном испытании; m – частота появления ожидаемого события; n-число независимых испытаний.
При большом числе испытаний, когда использование формулы Бернулли затруднительно, вероятность появления ожидаемого события вычисляют по приближенной формуле Лапласа: Pn(m)≈(1/√2ℼnpq)‧е-(m-np)²/2npq
Следует отметить, что при равенстве прямого и противоположного событий (p=q) биноминальное распределение будет симметричным, так как выражение pm qn-m при каждом биномиальном коэффициенте в этом случае имеет одинаковое значение, а распределение коэффициентов носит симметричный характер.
15. Графики распределения значений био.Признаков. Основные правила построения графиков.
Эмпирические данные, как правило, первоначально представляют бесконечный набор чисел. Для того, чтобы на основании этих чисел сделать правильные научные выводы, их по определенному плану группируют. Наиболее распространенным способом является построение рядов. Для больших выборок чаще всего используют вариационные (двойные) ряды: под значениями признака (хi ), располагаемыми в порядке возрастания, записывают частоту их встречаемости (pi) – кол-во повторяющихся значений в выборке.
Для удобства сравнения между собой выборочных совокупностей по характеру распределения значений признака необходимо использовать не абсолютное значение частот (pi), а относительные (pi./n), которые называют частостями (n – объем выборки). Частость, деленная на классовый интервал дает значение плотности распределения f(x). Суммируя частоты встречаемости pi по мере увеличения признака хi, получают значения накопленных частот ∑ pi. Частные от деления накопленных частот на объем выборки дают значения функции эмпирического распределения F(x), которые изменяются в интервале от 0 до 1.
По данным вариационного ряда строятся графики (гистограмма, полигон, куммулята), которые наглядно иллюстрируют закономерности варьирования био.призкаков. Эти графики также могут быть дополнены кривыми, отражающими зависимость плотности распределения и функции распределения от значения признака.
К построению графиков, в зависимости от их назначения, предъявляются определенные требования. Ели требуется продемонстрировать лишь характер зависимости, т.е. показать ее прямолинейность/криволинейность, наличие max/min, точек перегиба, монотонность/периодичность изменения величин и т.д., построение графика можно осуществить приближенно, без указания масштаба по осям координат, ограничившись только обозначением их и начала координат. В этом случае график фактически несет качественную информацию и не может быть использован для нахождения значений координат лежащих на нем точек.
Однако, очень часто необходимо, чтобы график нес точную, легко читаемую, кол-венную информацию. Самыми распространенными являются графики, изображаемые прямоугольных (декартовых) осях координат. Каждый отдельный график выражает связь между двумя величинами, одну из которых (независимую, аргумент) принято откладывать на горизонтальной оси (оси абсцисс), другую (зависимую, функцию) – на вертикальной оси (оси ординат). Точка пересечения осей может иметь любые координаты, не обязательно (0;0). Для облегчения отсчета по осям координат желательно, чтобы 1 см их длины соответствовало изменение значащей цифры у откладываемой величины на 1,2 или 5 единиц.
Одновременно нужно стремиться к тому, чтобы масштаб обеспечивал и достаточную точность: наименьшее расстояние, которое можно отсчитать на графике, должно соответствовать значению, не большему ошибки средней арифметической. В связи с этим, при построении графика по экспериментально найденным точкам вверх и вниз от них в масштабе, принятом для оси ординат, откладывают отрезки , соответствующие значениям ошибок. Поскольку точки, найденные в эксперименте, не лежат строго на графике, при его построении производят графическое сглаживание опытных данных. Для построения прямолинейного графика необходимо иметь не менее 4 -5 экспериментальных точек, для построения кривой - не менее 6 -7.
Если точки плотно сгруппированы в одном конце графика, а в другом, отделенном от них «пустым» промежутком, необходимо изменить масштаб оси, раздвинуть точки в скоплении, сделать разрыв графика, после которого изобразить в этом же масштабе участок графика с одиночными точками.
По данным вариационного ряда можно построить гистограмму и полигон. Оси координат у этих графиков одинаковые: срединные значения классов (х) и частота встречаемости (p). При построении полигона и куммуляты рекомендуется достраивать ломанную линию, принимая численности классов, примыкаемых с обеих сторон к вариационному ряду, равными нулю( еще по одному значению с каждой стороны, чтобы график уходил в ноль с обеих сторон). Графики плотности распределения и функции распределения строят в виде плавных кривых, соблюдая выше отмеченные требования максимально близкого прилегания к ним экспериментальных точек (чередования прохождения кривой снизу, сверху точек). Площадь, ограниченная графиком плотности распределения, равна 1
16. Метод индексов. Достоинства и недостатки метода. Примеры индексов.
Для выражения количественной связи между признаками в отдельных случаях используют индексы. В методе индексов величина одного признака выражается в форме определенного соотношения с величиной другого, связанного с ней признака. В простейшем случае величина индекса I равна отношению значения признака х к сопряженному значению признака y. Это соотношение часто выражают в процентах I=(x/y)‧100%
Метод индексов применяется преимущественно в зоологии, зоотехнике, антропометрии и некоторых других областях науки.
В качестве примера индекса можно привести отношение силы кисти правой руки (х) к сопряженному значению силы кисти левой руки (у), т.е. I=(x/y).
Из интернета:
Этот метод может быть использован только для приблизительной, ориентировочной, оценки антропометрических данных и в практике врачебного контроля почти не применяется, так как большинство индексов и показателей недостаточно конкретизированы в возрастном, половом и профессиональном отношении.
Весоростовой
индекс (индекс Кетле)
определяет, сколько массы тела должно
приходиться на сантиметр роста. Он
рассчитывается путем деления массы
тела испытуемого на его рост (соответственно
в г/см).
Жизненный
индекс
характеризуется функциональными
возможностями дыхательного аппарата.
Он определяется путем деления ЖЕЛ (мл)
на массу тела (кг), т.е. рассчитывается,
какой объем легких приходится на 1 кг
массы тела.
Индекс пропорциональности развития грудной клетки (индекс Эрисмана): ОГК в покое (см) - рост (см)/2.
Индекс Пирке (Бедузи) рассчитывается по формуле: ID = (D - Dс / Dc) ‧100%, где D - длина тела стоя (см), Dc - длина тела сидя (см). Принцип оценки: величина показателя позволяет судить об относительной длине ног.
Индекс Пинье рассчитывается по формуле:I = D - (М + О), где D - длина тела стоя (см); М - масса тела (кг); О - окружность грудной клетки (см). Принцип оценки. Чем меньше величина индекса Пинье, тем лучше показатель (при условии отсутствия ожирения). Величина индекса менее 10 оценивается как крепкое телосложение, от 10 до 20 - хорошее, от 21 до 25 - среднее, от 26 до 35 - слабое, более 36 - очень слабое.
17. Средства механизации и автоматизации вычислительных работ в биологии, требования к н им со стороны биометрии и математического моделирования биологических систем.
Для ускорения и облегчения вычислительных работ применяются различные средства механизации и автоматизации вычислительных работ. Начиная от простых механических устройств и заканчивая электро-вычислительными машинами.
К числу простейших инструментов, до недавнего времени применяющихся, относятся русские счеты и счетная (логарифмическая) линейка. На счетах результат вычисления получают в дискретной форме, они удобны для выполнения операций сложения и вычитания На логарифмической линейке результат с определенной точностью находят на одной из шкал, она удобна при умножении, делении, возведении в степень и других операциях. Таким образом, они дополняют друг друга.
К механическим устройствам, способным осуществлять интегрирование на плоскости, относится планиметр, который используется для определения площади геометрических фигур.
От счетной машины, изобретенной Паскалем в XVII веке, берут свое начало механические арифмометры. Эти машины способны выполнять сложение, вычитание, умножение и деление. Известен арифмометр «Феликс», в котором числа задавались рычажком. Позже появились клавишные машины: ВК-1, ВК-2 с электрическим проводом, полуавтоматическая ВМП-2, компактные, также как «Вега», «Вятка» и др.
Механические машины в настоящее время практические не применяются. Им присущ существенный ряд недостатков: низкая скорость счета; ограниченное число вычислительных операций; отсутствие «памяти»; большой шум при работе; сравнительно невысокая надежность в эксплуатации.
Наибольшее распространение получили электронные вычислительные машины (ЭВМ).
18. Показатели вариации. Вычисление среднего квадратического отклонения.
Средние величины ничего не говорят о степени вариабельности признаков. Одинаковые значения средней могут иметь выборочные совокупности, варьирующие в разных пределах. Для характеристики вариабельности био.признаков применяются следующие показатели:
Пределы вариации (лимиты) – это значения минимальной и максимальной вариант выборочной совокупности. Лимиты указывают границы варьирования био.признака.
Размах вариации представляет собой разность между максимальной и минимальной вариантами.
Среднее линейное отклонение – численно равно среднему значению взятых без учета знака отклонений вариант от средней арифметической Δ=∑|xi - x̅|/n. В отличие от пределов и размаха вариации, которые учитывают лишь две варианты совокупности, в данном случае используются все варианты. Это делает данный показатель более представительным и устойчивым.
Дисперсия (варианса). Для того, чтобы в величине показателя вариации придать «больший вес» отклонения от средней арифметической, эти отклонения возводят в квадрат. Среднее значение квадратов отклонений вариант от средней арифметической называется дисперсией σ2=∑(xi - x̅)2/(n -1)
Среднее квадратическое отклонение является наиболее распространенным и общепринятым показателем вариации. Оно для краткости называется также «сигмой». Для его вычисления приминяется несколько способов. Точное значение дает прямой/длинный способ, вычисляется по формуле: σ=√∑(xi - x̅)2/(n -1). Этот способ трудоемок и применяется обычно для сравнительно небольших выборок. Менее сложный короткий способ, вычисляется по формуле: σ=√[∑ai2pi/n – (∑aipi/n)2]*n/(n -1), где ai – это отклонение варианты от значения условной средней А; pi – частота встречаемости варианты; n – объем выборочной совокупности. Если выборка сгруппирована в статистическую таблицу, то формула упрощается: σ=i√[∑a2p/n – (∑ap/n)2]*n/(n -1).
Коэффициент вариации. Все рассмотренные выше показатели являются именованными, имеющими размерность вариант. Для того, чтобы можно было сравнивать между собой степень вариабельности признаков, имеющих как одинаковые, так и разные размерности, введен безразмерный показатель – коэффициент вариации. Он численно равен выраженному в % отношению среднего квадратического отклонения к средней арифметической: CV=( σ/ x̅)*100%. Данный показатель является важным био.показателем.
Нормированное отклонение – это отклонение отдельной варианты выборочной совокупности от средней арифметической, выраженной с долях «сигмы». Это величина неименованная, вычисляется по формуле: t=(xi - x̅)/ σ.
19. Общая схема авм и работа ее основных функциональных блоков.
В аналоговых вычислительных машинах определенному значению показателя соответствует свое значение напряжения электрического тока. Они применяются сравнительно редко, уступают цифровым вычислительным машинам в точности и универсальности, но более просты по устройству. Конструктивно АВМ состоит из отдельных частей, наиболее важными из которых являются оперативные блоки. Каждый оперативный блок при работе машины способен выполнять какую-либо математическую операцию: алгебраическое суммирование, перемножение/деление двух величин, дифференцирование, интегрирование и т.д. Решению задачи на ЭВМ предшествует программирование, которое включает 2 этапа. Вначале осуществляют своего рода перевод математического уравнения на «язык» АВМ путем выбора необходимых блоков и соответствующего электронного соединения (коммутации) их между собой. Электронные входы и выходы операционных блоков располагаются на так называемом операционном поле машины. Путем соединения всех частей собирают структурную схему. На втором этапе (масштабировании) производят увязку значений математических переменных с машинными переменными (напряжением электрического тока): выбирают масштаб математических переменных, рассчитывают так называемые коэффициенты передачи, которые устанавливают с помощью переменных сопротивлений на машине. Таким образом, на втором этапе в структурную схему вносится количественное содержание. Результаты работы АВМ обычно читают на вольтметре и экране электронно-лучевого индикатора.
О
бщая
схема АВМ:
Поле набора (коммутация)
Устройство управления
Измерительная и регистрирующая аппаратура
Источники питания
Операционные блоки
Операционные блоки предназначены для выполнения математических операций. Поле набора обеспечивает необходимое соединение (коммутацию) между операционными блоками. Устройство управления обеспечивает взаимодействие во времени всех частей АВМ. Измерительная и регистрирующая аппаратура служит для измерения машинных переменных и настройки операционных блоков. Источники питания обеспечивают преобразование сетевого напряжения в номиналы напряжения, необходимые для работы всех частей машины.
20. Арифметические операции над вероятностями.
Со значениями вероятностей можно производить арифметические операции:
Суммируют вероятности в том случае, если ожидаемый результат достигается при положительном исходе лишь одного (любого) из определенного набора исходов. Например, выпадению четной цифры при однократном бросании игральной кости благоприятствуют грани 2, 4 и 6. Выпадение любой цифры из этого набора дает ожидаемый результат, а его вероятность равна сумме положительных исходов всего набора:
P (A2, либо А4/А6) = P(A2)+ P(A4)+ P(A6)=1/6+1/6+1/6=3/6=1/2
Суммировать вероятности можно лишь в том случае, если соответствующие им события являются несовместимыми между собой, т.е никакие хотя бы два из них не могут произойти одновременно.
Умножают вероятности в том случае, когда определяют вероятность сложного события, включающего исходы простых событий. Например, выпадение одной и той же цифры при одновременном бросании двух игральных костей является сложным событием. Его вероятность зависит от исхода каждого из двух событий, которые друг от друга не зависят. Вероятность в этом случае находится путем перемножения вероятностей составляющих событий:
P(A и A)=P(A)*P(A)=1/6*1/6=1/36
Умножать вероятности можно лишь в том случае, если соответствующие им события являются независимыми друг от друга и совместимыми, так как только совместное наступление событий обеспечивает соответствующий результат сложного события.
21. История развития эвм и языков программирования.
Эволюция современной вычислительной техники шла по двум параллельным, взаимным направлениям: совершенствование самих вычислительных машин и их программного обеспечения.
Создание электронных вычислительных машин связано с именем математика фон Неймана разработавшего теоретические основы их проектирования. Первая ЭВМ работала в 1945 году в США. Ее память вмещала всего 250 десятиразрядных чисел, скорость счета равнялась 5000 операций в секунду. Она открыла счет поколениям машин, которые сменялись примерено через 10 лет и различались, прежде всего, элементной базой. ЭВМ первого поколения работали на электронных лампах, обладали быстродействием в 10 – 250 тысяч арифметических операций в секунду. Первая отечественная машина была создана в Киеве в 1951 году под руководством академика Лебедева. ЭВМ первого поколения использовались только для решения научных вычислительных задач.
Машины второго поколения работали на транзисторах. Их быстродействие было на порядок выше, чем у перового (БЭСМ-6 – до миллиона операций в секунду). Появилась возможность программировать на алгоритмических языках.
На смену транзисторам у машин третьего поколения пришли так называемые интегральные схемы, обладающие очень высокой плотностью упаковки элементов электронной схемы (свыше 1000 на одном мм2 тонкой кремниевой пластинке). ЭВМ этого поколения, как правило, образуют серии, внутри которых они программно совместимы.
Четвертое поколение представлено многопроцессорными вычислительными системами с быстродействием десятки-сотни миллионов операций в секунду. Они обладают высокими вычислительными возможностями и предназначены в основном для коллективного пользования.
Характерной особенностью ЭВМ пятого поколения является применение для общения с ними человека естественного языка, включая речь.
В настоящее время ведутся работы по созданию машин шестого и последующих поколений с иной элементной базой.
Эволюция ЭВМ шла по пути миниатюризации элементов схем, что позволило от поколения к поколению уменьшить материалоемкость машин, их стоимость, потребную площадь, расход электроэнергии и т.д. Одним из важных достижений было создание в 1975 году ПК.
Программы для первых ЭВМ писали на машинном языке, т.е. в кодах, непосредственно воспринимаемых машиной.
В начале 50-х годов был разработан новый язык – автокод, который облегчил процесс написания программ благодаря использованию мнемонических символов. Специальная программа –ассемблер, осуществляет автоматический перевод описания алгоритмов с автокода на машинный язык. Основной недостаток автокода его ориентация на конкретную ЭВМ, за что его относят к машинно-ориентированным языкам (языкам низкого уровня). Дальнейший прогресс в программировании был достигнут после разработки языков высокого уровня, которые не связаны с особенностями конкретного компьютера. Языки стали ориентировать на решение конкретных проблем (проблемно-ориентированные языки). В 1958 году фирмой IBM был разработан язык ФОРТРАН («формульный переводчик»), предназначенный преимущественно для научных вычислений. Позднее было разработано множество других языков (Паскаль, Бейсик, Лого, Лисп и др.), имеющих свои преимущественные области применения. Ориентированными на решение задач в конкретной области стали и программы, объединенные в пакеты прикладных программ (ППП). Прикладные и системные (выполняющие различные вспомогательные функции) программы составляют так называемое программное обеспечение ЭВМ.
Эволюция языков программирования направлена на облегчение общения пользователя с ЭВМ, установления более естественного диалога между ними, а также расширения круга задач, решаемых с помощью компьютера.
22. Распределение Пауссона.
В общем случае значения вероятностей альтернативных событий p и q не равны между собой, поэтому биноминальное распределение в данном случае носит асимметричный характер. Если вероятность ожидаемого события p отличается от вероятности противоположного события q на 2-3 порядка и более (p ˂˂q), распределение частоты ожидаемого события становится крайне ассиметричным. Само ожидаемое событие в этом случае называют редким. Распределение вероятностей редких событий описывается формулой Пауссона: Pn (m) = am / m!ea , где Pn(m) – вероятность появления редкого события в n зависимых испытаниях m раз; a ≈ np – наивероятнейшая частота редкого события; e=2,7183; 0!=1
Таким образом, распределение Пауссона является частным случаем биноминального распределения, когда p ˂˂q. Оно описывает вероятности редких событий, встречающихся в микробиологии, радиобиологии, генетике и других областях биологии.
Ожидаемая частота встречаемости события (p′) вычисляется по формуле: p′=n‧ Pn(m)
24. Совмещение полигона эмпирического распределения с кривой нормального распределения.
Подавляющее число операций статистической обработки ориентировано на нормальное (или близкое к нему) распределение. Нормальное распределение является частным случаем биноминального распределения, в котором p=q и n→∞. Графически оно изображается в виде симметричной (p=q) и плавно изменяющейся кривой (при n→∞ полигон превращается в кривую), колоколообразная формы. Нормальное распределение отражает характер варьирования мерных (непрерывно меняющихся) признаков. Поэтому необходимо знать, подчиняется ли варьирование исследуемого признака закону нормального распределения. Прежде чем сделать заключение о соответствии эмпирического распределения нормальному, нужно предварительно сопоставить частоты ранее полученного вариационного ряда с теоретическими. Высокая наглядность сопоставления достигается на совмещенных графиках кривой нормального распределения и эмпирического полигона, построенных в едином масштабе.
При их совмещении необходимо установить, нет ли в исходной выборке сомнительных вариант, т.е. таких, которые попали случайно и нарушают однородность. Эти вариант чрезмерно отклоняются от значения средней арифметической и их сравнительно легко обнаружить и исключить из выборки. В первом приближении можно считать, что к числу «выскакивающих» вариант относятся те, значения которых находятся за пределами границ от Xmin= x̅-3σ до Xmax= x̅+3σ (правило «плюс-минус трех сигм»). Выборки в которых отсутствуют «выскакивающие» варианты, отвечают требованию типичности.
Чтобы совместить полигон вариационного ряда с кривой нормального распределения, x: … … …
p: .. .. ..
необходимо частоты классов привести к численности нормального распределения. Это достигается умножением частоты p на модуль K=10000/ n‧10‧(i/ σ) , где n – объем эмпирической выборки; i – классовый интервал; 10‧(i/ σ) - операция приведения интервала i в соответствии с интервалом кривой нормального распределения.
Вариационный ряд, по которому строится полигон на графике кривой нормального распределения, имеет следующий вид t: … … …
p′=pK: .. .. ..
25. Отклонение эмпирического распределения от нормального.
Хотя многочисленные био.признаки и подчиняются нормальному распределению, эмпирическая кривая распределения, построенная на основании вариационного ряда, часто отклоняется от кривой нормального распределения.
Наиболее характерным является отклонение вершины эмпирической кривой влево/вправо от значения средней арифметической x̅ выборочной совокупности. Для кривой нормального распределения моды, медианы и средней арифметической совпадают (Mo=Me= x̅). (Мода – это наиболее часто встречающаяся величина. Медиана является серединой вариационного ряда, по обе стороны от нее находится одинаковое кол-во вариант). При смещении вершины эмпирического распределения влево (Мо˂ x̅) имеет место правосторонняя асимметрия, при смещении вправо (Мо˃ x̅) – левосторонняя асимметрия. Для количественной характеристики степени асимметрии используют коэффициен асимметрии Аs, численно равный отношению центрального момента третьего порядка (среднего значения кубов отклонений вариант от средней арифметической) к кубу среднего квадратического отклонения: As= ∑p(xi - x̅)3/nσ3
Если вершина сдвинута влево от значения x̅, коэффициент As˃0, поэтому такую асимметрию называют положительной. При смещении вершины вправо As˂0, асимметрию называют отрицательной. Коэффициент асимметрии является неименованной величиной, абсолютное значение которой колеблется от 0 до 1. Асимметрия считается незначительной, если As≤0,2.
.Не
менее характерным является смещение
вершины эмпирического распределения
вверх по отношению к кривой нормального
распределения (островершинное
распределение) или вниз (плосковершинное
распределение). Для оценки степени этого
отклонения применяется коэффициент
эксцесса
Ех=(∑(xi - x̅)4 / nσ4) -3.
При кривой нормального распределения Ех=0; при островершинном распределении Ех˃0 и может иметь самое различное значение; при плосковершинном распределении Ех˂0, его предельное значение равно минус двум.
Асимметрия и эксцесс могут встречаться одновременно в одном эмпирическом распределении.
Причиной ложной асимметрии вариационного ряда может быть «неудачный» выбор границ классов, классового интервала.
При изменении их такая асимметрия исчезает. Если же этого не происходит, то асимметрия обусловлена био.причинами, в частности, превалирующим односторонним влиянием факторов. Вероятно, симметричное распределение имеет место при стационарном состоянии био.систем, в процессе же изменения признака под воздействием различных причин распределение становится асимметричным.
29. Вычисление теоретических частот эмпирических распределений.
Нахождение теоретических частот вариационного ряда называется выравниванием эмпирического распределения. Значение теоретической частоты определяется по формуле: p′=(n‧i/σ)‧f(t), где где n – объем эмпирической выборки; i – классовый интервал; t – нормированное отклонение.
Значение f(t) является табличным, причем знак при величине t на эту функцию не влияет, т.е. f(t) = f(-t)
При постарении графиков полигона эмпирического распределения (p) и теоретического распределения (p′) в единых осях, чаще всего свидетельствуют о достаточно близком к нормальному характере варьирования эмпирических значений вариант, при небольшом расхождении графиков.
