Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Предмет

.pdf
Скачиваний:
18
Добавлен:
21.05.2015
Размер:
474.45 Кб
Скачать

Предмет, цели и задачи математической статистики. Биометрия

Математическая статистика – раздел математики, посвященный математическим методам систематизации, обработки и использования статистических данных для научных и практических выводов.

Таким образом, можно выделить два основных типа статистических

задач:

1)кратко описать большой массив данных;

2)проверить некую статистическую гипотезу.

Биометрия – область научных знаний, охватывающая планирование и

анализ результатов количественных биологических экспериментов и

наблюдений методами математической статистики.

В математической статистике можно выделить следующие крупные

разделы: описательная статистика, критерии различий, дисперсионный

анализ факторных эффектов, регрессионный анализ, анализ временных рядов, многомерные методы, методы контроля качества.

Описательная статистика позволяет рассчитать основные параметры,

характеризующие собранную информацию в целом: среднее значение,

разброс значений, или стандартное отклонение, характеристики формы распределения данных (мода, медиана, асимметрия, эксцесс, квантили и т.д.).

Критерии различий оценивают различия между двумя (или более)

совокупностями данных. Результат применения критериев различий покажет,

случайны или неслучайны различия двух числовых выборок.

Факторные эффекты. Часто необходимо выяснить, влияет или нет некоторый фактор на интересующий нас показатель. При этом фактор может быть количественным или качественным и иметь несколько градаций.

Решать такие задачи призваны методы анализа факторных эффектов или

дисперсионного анализа.

Прогнозирование. Другая важная задача – прогнозирование будущего поведения некоторого временного ряда. Для такого временного ряда подбирают некоторое аналитическое уравнение (модель), на основании которого можно предсказать ближайшее или отдаленное будущее со строго статистически обоснованной точностью (или ошибкой) такого прогноза.

Выявлению периодических процессов в поведении временных рядов и их динамических взаимосвязей служат методы корреляционного, спектрального

или авторегрессионного анализа.

Регрессионный анализ. Вопросы моделирования статистических зависимостей между двумя или несколькими переменными решаются в разделе регрессионного анализа. С помощью таких моделей можно не только построить прогноз, но и определить оптимальные области для последующего управления и контроля.

Контроль качества. Многих может интересовать, когда необходимо немедленно вмешиваться в технологический или управленческий процесс.

Многомерные методы. Часто необходимо обнаружить закономерность,

структуру и группировку в необозримом множестве изучаемых объектов,

каждый из которых описывается множеством переменных. Для подобного типа задач, прежде всего, необходимо видеть, как группируются объекты в многомерном пространстве описывающих его переменных (в нашем трехмерном мире визуализировать многомерные пространства невозможно).

В этом плане факторный анализ вычислит новую, сокращенную систему координат, на которую изучаемые объекты будут проецироваться более экономным и информативным образом. Кластерный анализ построит дерево классификации объектов (дендрограмму), на котором ветви отходят от ствола соответственно взаимной удаленности (несхожести) объектов.

Дискриминантный анализ подберет уравнение, разбивающее объекты на заданное число классов, используя которое можно успешно классифицировать новые объекты. Если же объекты могут быть оценены только экспертным способом посредством парных взаимных сравнений, то

проблему поможет решить метод многомерного шкалирования, который подберет нужное метрическое пространство для визуализации и измерения взаимного расположения таких объектов.

Последствия незнания

Исследование должно правильно планироваться, а результаты -

правильно интерпретироваться.

Этапы анализа данных

Организационно-аналитическая деятельность при статистическом

анализе включает семь основных шагов, или макроэтапов:

1)постановка задачи исследования и сбор исходных данных для

анализа;

2)ввод данных в компьютер, сохранение их в архиве;

3)визуальное изучение данных в графическом виде;

4)редактирование и выполнение различных преобразований

данных;

5)выбор и исполнение соответствующего метода анализа;

6)представление полученных результатов в числовой, табличной и графической форме;

7)выводы по результатам анализа и повторение всех или части

этапов.

1. Сбор данных для анализа

Сбор данных для анализа обычно осуществляется одним из трех способов:

-в ходе активного эксперимента с технической регистрацией значений соответствующих переменных;

-в результате наблюдения или опроса с ручной регистрацией соответствующих показателей;

-данные извлекаются из литературных источников.

Процедура сбора данных определяется задачей исследования.

2. Ввод данных

Обработка начинается с упорядочения или систематизации собранных данных. Процесс систематизации результатов массовых наблюдений,

объединения их в относительно однородные группы по некоторому признаку называется группировкой. Группировка - глубоко осмысленное действие, направленное на выявление связей между явлениями. Нельзя группировать в одну и ту же совокупность неоднородные по составу данные, необдуманно выбирать способ группировки. Группировка должна отвечать требованию поставленной задачи и соответствовать содержанию изучаемого явления.

Способы группировки данных

1.Таблицы. Наиболее распространенной формой группировки являются статистические таблицы. Они бывают простыми и сложными.

2.К простым относятся таблицы, применяемые при альтернативной группировке, когда одна группа вариант противопоставляется другой. К сложным относятся таблицы, применяемые при выяснении причинно-следственных отношений между варьирующими признаками.

3.Статистические ряды. Статистическим называют ряд числовых значений признака, расположенных в определенном порядке. В

зависимости от того, какие признаки изучаются, ряды делят на атрибутивные, вариационные, ряды динамики и регрессии, а также ряды ранжированных значений признаков и ряды накопленных частот,

являющихся производными вариационных рядов. Введенные данные обычно отображаются в электронной таблице, или матрице данных, где столбцы представляют различные переменные, а строки – измерения значений этих переменных, произведенные в различных условиях, в различное время, у

различных объектов.

3. Визуальный анализ

После ввода на данные в электронной таблице следует просто посмотреть, чтобы составить общее представление о характере их изменения,

специфических особенностях и закономерностях, что очень важно для выбора стратегии и тактики дальнейшего исследования. Для этого можно использовать как исходное числовое представление, так и различные формы графического изображения.

4. Преобразование данных

Часто исходные данные перед вычислительным анализом необходимо скорректировать методами ручного редактирования или же полуавтоматического преобразования к виду, адекватному методу выбранного анализа. Нередко требуется также удаление из введенных данных выбросов (резко отличающихся от остальных данных по величине,

которые могут быть, например, результатом некорректных измерений) и

посторонних данных, а также замена (или удаление) пропущенных

(неизмеренных) значений.

После выполнения преобразований может потребоваться повторный визуальный анализ. В случае простейших задач исследования этот этап может отсутствовать.

5.Статистический анализ

После этого можно приступать собственно к выбору метода анализа,

адекватного поставленной задаче, и его последовательному исполнению.

6.Представление результатов

Для облегчения последующих выводов и заключений полученные результаты следует представить в виде обобщенных таблиц, а также адекватных, убедительных и эффективных графиков.

7. Выводы

Основные понятия теории вероятностей

Теория вероятностей — это раздел математики, изучающий закономерности случайных явлений, наблюдающиеся при массовом повторении испытаний.

Теория вероятностей – математическая наука, изучающая закономерности в случайных явлениях.

Испытанием называется осуществление на практике какого-нибудь комплекса условий.

Событием называется всякое явление, о котором имеет смысл говорить, что оно происходит или оно не происходит при наличии комплекса условий.

Если событие при реализации определенного комплекса условий может произойти, а может и не произойти, то оно называется случайным.

Случайные события представляют собой различные возможные исходы испытания.

Вероятность события (Р) определяется как частота, с которой это событие происходит в большой серии последовательных испытаний;

другими словами, это отношение числа «успехов» (ожидаемых результатов)

к общему числу испытаний. Таким образом, вероятность – это всегда число,

лежащее между единицей (событие происходит при каждом испытании) и

нулем (событие не происходит никогда).

Считают, что события, имеющие очень малую вероятность, в

единичных испытаниях не произойдут, т.е. такие события рассматривают как

практически невозможные. Если же вероятность события достаточно велика,

его принято считать практически достоверным.

Если в условиях испытания появление одного события исключает появление других событий, то такие события называются несовместимыми.

Вероятность, которую можно указать до опыта, называют априорной

(апостериорной).

Основные теоремы теории вероятностей

Теорема сложения вероятностей: Вероятность суммы двух несовместимых событий равна сумме вероятностей этих событий.

Р(А+В)=Р(А)+Р(В)

Суммой нескольких событий называется событие, состоящее в появлении хотя бы одного их этих событий.

Следствие 1. Если события А1, А2, …Аn образуют полную группу несовместимых событий, то сумма их вероятностей равна единице:

n

P( Ai ) 1

i 1

Следствие 2. Сумма вероятностей противоположных событий равна единице:

P( A) P( A) 1

Теорема умножения вероятностей: Понятие независимости событий

– важное понятие. Определяется оно следующим образом. Пусть имеется два

события А и В и их вероятности равны Р(А) и Р(В) соответственно. Событие

А называется независимым от события В, если вероятность события А не зависит от того, произошло событие В или нет. Тогда вероятность того, что произойдут оба события Р(А и В), равна Р(А)·Р(В). Другими словами, два события независимы, если частота, с которой происходят оба события, равна произведению частот обоих событий, взятых отдельно.

Р(АВ) = Р(А)·Р(В)

Следствие 1. Если событие А не зависит от события В, то и событие В не зависит от события А.

Следствие 2. Вероятность произведения двух независимых событий равна произведению вероятностей этих событий.

Условные вероятности. Событие А называется зависимым от события

В, если вероятность события А меняется в зависимости от того, произошло событие В или нет.

Вероятность события А, вычисленная при условии, что имело место другое событие В, называется условной вероятностью события А и

обозначается Р(А|В) или РВ(А).

Условная вероятность события А при условии наступления события В равна:

P( A B) P( AB)

P(B)

Эта формула называется формулой условной вероятности.

Формула полной вероятности: Пусть дана группа несовместных событий B1, B2 Bn и некоторое событие А, подразделяющееся на частные случаи АB1, АВ2... АВn. И пусть даны вероятности Р(B1), Р(В2,...Р(Вn) и

условные вероятности Р(А|В1), Р(А|В2)...Р(А|Вn). Требуется определить вероятность Р(A).

n

P( A) P(Bi ) P( A | Bi ) Эта формула называется формулой полной

i1

вероятности.

Формула Байеса. Пусть дана группа несовместных событий B1, B2 Bn и

некоторое событие А, подразделяющееся на частные случаи АB1, АВ2... АВn. И

пусть даны вероятности Р(B1), Р(В2,...Р(Вn) и условные вероятности Р(А|В1),

Р(А|В2)...Р(А|Вn). Требуется определить условные вероятности Р(В1|А),

Р(В2|А),...Р(Вn|А).

P(Bi | A)

P(Bi )P( A | Bi )

 

n

Эта формула называется формулой

 

P(Bi )P( A | Bi )

 

 

i 1

 

Байеса.

Вычисление общих вероятностей всегда начинают с некоторых допущений, а затем рассчитывают вероятность некоторого определенного события. При расчете обратных вероятностей задача состоит в том, чтобы,

исходя из некоторого имевшего места события или группы событий,

определить вероятность того, что некоторое общее утверждение более или менее истинно. В такой форме задача неразрешима и, более того,

бессмысленна, если под «вероятностью» мы имеем в виду «частоту события». Общее утверждение не может быть истинным только в некоторой доле случаев.

Основные формулы комбинаторики

Комбинаторика изучает количество комбинаций, подчиненных определенным условиям, которые можно составить из элементов,

безразлично какой природы, заданного количества множества. При непосредственном вычислении вероятностей часто используют формулы комбинаторики.

Перестановками называют комбинации, состоящие из одних и тех же n

различных элементов и отличающихся только порядком их расположения.

Число всех возможных перестановок

Pn = n!

Размещениями называют комбинации, составленные из n различных элементов по m элементов, которые отличаются либо составом элементов,

либо их порядком. Число всех возможных размещений

Anm n(n 1)(n 2)...(n m 1)

Правило суммы: Если некоторый объект А может быть выбран из совокупности объектов m способами, а другой объект В может быть выбран n

способами, то выбрать либо А, либо В можно m+n способами.

Правило произведения: Если объект А можно выбрать из совокупности объектов m способами и после каждого такого выбора объект В можно выбрать n способами, то пара объектов (А, В) в указанном порядке может быть выбрана mn способами.

Признак. Классификация признаков

Признак – свойство, проявлением которого один предмет отличается от другого.

Колебания величины одного и того же признака, наблюдаемые в массе однородных членов статистической совокупности, называют вариациями, а

отдельные числовые значения варьирующего признака принято называть

вариантами.

Признаки: качественные, или атрибутивные, и количественные

(условно).

Обычно в статистике различают три типа значений переменных:

количественные, номинальные и ранговые.