Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Лекция №1

.pdf
Скачиваний:
30
Добавлен:
21.05.2015
Размер:
832.46 Кб
Скачать

Введение

- Дело в том, - растерянно сказал Адриан, - что я не очень разбираюсь в том, как действует закон.

- Ничего удивительного, - твердо произнес сэр Магнус. - Где уж вам разбираться, если даже мы, кому назначено применять закон, мало в этом смыслим.

- Все равно, что садиться на поезд, - заметил Адриан, - не зная, как управлять паровозом.

Сэр Магнус шумно вдохнул щепотку нюхательного табака.

- Ну, я не стал бы особенно волноваться. Когда едешь поездом, самое главное - не пропустить нужную станцию.

(Дж. Даррелл. Рози - моя родня.)

Для чего нужна математическая статистика? Известно, что окружающий нас мир характеризуется постоянной изменчивостью и в нем,

наряду с закономерностью, существует и случайность, порождающая разнообразие возможностей и свободу выбора. Однако в практической деятельности люди обычно хотят, чтобы их действия приносили стабильный,

полезный и предсказуемый результат. Изумительным по мощности и гибкости инструментом для выделения закономерностей и отсеивания случайностей является аппарат математической статистики, созданный многими поколениями выдающихся математиков.

В исследовательской работе не всегда учитывается системность и взаимосвязанность явлений в природе. Ярче всего это проявляется при организации наблюдений и экспериментов по принципу единственного фактора: вводятся различные ограничения и существенные упрощения,

разрабатываются искусственные схемы исследований и т. д. В результате допускается серьезная методологическая ошибка: игнорируется единство живой природы. Известно, что упущения методологического характера нельзя исправить никакими методами, в том числе и математическими.

Принцип единственного фактора вошел в биологию по объективным причинам, среди которых первостепенное значение имеет тот факт, что

человек не может непосредственно анализировать одновременно взаимодействие многих факторов.

Следует иметь в виду, что глубокое, серьезное изучение статистического анализа требует определенных математических познаний и,

главное, математической культуры мышления. Продолжительное время анализ биомедицинских данных был уделом специалистов, так как это требовало серьезной предварительной подготовки. Характерной особенностью математизации биологии в наши дни является появление таких методов анализа эмпирического материала, которые обеспечивают комплексный подход к познанию живых организмов. Математические методы, разработанные с учетом принципа единства живой природы и возможности практической их реализации с использованием программного обеспечения, являются достижением в области постановки анализа и биометрических исследований. С появлением и совершенствованием современных программ обработки данных статистическая обработка поднялась на новый уровень. Теперь для того, чтобы провести простой анализ полученных результатов, исследователь может и не иметь математической подготовки. Достаточно владеть статистическими понятиями, самое главное, правильно выбрать метод анализа и четко понимать следующее:

1)Как формулируется тот вопрос, на который Вы хотите ответить с помощью статистического анализа?

2)Какие статистические процедуры наиболее адекватны для поиска ответа на данный вопрос?

3)Как следует интерпретировать результаты?

Умение не только интерпретировать обработанную информацию, но также и понимать сущность применяемых методов предохранит от механического их использования, которое рано или поздно приводит к нелепым или даже абсурдным выводам.

Знание возможностей, предоставляемых современными методами статистического анализа, позволяет оптимально планировать исследование,

проводить полный и корректный анализ результатов, выявлять взаимосвязь наблюдаемых явлений, устанавливать причины и следствия, то есть извлекать максимум полезной и достоверной информации при оптимальных затратах рабочего времени и материальных ресурсов.

В данном учебном пособии собрана информация из источников (список которых приведен в конце работы), изложение материала в которых нам показалось наиболее простым и доступным для тех, кто считает математику наукой для избранных умов. Но математики смотрят на математику как на область исследования, где они могут делать все, что хотят и как они хотят.

Остальные используют математику как точный язык для выражения отношений между величинами реального мира и в качестве инструмента для получения количественных выводов из этих отношений.

Краткий обзор средств статистической обработки результатов научного

исследования

Все программы статистической обработки данных можно разделить на

профессиональные, полупрофессиональные (популярные) и

специализированные. Статистические программы относятся к наукоемкому программному обеспечению, цена их часто недоступна индивидуальному пользователю. Профессиональные пакеты имеют большое количество методов анализа, популярные пакеты - количество функций, достаточное для универсального применения, специализированные пакеты ориентированы на какую-либо узкую область анализа данных. Создатели любого из статистических пакетов заявляют, что их продукт превосходит аналоги.

Отсутствие у большинства исследователей времени для освоения нескольких программ делает выбор непростым. Здесь приведена краткая и далеко не полная информация о присутствующих на рынке основных программных пакетах, пригодных для статистической обработки биомедицинских данных.

MS Excel. Самым часто упоминаемым (и используемым) в

отечественных статьях является приложение MS Excel из пакета офисных программ компании Microsoft – MS Office. Причины этого кроются в широком распространении этого программного обеспечения, наличии русскоязычной версии, тесной интеграцией с MS Word и PowerPoint. Однако,

MS Excel - это электронная таблица с достаточно мощными математическими возможностями, где некоторые статистические функции являются просто дополнительными встроенными формулами. Расчеты,

сделанные при ее помощи, не признаются авторитетными биомедицинскими журналами. Безусловно, MS Excel хорошо подходит для накопления данных,

промежуточного преобразования, предварительных статистических прикидок, для построения некоторых видов диаграмм. Однако окончательный статистический анализ необходимо делать в программах,

которые специально созданы для этих целей.

STADIA. Программа отечественной разработки. Включает в себя все необходимые статистические функции. Она прекрасно справляется со своей задачей - статистическим анализом. К положительным качествам программы можно отнести русскоязычный, достаточно простой и понятный интерфейс,

развитую систему экранной помощи (HELP) и наличие учебника. Со страницы http://statsoft.msb.ru/stadia.zip можно скачать бесплатную демо-

версию STADIA. В качестве недостатков программы следует отметить архаичный внешний вид и недостаточные графические возможности.

SPSS (Statistical Package for Social Science). Один из самых часто используемых пакетов статистической обработки данных (адрес сайта - http://www.spss.com/). Отличается гибкостью, мощностью, применим для всех видов статистических расчетов, применяемых в биомедицине.

Существует русскоязычное представительство компании (http://www.spss.ru/)

которое предлагает полностью русифицированную версию SPSS для

Windows. Есть учебник на русском языке, позволяющий шаг за шагом освоить возможности SPSS, репетитор по статистике на русском языке,

помогающий в выборе нужной статистической или графической процедуры для конкретных данных и задач, а также справка по SPSS Base и SPSS Tables.

Российский офис SPSS регулярно проводит учебные курсы по анализу данных при помощи программного обеспечения SPSS. На русский язык переведена книга «SPSS 10: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей».

Однако, исходя из названия, данный пакет ориентирован в первую очередь на обработку данных по социальным наукам (экономика, социология и т.д.),

требует длительного освоения и запоминания последовательности выполнения каждой конкретной процедуры.

STATISTICA. Производителем программы является фирма StatSoft Inc. (США) (http://www.statsoft.com/), которая выпускает статистические приложения, начиная с 1985 г. STATISTICA включает большое количество методов статистического анализа (более 250 встроенных функций),

объединенных специализированными статистическими модулями. Этот статистический пакет может быть рекомендован для биомедицинских исследований любой сложности. Российское представительство компании

(http://www.statsoft.ru/) предлагает полностью русифицированную версию программы. Сайт компании содержит много информации по статистической обработке медицинских данных, учебник по статистике на русском языке.

JMR. Один из мировых лидеров в анализе данных. Развивает этот статистический пакет SAS Institute (http://www.jmp.com/). Однако особых преимуществ для медико-биологической статистики этот программный продукт не имеет.

SYSTAT. Статистическая система для персональных компьютеров

(http://systat.com/). Последняя версия обладает неплохим, интуитивно понятным интерфейсом. Компания Systat Software также разрабатывает популярные у отечественных исследователей SigmaStat и SigmaPlot, которые являются соответственно, программой статистической обработки и

программой построения диаграмм. При совместной работе становятся единым пакетом для статистической обработки и визуализации данных.

MINITAB. С сайта производителя (http://www.minitab.com/) можно взять полнофункциональный пробный вариант программы, которая работает 30

дней. Это достаточно удобный в работе программный пакет, имеющий хороший интерфейс пользователя, хорошие возможности по визуализации результатов работы. Имеет подробную справку.

STATGRAPHICS PLUS. Довольно мощная статистическая программа.

Содержит более 250 статистических функций, генерирует понятные,

настраиваемые отчеты. Ее можно получить на сайте http://www.statgraphics.com/. Есть возможность скачать демо-версию. Следует отметить, что ранние версии этой программы были весьма популярны у отечественных исследователей.

Безусловно, дороговизна программ не позволяет их менять. Поэтому имеет смысл посмотреть демо-версии, разобраться с работой и потом делать окончательный вывод. Из зарубежных разработок русскоязычные версии (с

документацией) имеют только SPSS и STATISTICA.

Предмет, цели и задачи математической статистики. Биометрия

Математическая статистика – раздел математики, посвященный математическим методам систематизации, обработки и использования статистических данных для научных и практических выводов.

Математическая статистика исходит из предположения, что наблюдаемая изменчивость наблюдаемого мира имеет два источника. Один из них – действие известных причин и факторов. Они порождают изменчивость,

закономерно объяснимую. Именно эти изменения и вызывающие их факторы обычно представляют интерес для исследователя, ищущего, в первую очередь, причинные связи явлений.

Однако большинство природных и общественных явлений обнаруживают изменчивость, которая не может быть целиком объяснена

закономерными причинами. В таком случае прибегают к концепции случайной изменчивости, которая в данном контексте означает

«подчиняющийся законам вероятности». И если данное предположение о таком характере явления справедливо, то оно позволяет делать надежные выводы (достоверность которых контролируется) из данных, которые зачастую противоречивы, искажены ошибками, ненадежны и т.д. Без привлечения статистических понятий в таких случаях невозможно судить не только о точности и обоснованности выводов, но и вообще об их адекватности.

Даже в самых конкретных биологических исследованиях основной интерес представляют сведения, относящиеся не к индивидуальному объекту, а к целой группе или некоторому статистическому среднему объекту. Необходимость использования статистических методов в биологических и медицинских исследованиях связана в первую очередь с тем, что свойства биологического объекта обычно значительно варьируют в пределах популяции, а физиологические и другие параметры одной особи испытывают флуктуации во времени.

Таким образом, можно выделить два основных типа статистических задач:

1)кратко описать большой массив данных;

2)проверить некую статистическую гипотезу.

Традиционно тесные связи между биологической проблематикой и собственно математической статистикой уже давно позволили выделить рассматриваемую область прикладной статистики в отдельную дисциплину – биометрию.

Биометрия – область научных знаний, охватывающая планирование и анализ результатов количественных биологических экспериментов и наблюдений методами математической статистики.

Современный количественный эксперимент включает в себя самостоятельное математико-статистическое исследование, которое

начинается со статистического планирования эксперимента, то есть организации его постановки, и завершается статистической обработкой полученных результатов. Поэтому биометрия находит себе все более широкое общебиологическое применение, ибо задачи, которые она решает – планирование экспериментов и анализ их результатов, – составляют основу экспериментальной работы в любой частной области биологии.

В математической статистике для первоначального знакомства целесообразно выделить следующие крупные разделы: описательная статистика, критерии различий, дисперсионный анализ факторных эффектов,

регрессионный анализ, анализ временных рядов, многомерные методы,

методы контроля качества.

Описательная статистика позволяет рассчитать основные параметры,

характеризующие собранную информацию в целом: среднее значение,

разброс значений, или стандартное отклонение, характеристики формы распределения данных (мода, медиана, асимметрия, эксцесс, квантили и т.д.).

Критерии различий оценивают различия между двумя (или более)

совокупностями данных. Результат применения критериев различий покажет,

случайны или неслучайны различия двух числовых выборок.

Факторные эффекты. Часто необходимо выяснить, влияет или нет некоторый фактор на интересующий нас показатель. При этом фактор может быть количественным или качественным и иметь несколько градаций.

Решать такие задачи призваны методы анализа факторных эффектов или

дисперсионного анализа.

Прогнозирование. Другая важная задача – прогнозирование будущего поведения некоторого временного ряда. Для такого временного ряда подбирают некоторое аналитическое уравнение (модель), на основании которого можно предсказать ближайшее или отдаленное будущее со строго статистически обоснованной точностью (или ошибкой) такого прогноза.

Выявлению периодических процессов в поведении временных рядов и их

динамических взаимосвязей служат методы корреляционного, спектрального

или авторегрессионного анализа.

Регрессионный анализ. Вопросы моделирования статистических зависимостей между двумя или несколькими переменными решаются в разделе регрессионного анализа. С помощью таких моделей можно не только построить прогноз, но и определить оптимальные области для последующего управления и контроля.

Контроль качества. Многих может интересовать, когда необходимо немедленно вмешиваться в технологический или управленческий процесс.

Не упустить этот важный момент помогут методы контроля качества,

повсеместное и незамедлительное применение которых во многом определило поразительные успехи японской промышленности. Здесь мы наблюдаем изумительный пример внедрения статистических методов в широкую практику. Практикующими статистиками были сформированы 6–8

правил оценивания динамики изменения качества продукции и их наглядного представления (так называемые контрольные карты). Эти правила выражены самыми простейшими словами, и японские рабочие выучивают их наизусть,

после чего каждый простой рабочий знает, когда надо вызывать бригаду наладчиков, чтобы избежать многомиллионных убытков от выпуска некачественной продукции.

Многомерные методы. Часто необходимо обнаружить закономерность,

структуру и группировку в необозримом множестве изучаемых объектов,

каждый из которых описывается множеством переменных. Для подобного типа задач, прежде всего, необходимо видеть, как группируются объекты в многомерном пространстве описывающих его переменных (в нашем трехмерном мире визуализировать многомерные пространства невозможно).

В этом плане факторный анализ вычислит новую, сокращенную систему координат, на которую изучаемые объекты будут проецироваться более экономным и информативным образом. Кластерный анализ построит дерево классификации объектов (дендрограмму), на котором ветви отходят от

ствола соответственно взаимной удаленности (несхожести) объектов.

Дискриминантный анализ подберет уравнение, разбивающее объекты на заданное число классов, используя которое можно успешно классифицировать новые объекты. Если же объекты могут быть оценены только экспертным способом посредством парных взаимных сравнений, то проблему поможет решить метод многомерного шкалирования, который подберет нужное метрическое пространство для визуализации и измерения взаимного расположения таких объектов.

Следует подчеркнуть, что методы статистического анализа универсальны и им безразлично, данные из какого источника анализируются:

биология, геология, социология или мифология – они всегда предоставят математически четкий результат.

Последствия незнания

Незнание или неполное знание основ математической статистики может приводить ко многим нежелательным последствиям. Приведем один пример из области медицины.

О новых методах диагностики и лечения врачи узнают главным образом из публикаций в медицинских журналах. Познания читателей в статистике обычно скромны, поэтому выводы авторов им приходится принимать на веру. Это было бы не так страшно, если бы публикации предшествовала серьезная проверка результатов. К сожалению, проводится она далеко не всегда. Статистические ошибки встречаются примерно в половине статей. Как правило, это простейшие ошибки типа отсутствия контрольной группы, использования неслучайных выборок или пренебрежения статистической проверкой гипотез. Такие ошибки неизменно смещают выводы в сторону предлагаемого авторами метода. Вред,

наносимый подобными ошибками, очевиден. Исследователь заявляет о

«статистически достоверном» эффекте лечения, редактор помещает статью в журнал. Врач, не способный критически оценить публикацию, применяет