Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Манило (метода)

.pdf
Скачиваний:
144
Добавлен:
25.12.2019
Размер:
2.73 Mб
Скачать

МИНОБРНАУКИ РОССИИ

––––––––––––––––––––––––––––––––––––––––––––––––––––

Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В. И. Ульянова (Ленина)

––––––––––––––––––––––––––––––––––––––––––––

Л. А. МАНИЛО, М. А. СИДОРОВА, А. В. ФЕДОРОВ

МЕТОДЫ СТАТИСТИЧЕСКОГО АНАЛИЗА ДАННЫХ МЕДИКО-БИОЛОГИЧЕСКОГО ЭКСПЕРИМЕНТА

Учебное пособие

Санкт-Петербург Издательство СПбГЭТУ «ЛЭТИ»

2016

УДК 519.23(07) + 57.08(07) ББК В 172.8я7 + Р.с11я7

М23

Манило Л. А., Сидорова М. А., Федоров А. В.

М23 Методы статистического анализа данных медико-биологического эксперимента: учеб. пособие. СПб.: Изд-во СПбГЭТУ «ЛЭТИ», 2016. 83 с.

ISBN 978-5-7629-1932-6

Посвящено вопросам применения методов статистического анализа данных при обработке результатов медико-биологического эксперимента. Особое внимание уделено сравнительному анализу различных групп биологических объектов в условиях малых выборок экспериментальных данных. Основные этапы анализа данных в среде R подробно рассмотрены на примере исследования результатов полимеразной цепной реакции в реальномвремени.

Написано по результатам совместных исследований кафедры биотехнических систем СПбГЭТУ «ЛЭТИ» и Института молекулярной биологии и генетики Северо-Западного федерального медицинского исследовательского центра им. В. А. Алмазова в рамках работы кластера «Трансляционная медицина».

Предназначено для студентов бакалавриата и магистратуры, обучающихся по направлению подготовки 201000.62 «Биотехнические системы и технологии».

УДК 519.23(07) + 57.08(07) ББК В 172.8я7 + Р.с11я7

Рецензенты: каф. медицинской радиоэлектроники СПбГУАП; д-р биол. наук, проф. ФГБНУ «ИЭМ» Н. Б. Суворов.

Утверждено редакционно-издательским советом университета

в качестве учебного пособия

ISBN 978-5-7629-1932-6

© СПбГЭТУ «ЛЭТИ», 2016

2

ОГЛАВЛЕНИЕ

 

Введение...................................................................................................................

5

Глава 1. МЕТОДЫ ОБРАБОТКИ И СТАТИСТИЧЕСКИЙ

 

АНАЛИЗ РЕЗУЛЬТАТОВ ЭКСПЕРИМЕНТА

 

НА МАЛЫХ ВЫБОРКАХ ДАННЫХ....................................................

7

1.1. Проверка статистических гипотез...............................................................

7

1.2. Предварительный анализ результатов эксперимента .............................

11

1.2.1. Анализ грубых ошибок измерения.................................................

11

1.2.2. Статистические свойства экспериментальных данных................

13

1.3. Методы оценки статистически значимых различий

 

между группами..........................................................................................

17

1.3.1. Критерии сравнения нескольких групп..........................................

18

1.3.2. Критерии сравнения двух групп .....................................................

20

1.4. Анализ диагностических признаков .........................................................

27

1.5. Анализ зависимости двух параметров......................................................

29

1.6. Линейный регрессионный анализ .............................................................

32

Глава 2. ПРИМЕНЕНИЕ ПОЛИМЕРАЗНОЙ ЦЕПНОЙ РЕАКЦИИ

 

В РЕАЛЬНОМ ВРЕМЕНИ ДЛЯ ИЗМЕРЕНИЯ КОЛИЧЕСТВА

 

МОЛЕКУЛ РНК В БИОЛОГИЧЕСКОМ ОБРАЗЦЕ..........................

36

2.1. Определение количества молекул РНК в биологическом образце

 

как подход для изучения функционального состояния клеток.............

36

2.2. Принцип измерения количества молекул РНК

 

методом полимеразной цепной реакции в реальном времени ..............

37

2.2.1. Обратная транскрипция и полимеразная цепная реакция............

37

2.2.2. Детекция продуктов ПЦР.................................................................

40

2.2.3. Зависимость количества наработанных копий

 

исследуемой РНК от номера цикла ПЦР......................................

40

2.2.4. Метод определения значений циклов квантификации

 

для сравнения начального количества матрицы в образцах........

42

2.3. Источники ошибок измерений количества молекул РНК

 

и способы борьбы с ними..........................................................................

43

2.3.1. Технические ошибки, связанные с измерением количества

 

молекул РНК с помощью ПЦР в реальном времени....................

43

2.3.2. Определение калибровочного коэффициента

 

для анализа данных, полученных в ходе независимых

 

запусков амплификатора.................................................................

44

2.3.3. Повторные измерения ......................................................................

46

3

2.3.4. Нормировка (нормирование) измеренных значений....................

47

2.4. Словарь терминов и понятий.....................................................................

49

Глава 3. ПРИМЕР СТАТИСТИЧЕСКОГО АНАЛИЗА ДАННЫХ ПЦР

 

В РЕАЛЬНОМ ВРЕМЕНИ С ПОМОЩЬЮ СРЕДЫ R ......................

51

3.1. Описание условий эксперимента и задач исследования.........................

51

3.2. Инструменты анализа.................................................................................

52

3.3. Ввод данных ................................................................................................

53

3.4. Предварительный анализ............................................................................

56

3.4.1. Характеристика систем детекции ...................................................

56

3.4.2. Характеристика референсной РНК.................................................

60

3.4.3. Поиск выбросов с помощью выявления образцов

 

с сильно отклоняющимися уровнями референсной РНК ............

62

3.4.4. Проверка условий нормальности распределения данных

 

и однородности дисперсий..............................................................

64

3.5. Изучение экспериментальных данных .....................................................

64

3.5.1. Изучение различий в абсолютных уровнях

 

исследуемой РНК до и после воздействия ....................................

64

3.5.2. Изучение различий в относительных уровнях

 

исследуемой РНК в разных возрастных группах..........................

67

3.5.3. Изучение связи между уровнем исследуемой РНК

 

и возрастом животных.....................................................................

70

3.5.4. ROC-анализ для сравнения свойств диагностических

 

признаков...........................................................................................

71

СПИСОК ЛИТЕРАТУРЫ.....................................................................................

74

ПРИЛОЖЕНИЯ.....................................................................................................

75

1. ПРИМЕРЫ РАСПРОСТРАНЕННЫХ СПОСОБОВ ВИЗУАЛИЗАЦИИ

 

ДАННЫХ ЭКСПЕРИМЕНТА С ПОМОЩЬЮ СРЕДЫ R............................

75

1.1. Альтернативные способы графического представления средних

 

и индивидуальных значений параметра...................................................

75

1.2. Анализ связи между значениями нескольких параметров.....................

77

1.3. Графическое представление значений параметров

 

с помощью теплокарт.................................................................................

79

1.4. Изменение параметров осей и надписей на рисунках.............................

80

1.5. Экспорт иллюстраций заданного размера и разрешения

 

в файлы определенного формата..............................................................

82

4

ВВЕДЕНИЕ

Статистический анализ результатов наблюдений является важной составляющей медико-биологического эксперимента. Применяют его на всех этапах исследования: при планировании эксперимента, обработке его результатов и при принятии обоснованных решений, связанных, например, с постановкой диагноза или выбором подходящего плана лечения. Пользуясь статистическими методами, можно сделать достаточно надежные выводы относительно некоторых новых свойств совокупности объектов, которые невозможно установить непосредственно в ходе эксперимента. При этом результаты анализа, полученные на ограниченной выборке данных, могут быть распространены на всю совокупность исследуемых объектов. Это касается вопросов проверки различных гипотез и выбора правил принятия решений, возникающих в ряде медико-биологических задач: оценка значимости наблюдаемого эффекта, анализ характеристик связи между параметрами, диагностика состояний и прогнозирование развития различных патологий. Так, например, в области молекулярной биологии актуальна задача поиска новых регуляторов и биомаркеров различных патологий с помощью измерения количества молекул РНК в биологических образцах методом полимеразной цепной реакции (ПЦР) в реальном времени. Это требует проведения корректного статистического анализа полученных результатов в условиях маломасштабного эксперимента.

В данной работе рассмотрены методы статистического анализа данных, которые нашли практическое применение в различных медико-биологиче- ских исследованиях. Даны рекомендации по обоснованному выбору статистических критериев для сравнительного анализа результатов экспериментов с учетом свойств данных и количества проведенных измерений. Особое внимание уделено методам сравнения различных групп биологических объектов в условиях малых выборок экспериментальных данных.

Первая глава посвящена описанию основных подходов, применяемых для обработки и статистического анализа результатов эксперимента на малых выборках данных. Обсуждаются методы анализа свойств данных и оценки статистически значимых различий между группами объектов, способы анализа диагностических признаков, а также характеристики связи между параметрами на основе корреляционного и линейного регрессионного анализа.

5

Во второй главе рассмотрены основные экспериментальные этапы проведения ПЦР в реальном времени. Эта методика широко применяется в ме- дико-биологических исследованиях для измерения количества молекул РНК в образцах. Отдельное внимание уделено анализу ошибок измерений количества молекул РНК и способам борьбы с ними.

В третьей главе подробно рассмотрено решение задачи статистического анализа данных и визуализации результатов расчета с помощью среды R. Источником данных послужил эксперимент по определению влияния экспериментального воздействия на экспрессию генов в клетках крови лабораторных животных. Уровни РНК были измерены с помощью ПЦР в реальном времени. Последовательно рассмотрены основные этапы анализа, включающие ввод данных, их предварительный анализ, изучение различий в абсолютных и относительных уровнях РНК в разных экспериментальных группах, изучение связи между уровнем РНК и возрастом биологических объектов, а также сравнение свойств диагностических признаков с помощью ROC-анализа.

Описанные в работе теоретические подходы и практические приемы могут быть использованы как при обработке результатов медико-биологического эксперимента, так и при создании новых биотехнических систем и технологий.

6

Глава 1. МЕТОДЫ ОБРАБОТКИ И СТАТИСТИЧЕСКИЙ АНАЛИЗ РЕЗУЛЬТАТОВ ЭКСПЕРИМЕНТА

НА МАЛЫХ ВЫБОРКАХ ДАННЫХ

1.1. Проверка статистических гипотез

Состояние биологических объектов определяется множеством факторов, например образом жизни, наличием патологии или воздействием лекарственных препаратов, и отражается в виде конкретных значений регистрируемых параметров жизнедеятельности. Для того чтобы точно определить среднее значение одного из таких параметров у группы биологических объектов, находящихся в определенном состоянии, необходимо измерить значение этого параметра у всех объектов из данной группы (генеральной совокупности). Технически это не всегда возможно. Применяя статистический анализ, можно измерить интересующий параметр лишь у нескольких объектов в группе (выборочная совокупность, или выборка) и затем распространить результаты анализа (в частности, оценку среднего, дисперсии, коэффициенты корреляции, значимость различий) на генеральную совокупность. Результаты по выборочным исследованиям можно распространять на генеральные совокупности при условии, что результаты анализа статистически значимы, т. е. вероятность ошибки не превышает заданной величины.

Фактор, роль которого изучается в конкретном исследовании, будем называть первостепенным. Следует учитывать, что значение исследуемого параметра зависит также и от многих второстепенных факторов, например пола пациентов или температуры воздуха в лаборатории, которые не интересуют исследователя в рамках конкретного эксперимента. Увеличение количества измерений в каждой экспериментальной группе за счет увеличения размера выборки, а также проведение повторных измерений исследуемого параметра у одного и того же объекта позволяют минимизировать влияние второстепенных факторов на результат измерений.

Для дополнительного уменьшения такого влияния все исследования следует проводить в одинаковых условиях (в одно и то же время суток, при одинаковой температуре среды и т. п.). Однако если это условие выполнить невозможно, то необходимо проводить рандомизацию с тем, чтобы второстепенный фактор не преобладал в какой-либо из групп. Еще одной альтернативой может быть введение калибровочного коэффициента, который позволяет учесть влияние «нежелательного» эффекта как случайную ошибку.

7

Статистическая гипотеза – это некоторое предположение относительно свойств совокупности объектов, которое проверяется на данных выборки объектов из этой совокупности с помощью статистических критериев (статистик, тестов). К таким свойствам можно отнести, например, равенство средних значений измеряемого параметра в двух или более биологических группах, присутствие в группе сильно отклоняющихся наблюдений (выбросов). Статистический критерий – это математическое правило, включающее информацию о свойствах объектов в выборке данных (например, выборочные оценки среднего значения и дисперсии, сумму рангов, объем выборки и т. д.), по которому проверяемая гипотеза принимается или отвергается.

Каждый статистический критерий имеет четко сформулированную нулевую гипотезу H0 – утверждение, проверяемое с помощью этого критерия.

Все статистические критерии делятся на группы в соответствии с их нулевой гипотезой (критерии значимости различий, критерии согласия и т. д.). Статистический критерий может подтвердить или опровергнуть нулевую гипотезу, т. е. принять альтернативную гипотезу H1 – утверждение, которое прини-

мается, если нулевая гипотеза отклонена. Альтернативная гипотеза может быть простой или сложной, состоящей из множества альтернативных утверждений. Например, для нулевой гипотезы r = 0 утверждения r < 0 или r > 0 будут простыми альтернативными гипотезами, а утверждение r 0, предполагающее, что значение параметра r либо меньше, либо больше нуля будет сложной альтернативной гипотезой.

Любой статистический критерий может ошибаться. Ошибки критерия, связанные с ложным принятием альтернативной гипотезы, определяют ложноотрицательные результаты или ошибки первого рода. Вероятность появления ошибки первого рода называется уровнем значимости критерия и обозначается α. Часто вместо уровня значимости используется доверительная вероятность P, которая определяется как P 1 . Ошибки критерия, связанные с ошибочным принятием нулевой гипотезы, определяют ложноположительные результаты, или ошибки второго рода. Вероятность появления таких ошибок обозначается β. Обычно используют понятие мощность критерия, которая определяется как 1 . Очевидно, что чем больше мощность статистического критерия, тем меньше вероятность ошибки второго рода. Процент ошибок первого рода для используемого статистического критерия всегда задается исследователем, при этом процент ошибок второго рода зависит от свойств анализируемых данных.

8

Мощность статистического критерия и его уровень значимости – две связанные величины. При уменьшении уровня значимости критерия его мощность также уменьшается. При этом увеличение мощности или уменьшение α увеличивает степень точности получаемых результатов. Обычно в медико-биологических исследованиях допустимую вероятность ошибки первого рода принимают равной 5 % (доверительная вероятность 95 %), при этом требуется, чтобы мощность используемых статистических критериев достигала 80 % и выше.

Для определения того, какая из двух гипотез верна, рассчитывается значение статистического критерия. Далее полученное (расчетное) значение критерия X сравнивается с табличным (критическим) значением Xкр, кото-

рое зависит от заданного уровня значимости α и числа степеней свободы df (degrees of freedom), связанного с объемом анализируемых данных. Например, для большинства статистических критериев правило принятия гипотезы выглядит следующим образом:

X Xкр , df верна H0 , X X кр , df верна H1.

Часто на практике для принятия гипотезы используют p-значение (p-value), которое сравнивается с требуемым уровнем значимости статистического критерия, так как такой способ не требует использования специальных таблиц с критическими значениями критериев. Данный параметр определяет фактический уровень значимости, т. е. вероятность того, что расчетное значение статистического критерия окажется больше P X Xкр или

меньше P X Xкр критического значения, как того требует критерий. Та-

ким образом, решающее правило для любого статистического критерия выглядит следующим образом

p верна H0 , p верна H1.

Стоит отметить, что правило с использованием p-значения может быть применено только для параметрических критериев с известным распределением их значений (указывается в описании критерия), а также для непараметрических критериев, для которых известны приближенные законы распределения вероятностей. Обычно для непараметрических критериев аппроксимация распределения их значений известными непрерывными законами используется

9

только для выборок большого объема с тем, чтобы избежать сдвига критических значений и увеличения вероятности ошибки первого рода. Для параметрических критериев с неизвестным законом распределения, а также для непараметрических критериев, применяемых к малым выборкам данных, необходимо использовать критическиезначения, получаемыеиз таблиц.

Два важных свойства экспериментальных данных, а именно нормальность распределения и разброс измеренных значений, определяют тип статистического критерия, оптимального для их анализа. Те критерии, которые применимы только для данных с нормальным законом распределения значений в группах и равным разбросом между группами, называются параметрическими. Само их название говорит о том, что при расчете таких критериев используются параметры имеющихся наборов данных, а именно выборочные оценки среднего значения и дисперсии. Критерии, предназначенные для анализа данных с распределением, отличным от нормального и/или с разным разбросом в группах, называются непараметрическими. Такие статистические критерии являются ранговыми. Это означает, что перед расчетом самого критерия анализируемые значения переводятся в ранговую шкалу: объединяются, если анализируемых групп несколько, и упорядочиваются по возрастанию значения. Порядковый номер наблюдения в таком упорядоченном ряду и есть его ранг. В случае если данные имеют одинаковые значения, то их ранг находится как среднее арифметическое тех порядковых номеров, которые они занимают в ряду (рис. 1.1). Такой подход позволяет избежать зависимости статистического критерия от вида распределения, а также от условия неравенства дисперсий, так как становится не важным то, каков диапазон значений между двумя соседними рангами.

Рис. 1.1. Присваивание рангов одинаковым значениям в упорядоченном ряду

Параметрические критерии являются более мощными по сравнению с непараметрическими критериями [1]. Это означает, что если к одним и тем же данным применить как параметрический, так и непараметрический критерий, то в первом случае ошибка второго рода будет меньше. Однако следует отметить, что при применении параметрических критериев к данным, не удовлетво-

10