Добавил:

artemtvi Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Планирование медико-биологического эксперимента

Файл:

Манило (метода)

.pdf

Скачиваний:

145

Добавлен:

25.12.2019

Размер:

2.73 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 78 / 98 9 > Следующая >>>

Рис. 3.8. Скатерограмма, иллюстрирующая зависимость между уровнем РНК Б и возрастом экспериментальных животных

> p l o t ( a g e 1 2 , l A Q _ d o 1 2 , x l i m = c ( 0 . 3 , 3 . 1 ) , y l i m = c ( 1 5 , 1 9 ) ,

x a x t = " n " ,		p c h = 1 9 ,	x l a b = " Возраст,	мес. " , y l a b	=
" l o g 2 ( Абсолютное количество РНК Б) " )
>	a x i s ( s i d e = 1 , a t = c ( 1 , 2 , 3 ) )
>	l e g e n d ( 2 ,	1 6 , c ( " r	( Пирсона) = 0 . 7 8 " ,	" p = 0 . 0 0 1 " ) ,	c e x

=1 , b t y = " n " , y . i n t e r s p = 1 . 3 )

3.5.4.ROC-анализ для сравнения свойств диагностических признаков

Проверим, можно ли использовать измеренные уровни РНК А и РНК Б в качестве классификаторов, чтобы различать животных из первой и второй групп. Для этого используем ROC-анализ, а именно построим ROC-кривые для каждой РНК и сравним эффективности данных классификаторов.

Для ROC-анализа в программной среде R удобно воспользоваться дополнительным пакетом R O C R . Загрузим и установим его:

>i n s t a l l . p a c k a g e s ( " R O C R " )

>l i b r a r y ( R O C R )

Для каждой РНК зададим новую переменную, которая будет содержать объединение групп соответствующих значений Cq до и после воздействия:

>g e n e A = c ( g e n e A _ d o , g e n e A _ p o s )

>g e n e B = c ( g e n e B _ d o , g e n e B _ p o s )

Введем вектор меток групп. При этом элементам в группе с большими значениями присвоим метку 1, а элементам из другой группы – метку 0. Для обеих РНК большие значения Cq принадлежат группе до воздействия, которая занимает в объединении первое место.

> m e t = c ( r e p ( 1 , 2 5 ) , r e p ( 0 , 2 5 ) )

Произведем расчет параметров для ROC-кривых:

>	r o c A = p e r f o r m a n c e ( p r e d i c t i o n ( g e n e A , m e t ) , " t p r " ,
" f p r " )
>	r o c B = p e r f o r m a n c e ( p r e d i c t i o n ( g e n e B , m e t ) , " t p r " ,

" f p r " )

Построим графики, иллюстрирующие отношение чувствительности и специфичности для каждого классификатора, и рассчитаем площади под соответствующими ROC-кривыми (рис. 3.9):

> p l o t ( r o c A , c e x = 4 , l t y = 1 , x l a b =

" 1 -C пецифичность" , y l a b = " Чувствительность" , m a i n = " " )

> p l o t ( r o c B , c e x = 4 , l t y = 2 , a d d = T R U E )

Ниже приведена функция для расчета площади под ROC-кривой в пакете ROCR. Значения AUC присвоим переменным aucA и aucB:

> a u c A	= u n l i s t ( s l o t ( p e r f o r m a n c e ( p r e d i c t i o n ( g e n e A , m e t ) ,
" a u c " ) ,	" y . v a l u e s " ) )

> a u c B	= u n l i s t ( s l o t ( p e r f o r m a n c e ( p r e d i c t i o n ( g e n e B , m e t ) ,
" a u c " ) ,	" y . v a l u e s " ) )

Добавим кполученным графикам легенду срассчитанными значениями AUC:

>	l e g e n d ( 0 . 4 , 0 . 3 , c e x =	0 . 9 , c ( " " , " РНК А" ,	" РНК Б" ) ,
l t y = c ( 0 , 1 , 2 ) , b t y = ' n ' )
>	l e g e n d ( 0 . 5 7 , 0 . 3 , c e x	= 0 . 9 , c ( " Площадь	под кривой

( A U C ) " , r o u n d ( a u c A , 2 ) , r o u n d ( a u c B , 2 ) ) , b t y = ' n ' , y . i n t e r s p = 1 . 3 )

Рис. 3.9. Графики отношения чувствительности и специфичности для РНК А и Б

Результаты показывают, что в качестве параметра для разделения животных на группы до и после воздействия лучше подходит значение Cq для РНК Б, так как площадь под соответствующей ROC-кривой больше площади под ROC-кривой для РНК А.

СПИСОК ЛИТЕРАТУРЫ

1.Zar J. H. Biostatistical Analysis. 5th ed. PearsonEducation, 2013.

2.Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход / Б. Ю. Лемешко, С. Б. Лемешко, С. Н. Постовалов, Е. В. Чимитова. Новосибирск: Изд-во НГТУ, 2011.

3.Кобзарь А. И. Прикладная математическая статистика. Для инженеров

инаучных работников. М.: Физматлит, 2006.

4.Гублер Е. В., Генкин А. А., Применение непараметрических критериев статистики в медико-биологических исследованиях. Л.: Медицина, 1973.

5.Лагутин М. Б. Наглядная математическая статистика: учеб. пособие. 2-е изд. М.: Бином. Лаборатория знаний, 2009.

6.Гланц С. Медико-биологическая статистика / пер. с англ. М.: Практи-

ка, 1998.

7.Мастицкий С. Э., Шитиков В. К. Статистический анализ и визуализация данных с помощью R. М.: ДМК Пресс, 2015.

8.Pritchard C. C., Cheng H. H., Tewari M. MicroRNA profiling: approaches and considerations // Nat. Rev. Genet. 2012. Vol. 13. P. 358–369.

9.ПЦР «в реальном времени» / Д. В. Ребриков, Г. А. Саматов, Д. Ю. Трофимов и др.; под общ. ред. Д. В. Ребрикова. М.: Бином. Лаборатория знаний, 2009.

10.Enzymatic amplification of beta-globin genomic sequences and restriction site analysis for diagnosis of sickle cell anemia / R. K. Saiki, S. Scharf, F. Faloona et al. // Science. 1985. Vol. 230. P. 1350–1354.

11.Кабаков Р. И. R в действии: анализ и визуализация данных в программе R / пер. с англ. М.: ДМК Пресс, 2014.

12.Circulating microRNAs as stable blood-based markers for cancer detection / P. S. Mitchell, R. K. Parkin, E. M. Kroh et al. // Proc. Natl. Acad. Sci. USA. 2008. Vol. 105. P. 10513–10518.

13.Livak K. J., Schmittgen T. D. Analysis of relative gene expression data using real-time quantitative PCR and the 2(-Delta Delta C(T)) Method // Methods. 2001. Vol. 25. P. 402–408.

ПРИЛОЖЕНИЯ

1. ПРИМЕРЫ РАСПРОСТРАНЕННЫХ СПОСОБОВ ВИЗУАЛИЗАЦИИ ДАННЫХ ЭКСПЕРИМЕНТА С ПОМОЩЬЮ СРЕДЫ R

1.1.Альтернативные способы графического представления средних

ииндивидуальных значений параметра

Рассмотрим эксперимент, в котором измерены значения некоторого параметра в образцах, принадлежащих двум исследуемым группам. Экспериментальные данные в виде таблицы введем с клавиатуры:

> e x p _ d a t a < - r e a d . t a b l e ( h e a d e r = T R U E , t e x t = '

Номер_ образца	Номер_ группы	Значение_ параметра
1	1	5 . 5
2	1	8
3	1	4
4	1	3 . 5
5	2	7 . 5
6	2	8
7	2	9
8	2	7 ' )

Представим результаты измерений графически четырьмя разными способами. Загрузим и установим в R дополнительные пакеты, необходимые для использования функций b a r p l o t 2 ( ) и p l o t C I ():

>i n s t a l l . p a c k a g e s ( " g p l o t s " )

>l i b r a r y ( g p l o t s )

Найдем для каждой группы средние значения и стандартные отклонения:


> m 1 = m e a n ( e x p _ d a t a		[ 1 : 4 , 3 ] )
> m 2 = m e a n ( e x p _ d a t a		[ 5 : 8 , 3 ] )
>	s t d e v 1 = s d ( e x p _ d a t a		[ 1 : 4 , 3 ] )
>	s t d e v 2 = s d ( e x p _ d a t a		[ 5 : 8 , 3 ] )

На рис. П1.1, а представлена точечная диаграмма, где для каждой группы точкой обозначено полученное среднее значение, а «усы» соответствуют величине стандартного отклонения:

> p a r ( m f r o w = c ( 1 , 4 ) )

> p l o t C I ( x = c ( 1 , 2 ) , y = c ( m 1 , m 2 ) , u i w =

c ( s t d e v 1 , s t d e v 2 ) , l i w = c ( s t d e v 1 , s t d e v 2 ) , x l a b = " Группа" , y l a b = " Значение параметра" ,

x l i m = c ( 0 . 7 , 2 . 3 ) , y l i m = c ( 0 , 1 0 ) , x a x t = " n " , p c h = 1 9 , c e x = 1 . 5 , l w d = 2 , c e x . l a b = 1 . 3 , m a i n = " " )

> a x i s ( 1 , a t = s e q ( 1 , 2 , b y = 1 ) )

На рис. П1.1, б те же данные представлены в виде столбчатой диаграммы (длина «усов» также соответствует стандартному отклонению для каждой группы):

> p a r ( l w d = 2 )

> b a r p l o t 2 ( c ( m 1 , m 2 ) , p l o t . c i = T R U E , c i . l =

c ( m 1 + s t d e v 1 , m 2 + s t d e v 2 ) , c i . u = c ( m 1 - s t d e v 1 , m 2 - s t d e v 2 ) ,

n a m e s . a r g = c ( " 1 " , " 2 " ) , c i . l w d = 2 ,		x l a b	= " Группа" , y l a b
=	" Значение параметра" , y l i m = c ( 0	, 1 0 ) ,	l w d = 2 , c e x . l a b
=	1 . 3 , m a i n = " " )

Рис. П1.1. Способы представления результатов измерений:

а– точечная диаграмма; б – столбчатая диаграмма;

в– боксплот; г – диаграмма рассеяния

На рис. П1.1, в боксплоты иллюстрируют распределение данных в группах, при этом жирные горизонтальные линии соответствуют медианам, а границы «усов» минимальным и максимальным значениям в группах (при условии отсутствия выбросов в выборках):

> b o x p l o t ( v a l u e _ a l l ~ g r o u p I D ,	x l a b = " Группа" ,
y l a b = " Значение параметра" ,	y l i m = c ( 0 , 1 0 ) , l w d = 2 ,
c e x . l a b = 1 . 3 , m a i n = " " )

На рис. П1.1, г значения параметра в индивидуальных образцах представлены в виде диаграммы рассеяния:

> s t r i p c h a r t ( v a l u e _ a l l ~ g r o u p I D , m e t h o d = " s t a c k " ,

v e r t i c a l = T R U E , x l a b = " Группа" , y l a b = " Значение параметра" , x l i m = c ( 0 . 6 , 2 . 4 ) , y l i m = c ( 0 , 1 0 ) , p c h = 1 9 , c e x = 1 . 7 , c e x . l a b = 1 . 3 , m a i n = " " )

Кроме того, полученные диаграммы можно совмещать, например диаграмму рассеяния и боксплот. Для этого необходимо последовательно использовать соответствующие функции для диаграмм и в аргументах второй из них указать параметр add = TRUE.

1.2. Анализ связи между значениями нескольких параметров

Рассмотрим эксперимент, в котором значения некоторых четырех параметров измерены в образцах, принадлежащих двум группам. Экспериментальные данные в виде таблицы введем с клавиатуры:

> e x p _ d a t a < - r e a d . t a b l e ( h e a d e r = T R U E , c o l C l a s s e s = c ( " N U L L " , " N U L L " , N A , N A , N A , N A ) , t e x t = '

Номер	Номер	Значение	Значение	Значение	Значение
образца	группы	параметра1	Параметра2	Параметра3	Параметра4
1	1	2 0	1 4	1 0	5 9
2	1	2 1	1 9	1 2	6 5
3	1	2 4	2 6	1 3	5 0
4	1	2 2	2 9	2 4	4 6
5	2	2 3	7 6	5 2	7
6	2	2 1	4 8	4 1	1 8
7	2	2 6	5 7	6 7	3
8	2	2 1	6 4	6 6	1 ' )

Загрузим и установим в R дополнительный пакет, необходимый для ис-

пользования функции c h a r t . C o r r e l a t i o n ( ) :

>	i n s t a l l . p a c k a g e s ( " P e r f o r m a n c e A n a l y t i c s " )
>	l i b r a r y ( P e r f o r m a n c e A n a l y t i c s )

Применим корреляционный анализ, для того чтобы количественно оценить связь исследуемых параметров и значимость полученной оценки. Рассчитаем коэффициент корреляции Спирмена и его фактический уровень значимости (р-значение) для каждой пары параметров. Представим результаты расчета с помощью матричной скатерограммы (рис. П1.2):

> c h a r t . C o r r e l a t i o n ( e x p _ d a t a , h i s t o g r a m = F A L S E , p c h = 1 9 , l w d = 2 , m e t h o d = " s p e a r m a n " , m a i n = " " )

Рис. П1.2. Матричная скатерограмма

На рис. П1.2 в нижней левой части матрицы для каждой пары параметров изображены скатерограммы. Кроме этого, для каждой пары параметров цифры в ячейках верхней правой части матрицы представляют коэффициенты корреляции Спирмена, а звездочки указывают соответствующие уровни значимости (р-значения) – “***”, “**”, “*” <=> 0, 0.001, 0.01.

1.3.Графическое представление значений параметров

спомощью теплокарт

Вслучае если в эксперименте измерены значения многих однотипных параметров (например, уровней экспрессии генов) или/и измерение значений параметра произведено во многих группах, для графического представления всего массива таких данных удобно использовать теплокарты. При этом способе визуализации измерению конкретного параметра в конкретном образце соответствует одна клетка на карте, а значение параметра определяет цвет клетки. При построении теплокарт образцы или/и параметры могут быть дополнительно сгруппированы друг с другом на основании степени близости значений параметров, а результаты определения степени сходства визуализированы с помощью дендрограмм.

Загрузим и установим в R дополнительные пакеты, необходимые для использования функций h e a t m a p . 2 ( ) :

>i n s t a l l . p a c k a g e s ( " g p l o t s " )

>l i b r a r y ( g p l o t s )

Визуализируем с помощью теплокарты данные эксперимента, описанного в 1.2. Для этого запишем таблицу данных в виде матрицы:

> e x p _ d a t a _ m a t r i x < - d a t a . m a t r i x ( e x p _ d a t a )

Сгруппируем строки матрицы:

> h r < - h c l u s t ( a s . d i s t ( 1 - c o r ( t ( e x p _ d a t a _ m a t r i x ) , m e t h - o d = " s p e a r m a n " ) ) , m e t h o d = " c o m p l e t e " )

Сгруппируем столбцы матрицы:

> h c < - h c l u s t ( a s . d i s t ( 1 - c o r ( e x p _ d a t a _ m a t r i x , m e t h - o d = " s p e a r m a n " ) ) , m e t h o d = " c o m p l e t e " )

Зададимпалитруцветов, используемуюдлявизуализациизначенийпараметров: > p a l e t t e < - c o l o r R a m p P a l e t t e ( c ( " w h i t e " , " b l a c k " ) ) ( 1 0 0 )

Построим теплокарту (рис. П1.3, а):

> h e a t m a p . 2 ( e x p _ d a t a _ m a t r i x , R o w v = a s . d e n d r o g r a m ( h r ) , C o l v = a s . d e n d r o g r a m ( h c ) , s c a l e = " n o n e " , c o l = p a l e t t e ,

d e n s i t y . i n f o = " n o n e " , t r a c e = " n o n e " , R o w S i d e C o l o r s =

c ( r e p ( " g r a y 3 0 " , 4 ) , r e p ( " g r a y 8 0 " , 4 ) ) , m a r g i n s = c ( 1 0 , 5 ) , c e x R o w = 1 . 8 , c e x C o l = 1 . 8 )

Рис. П1.3. Теплокарты: а – при значении параметра scale="none"; б – при значении параметра scale="col"

Функция h e a t m a p . 2 ( ) позволяет визуализировать данные, предварительно выполнив нормировку значений параметров в каждом столбце или каждой строке, для этого параметру s c a l e присваивается значение " c o l " или " r o w " . Построим теплокарту, выполнив нормировку значений параметров в каждом столбце (рис. П1.3, б). На рис. П1.3 показан вид полученных теплокарт. Более светлые клетки соответствуют меньшим значениям параметров. Дендрограмма сверху от теплокарт определяет группировку параметров, а дендрограмма слева определяет группировку образцов. Цвет полосы слева от теплокарт указывает на принадлежность образцов группам: темно-серый – группа 1, светло-серый – группа 2.

1.4. Изменение параметров осей и надписей на рисунках

Графические функции R позволяют контролировать параметры осей и надписей на рисунках. На рис. П1.4 приведен пример, иллюстрирующий способы изменения названия и масштаба осей, расположения делений и значений по осям, расположения заголовков и условных обозначений, изменения размера и стиля шрифтов, а также способы добавления верхних и нижних индексов, специальных символов и греческих букв.

>x < - 1 : 1 0

>y < - x * x

>p 1 = 0 . 0 2 3 4

>p 2 = 6 . 7 6 5 2

<<< < Предыдущая 1 2 3 4 5 6 78 / 98 9 > Следующая >>>

Соседние файлы в предмете Планирование медико-биологического эксперимента

#
25.12.201910.99 Mб177Mastitsky_and_Shitikov_2014.pdf
#
25.12.20192.73 Mб145Манило (метода).pdf
#
25.12.2019206.92 Кб55Статистическая теория (R).pdf
#
25.12.201915.55 Кб20Шифр к пособию.png