Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Манило (метода)

.pdf
Скачиваний:
145
Добавлен:
25.12.2019
Размер:
2.73 Mб
Скачать

Рис. 3.8. Скатерограмма, иллюстрирующая зависимость между уровнем РНК Б и возрастом экспериментальных животных

> p l o t ( a g e 1 2 , l A Q _ d o 1 2 , x l i m = c ( 0 . 3 , 3 . 1 ) , y l i m = c ( 1 5 , 1 9 ) ,

x a x t = " n " ,

p c h = 1 9 ,

x l a b = " Возраст,

мес. " , y l a b

=

" l o g 2 ( Абсолютное количество РНК Б) " )

 

 

>

a x i s ( s i d e = 1 , a t = c ( 1 , 2 , 3 ) )

 

 

>

l e g e n d ( 2 ,

1 6 , c ( " r

( Пирсона) = 0 . 7 8 " ,

" p = 0 . 0 0 1 " ) ,

c e x

=1 , b t y = " n " , y . i n t e r s p = 1 . 3 )

3.5.4.ROC-анализ для сравнения свойств диагностических признаков

Проверим, можно ли использовать измеренные уровни РНК А и РНК Б в качестве классификаторов, чтобы различать животных из первой и второй групп. Для этого используем ROC-анализ, а именно построим ROC-кривые для каждой РНК и сравним эффективности данных классификаторов.

Для ROC-анализа в программной среде R удобно воспользоваться дополнительным пакетом R O C R . Загрузим и установим его:

>i n s t a l l . p a c k a g e s ( " R O C R " )

>l i b r a r y ( R O C R )

Для каждой РНК зададим новую переменную, которая будет содержать объединение групп соответствующих значений Cq до и после воздействия:

71

>g e n e A = c ( g e n e A _ d o , g e n e A _ p o s )

>g e n e B = c ( g e n e B _ d o , g e n e B _ p o s )

Введем вектор меток групп. При этом элементам в группе с большими значениями присвоим метку 1, а элементам из другой группы – метку 0. Для обеих РНК большие значения Cq принадлежат группе до воздействия, которая занимает в объединении первое место.

> m e t = c ( r e p ( 1 , 2 5 ) , r e p ( 0 , 2 5 ) )

Произведем расчет параметров для ROC-кривых:

>

r o c A = p e r f o r m a n c e ( p r e d i c t i o n ( g e n e A , m e t ) , " t p r " ,

" f p r " )

>

r o c B = p e r f o r m a n c e ( p r e d i c t i o n ( g e n e B , m e t ) , " t p r " ,

" f p r " )

Построим графики, иллюстрирующие отношение чувствительности и специфичности для каждого классификатора, и рассчитаем площади под соответствующими ROC-кривыми (рис. 3.9):

> p l o t ( r o c A , c e x = 4 , l t y = 1 , x l a b =

" 1 -C пецифичность" , y l a b = " Чувствительность" , m a i n = " " )

> p l o t ( r o c B , c e x = 4 , l t y = 2 , a d d = T R U E )

Ниже приведена функция для расчета площади под ROC-кривой в пакете ROCR. Значения AUC присвоим переменным aucA и aucB:

> a u c A

= u n l i s t ( s l o t ( p e r f o r m a n c e ( p r e d i c t i o n ( g e n e A , m e t ) ,

" a u c " ) ,

" y . v a l u e s " ) )

> a u c B

= u n l i s t ( s l o t ( p e r f o r m a n c e ( p r e d i c t i o n ( g e n e B , m e t ) ,

" a u c " ) ,

" y . v a l u e s " ) )

Добавим кполученным графикам легенду срассчитанными значениями AUC:

>

l e g e n d ( 0 . 4 , 0 . 3 , c e x =

0 . 9 , c ( " " , " РНК А" ,

" РНК Б" ) ,

l t y = c ( 0 , 1 , 2 ) , b t y = ' n ' )

 

>

l e g e n d ( 0 . 5 7 , 0 . 3 , c e x

= 0 . 9 , c ( " Площадь

под кривой

( A U C ) " , r o u n d ( a u c A , 2 ) , r o u n d ( a u c B , 2 ) ) , b t y = ' n ' , y . i n t e r s p = 1 . 3 )

72

Рис. 3.9. Графики отношения чувствительности и специфичности для РНК А и Б

Результаты показывают, что в качестве параметра для разделения животных на группы до и после воздействия лучше подходит значение Cq для РНК Б, так как площадь под соответствующей ROC-кривой больше площади под ROC-кривой для РНК А.

73

СПИСОК ЛИТЕРАТУРЫ

1.Zar J. H. Biostatistical Analysis. 5th ed. PearsonEducation, 2013.

2.Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход / Б. Ю. Лемешко, С. Б. Лемешко, С. Н. Постовалов, Е. В. Чимитова. Новосибирск: Изд-во НГТУ, 2011.

3.Кобзарь А. И. Прикладная математическая статистика. Для инженеров

инаучных работников. М.: Физматлит, 2006.

4.Гублер Е. В., Генкин А. А., Применение непараметрических критериев статистики в медико-биологических исследованиях. Л.: Медицина, 1973.

5.Лагутин М. Б. Наглядная математическая статистика: учеб. пособие. 2-е изд. М.: Бином. Лаборатория знаний, 2009.

6.Гланц С. Медико-биологическая статистика / пер. с англ. М.: Практи-

ка, 1998.

7.Мастицкий С. Э., Шитиков В. К. Статистический анализ и визуализация данных с помощью R. М.: ДМК Пресс, 2015.

8.Pritchard C. C., Cheng H. H., Tewari M. MicroRNA profiling: approaches and considerations // Nat. Rev. Genet. 2012. Vol. 13. P. 358–369.

9.ПЦР «в реальном времени» / Д. В. Ребриков, Г. А. Саматов, Д. Ю. Трофимов и др.; под общ. ред. Д. В. Ребрикова. М.: Бином. Лаборатория знаний, 2009.

10.Enzymatic amplification of beta-globin genomic sequences and restriction site analysis for diagnosis of sickle cell anemia / R. K. Saiki, S. Scharf, F. Faloona et al. // Science. 1985. Vol. 230. P. 1350–1354.

11.Кабаков Р. И. R в действии: анализ и визуализация данных в программе R / пер. с англ. М.: ДМК Пресс, 2014.

12.Circulating microRNAs as stable blood-based markers for cancer detection / P. S. Mitchell, R. K. Parkin, E. M. Kroh et al. // Proc. Natl. Acad. Sci. USA. 2008. Vol. 105. P. 10513–10518.

13.Livak K. J., Schmittgen T. D. Analysis of relative gene expression data using real-time quantitative PCR and the 2(-Delta Delta C(T)) Method // Methods. 2001. Vol. 25. P. 402–408.

74

ПРИЛОЖЕНИЯ

1. ПРИМЕРЫ РАСПРОСТРАНЕННЫХ СПОСОБОВ ВИЗУАЛИЗАЦИИ ДАННЫХ ЭКСПЕРИМЕНТА С ПОМОЩЬЮ СРЕДЫ R

1.1.Альтернативные способы графического представления средних

ииндивидуальных значений параметра

Рассмотрим эксперимент, в котором измерены значения некоторого параметра в образцах, принадлежащих двум исследуемым группам. Экспериментальные данные в виде таблицы введем с клавиатуры:

> e x p _ d a t a < - r e a d . t a b l e ( h e a d e r = T R U E , t e x t = '

Номер_ образца

Номер_ группы

Значение_ параметра

1

1

5 . 5

2

1

8

3

1

4

4

1

3 . 5

5

2

7 . 5

6

2

8

7

2

9

8

2

7 ' )

Представим результаты измерений графически четырьмя разными способами. Загрузим и установим в R дополнительные пакеты, необходимые для использования функций b a r p l o t 2 ( ) и p l o t C I ():

>i n s t a l l . p a c k a g e s ( " g p l o t s " )

>l i b r a r y ( g p l o t s )

Найдем для каждой группы средние значения и стандартные отклонения:

> m 1 = m e a n ( e x p _ d a t a

[ 1 : 4 , 3 ] )

> m 2 = m e a n ( e x p _ d a t a

[ 5 : 8 , 3 ] )

>

s t d e v 1 = s d ( e x p _ d a t a

[ 1 : 4 , 3 ] )

>

s t d e v 2 = s d ( e x p _ d a t a

[ 5 : 8 , 3 ] )

На рис. П1.1, а представлена точечная диаграмма, где для каждой группы точкой обозначено полученное среднее значение, а «усы» соответствуют величине стандартного отклонения:

> p a r ( m f r o w = c ( 1 , 4 ) )

75

> p l o t C I ( x = c ( 1 , 2 ) , y = c ( m 1 , m 2 ) , u i w =

c ( s t d e v 1 , s t d e v 2 ) , l i w = c ( s t d e v 1 , s t d e v 2 ) , x l a b = " Группа" , y l a b = " Значение параметра" ,

x l i m = c ( 0 . 7 , 2 . 3 ) , y l i m = c ( 0 , 1 0 ) , x a x t = " n " , p c h = 1 9 , c e x = 1 . 5 , l w d = 2 , c e x . l a b = 1 . 3 , m a i n = " " )

> a x i s ( 1 , a t = s e q ( 1 , 2 , b y = 1 ) )

На рис. П1.1, б те же данные представлены в виде столбчатой диаграммы (длина «усов» также соответствует стандартному отклонению для каждой группы):

> p a r ( l w d = 2 )

> b a r p l o t 2 ( c ( m 1 , m 2 ) , p l o t . c i = T R U E , c i . l =

c ( m 1 + s t d e v 1 , m 2 + s t d e v 2 ) , c i . u = c ( m 1 - s t d e v 1 , m 2 - s t d e v 2 ) ,

n a m e s . a r g = c ( " 1 " , " 2 " ) , c i . l w d = 2 ,

x l a b

= " Группа" , y l a b

=

" Значение параметра" , y l i m = c ( 0

, 1 0 ) ,

l w d = 2 , c e x . l a b

=

1 . 3 , m a i n = " " )

 

 

Рис. П1.1. Способы представления результатов измерений:

а– точечная диаграмма; б – столбчатая диаграмма;

в– боксплот; г – диаграмма рассеяния

76

На рис. П1.1, в боксплоты иллюстрируют распределение данных в группах, при этом жирные горизонтальные линии соответствуют медианам, а границы «усов» минимальным и максимальным значениям в группах (при условии отсутствия выбросов в выборках):

> b o x p l o t ( v a l u e _ a l l ~ g r o u p I D ,

x l a b = " Группа" ,

y l a b = " Значение параметра" ,

y l i m = c ( 0 , 1 0 ) , l w d = 2 ,

c e x . l a b = 1 . 3 , m a i n = " " )

 

На рис. П1.1, г значения параметра в индивидуальных образцах представлены в виде диаграммы рассеяния:

> s t r i p c h a r t ( v a l u e _ a l l ~ g r o u p I D , m e t h o d = " s t a c k " ,

v e r t i c a l = T R U E , x l a b = " Группа" , y l a b = " Значение параметра" , x l i m = c ( 0 . 6 , 2 . 4 ) , y l i m = c ( 0 , 1 0 ) , p c h = 1 9 , c e x = 1 . 7 , c e x . l a b = 1 . 3 , m a i n = " " )

Кроме того, полученные диаграммы можно совмещать, например диаграмму рассеяния и боксплот. Для этого необходимо последовательно использовать соответствующие функции для диаграмм и в аргументах второй из них указать параметр add = TRUE.

1.2. Анализ связи между значениями нескольких параметров

Рассмотрим эксперимент, в котором значения некоторых четырех параметров измерены в образцах, принадлежащих двум группам. Экспериментальные данные в виде таблицы введем с клавиатуры:

> e x p _ d a t a < - r e a d . t a b l e ( h e a d e r = T R U E , c o l C l a s s e s = c ( " N U L L " , " N U L L " , N A , N A , N A , N A ) , t e x t = '

Номер

Номер

Значение

Значение

Значение

Значение

образца

группы

параметра1

Параметра2

Параметра3

Параметра4

1

1

2 0

1 4

1 0

5 9

2

1

2 1

1 9

1 2

6 5

3

1

2 4

2 6

1 3

5 0

4

1

2 2

2 9

2 4

4 6

5

2

2 3

7 6

5 2

7

6

2

2 1

4 8

4 1

1 8

7

2

2 6

5 7

6 7

3

8

2

2 1

6 4

6 6

1 ' )

77

Загрузим и установим в R дополнительный пакет, необходимый для ис-

пользования функции c h a r t . C o r r e l a t i o n ( ) :

>

i n s t a l l . p a c k a g e s ( " P e r f o r m a n c e A n a l y t i c s " )

>

l i b r a r y ( P e r f o r m a n c e A n a l y t i c s )

Применим корреляционный анализ, для того чтобы количественно оценить связь исследуемых параметров и значимость полученной оценки. Рассчитаем коэффициент корреляции Спирмена и его фактический уровень значимости (р-значение) для каждой пары параметров. Представим результаты расчета с помощью матричной скатерограммы (рис. П1.2):

> c h a r t . C o r r e l a t i o n ( e x p _ d a t a , h i s t o g r a m = F A L S E , p c h = 1 9 , l w d = 2 , m e t h o d = " s p e a r m a n " , m a i n = " " )

Рис. П1.2. Матричная скатерограмма

На рис. П1.2 в нижней левой части матрицы для каждой пары параметров изображены скатерограммы. Кроме этого, для каждой пары параметров цифры в ячейках верхней правой части матрицы представляют коэффициенты корреляции Спирмена, а звездочки указывают соответствующие уровни значимости (р-значения) – “***”, “**”, “*” <=> 0, 0.001, 0.01.

78

1.3.Графическое представление значений параметров

спомощью теплокарт

Вслучае если в эксперименте измерены значения многих однотипных параметров (например, уровней экспрессии генов) или/и измерение значений параметра произведено во многих группах, для графического представления всего массива таких данных удобно использовать теплокарты. При этом способе визуализации измерению конкретного параметра в конкретном образце соответствует одна клетка на карте, а значение параметра определяет цвет клетки. При построении теплокарт образцы или/и параметры могут быть дополнительно сгруппированы друг с другом на основании степени близости значений параметров, а результаты определения степени сходства визуализированы с помощью дендрограмм.

Загрузим и установим в R дополнительные пакеты, необходимые для использования функций h e a t m a p . 2 ( ) :

>i n s t a l l . p a c k a g e s ( " g p l o t s " )

>l i b r a r y ( g p l o t s )

Визуализируем с помощью теплокарты данные эксперимента, описанного в 1.2. Для этого запишем таблицу данных в виде матрицы:

> e x p _ d a t a _ m a t r i x < - d a t a . m a t r i x ( e x p _ d a t a )

Сгруппируем строки матрицы:

> h r < - h c l u s t ( a s . d i s t ( 1 - c o r ( t ( e x p _ d a t a _ m a t r i x ) , m e t h - o d = " s p e a r m a n " ) ) , m e t h o d = " c o m p l e t e " )

Сгруппируем столбцы матрицы:

> h c < - h c l u s t ( a s . d i s t ( 1 - c o r ( e x p _ d a t a _ m a t r i x , m e t h - o d = " s p e a r m a n " ) ) , m e t h o d = " c o m p l e t e " )

Зададимпалитруцветов, используемуюдлявизуализациизначенийпараметров: > p a l e t t e < - c o l o r R a m p P a l e t t e ( c ( " w h i t e " , " b l a c k " ) ) ( 1 0 0 )

Построим теплокарту (рис. П1.3, а):

> h e a t m a p . 2 ( e x p _ d a t a _ m a t r i x , R o w v = a s . d e n d r o g r a m ( h r ) , C o l v = a s . d e n d r o g r a m ( h c ) , s c a l e = " n o n e " , c o l = p a l e t t e ,

d e n s i t y . i n f o = " n o n e " , t r a c e = " n o n e " , R o w S i d e C o l o r s =

c ( r e p ( " g r a y 3 0 " , 4 ) , r e p ( " g r a y 8 0 " , 4 ) ) , m a r g i n s = c ( 1 0 , 5 ) , c e x R o w = 1 . 8 , c e x C o l = 1 . 8 )

79

Рис. П1.3. Теплокарты: а – при значении параметра scale="none"; б – при значении параметра scale="col"

Функция h e a t m a p . 2 ( ) позволяет визуализировать данные, предварительно выполнив нормировку значений параметров в каждом столбце или каждой строке, для этого параметру s c a l e присваивается значение " c o l " или " r o w " . Построим теплокарту, выполнив нормировку значений параметров в каждом столбце (рис. П1.3, б). На рис. П1.3 показан вид полученных теплокарт. Более светлые клетки соответствуют меньшим значениям параметров. Дендрограмма сверху от теплокарт определяет группировку параметров, а дендрограмма слева определяет группировку образцов. Цвет полосы слева от теплокарт указывает на принадлежность образцов группам: темно-серый – группа 1, светло-серый – группа 2.

1.4. Изменение параметров осей и надписей на рисунках

Графические функции R позволяют контролировать параметры осей и надписей на рисунках. На рис. П1.4 приведен пример, иллюстрирующий способы изменения названия и масштаба осей, расположения делений и значений по осям, расположения заголовков и условных обозначений, изменения размера и стиля шрифтов, а также способы добавления верхних и нижних индексов, специальных символов и греческих букв.

>x < - 1 : 1 0

>y < - x * x

>p 1 = 0 . 0 2 3 4

>p 2 = 6 . 7 6 5 2

80