- •1 СТАТИСТИЧЕСКАЯ ОБРАБОТКА БИОМЕДИЦИНСКОЙ ИНФОРМАЦИИ
- •1.1 Биомедицинская информация и способы ее получения
- •1.2 Организация медико-статистических исследований
- •1.3 Относительные величины
- •1.4 Статистическая обработка вариационного ряда
- •1.4.1 Основные понятия и определения
- •1.4.2 Методика составления вариационного ряда
- •1.4.3 Методика статистической обработки вариационного ряда при нормальном законе распределения вариант
- •1.4.4 Расчет статистических характеристик при малом числе наблюдений
- •1.5 Выборочный метод исследований
- •1.5.1 Формирование выборочной совокупности
- •1.5.2 Определение объема выборочной совокупности
- •1.5.3 Сравнение средних арифметических величин двух выборок из совокупности с нормальным распределением вариант
- •1.6 Основы дисперсионного анализа
- •1.6.1 Общие положения
- •1.6.2 Методика однофакторного дисперсионного анализа
- •1.6.3 Методика двухфакторного дисперсионного анализа
- •1.6.4 Методика однофакторного дисперсионного анализа альтернативных признаков
- •1.7 Определение соответствия эмпирических и теоретических данных
- •1.7.1 Общие положения
- •1.7..2 Определение соответствия признаков альтернативных явлений
- •1.7.3 Определение критерия χ2 по данным, представленным в сложных таблицах
- •1.7.4 Проверка соответствия фактических частот вариационного ряда теоретическому распределению
- •1.8 Корреляционный анализ
- •1.8.1 Способы выявления корреляционной связи
- •1.8.2 Виды и теснота корреляционной связи
- •1.8.2 Определение коэффициент корреляции при малом числе наблюдений
- •1.8.3 Определение коэффициент корреляции при большом числе наблюдений
- •1.8.4 Средняя ошибка коэффициента корреляции
- •1.8.5 Определение тесноты связи между качественными признаками
- •1.8.6 Множественная корреляция
- •1.8.7 Понятие о корреляционном отношении
- •1.9 Основы регрессионного анализа
- •1.10 Непараметрические критерии в медицинских исследованиях
- •1.10.1 Критерии для характеристики одной совокупности
- •1.10.2 Критерии различия для двух сопряженных совокупностей
- •1.10.3 Критерии различия для двух несопряженных совокупностей
- •1.10.3 Непараметрические методы изучения связи
- •1.11 Современное программное обеспечение для статистической обработки биомедицинских исследований
- •2 ПРИНЦИПЫ ПОСТРОЕНИЯ БАНКОВ ДАННЫХ
- •2.1 Общие сведения о банках данных
- •2.2 Типы баз данных
- •2.2.1 Автономные базы данных
- •2.2.2 Файл-серверные базы данных
- •2.2.3 Многоярусные базы данных
- •2.2.4 Базы данных клиент/сервер
- •2.3 Реляционный подход к построению БД
- •2.3.1 Реляционная модель данных
- •2.3.1.1 Целостность данных
- •2.3.2 Реляционная алгебра
- •2.3.3 Реляционное исчисление
- •2.4 Иерархический и сетевой подходы
- •2.4.1 Иерархический подход.
- •2.4.2 Сетевой подход.
- •2.5 Инвертированные базы данных
- •2.6 Принципы построения реляционных баз данных
- •2.6.1 Процедура индексирования
- •2.6.2 Организация связи с базами данных прикладных программ
чина равна отношению факториальной вариации к общей вариации. В рассмот-
ренном примере η2 = SSФ = 23,,9862 = 0,658
Эта величина означает, что воздействие серотонина на вес опухолей значительно и составляет 65,8%, тогда как на долю всех других неучтенных в данном исследовании влияний приходится лишь 34,2%. Средняя ошибка η2 определяется по формуле:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(1.25) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
По |
|
имеющимся |
данным, |
средняя |
ошибка |
составляет |
|||||||||
m |
2 |
= (1−0,658) |
2 |
= 0,342 0,133 = 0,045 . |
Она |
в |
14,6 |
раза |
меньше |
|||||||||
|
||||||||||||||||||
η |
|
|
|
|
|
|
15 |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
η |
2 |
|
|
0,658 |
|
|
|
|
|
|
|
|
|
|
|
η2 |
|
|
|
|
= |
=14,6 |
|
что обязывает с полным доверием относиться к показате- |
||||||||||
|
|
|
|
0,045 |
||||||||||||||
|
m 2 |
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
η |
|
|
|
|
|
|
|
|
|
|
|
|
|
лю силы влияния изучаемого фактора.
Доверительные границы силы влияния фактора при уровне значимости р = 0,05 (Fтабл. = 3,68) могут быть определены по формуле:
η2 ± F0,05 mη2 |
(1.26) |
В нашем случае 0,658 ±3,68*0,045 = 0,658 ±0,166 |
или 0,492—0,824. Следо- |
вательно, при изучении генеральной совокупности доля влияния серотонина может колебаться в пределах от 49,2 до 82,4%. Таким образом, применение дисперсионного анализа с большой достоверностью позволило установить значимость и надежность влияния серотонина на величину опухолей.
Приведенные расчеты представляют пример однофакторного дисперсионного анализа. Из всех многообразных факторов, действующих на размеры опухоли, учтен только один - дозировка серотонина. Варьирование данных внутри каждой группы предполагалось случайным. При использовании однофакторного анализа число наблюдений в отдельных группах может быть либо одинаковым (равномерный статистический комплекс), либо разным (неравномерный статистический комплекс). Техника расчетов при этом не меняется. Если исследователь изучает влияние не одного, а большего числа факторов, требуется использование более сложной методики.
1.6.3 Методика двухфакторного дисперсионного анализа
Изучалась скорость выдоха (л/с) по данным пневмотахометрии у здоровых рабочих угольных шахт, Одним из факторов, учитывавшихся в исследовании, являлись условия производственной деятельности (фактор А). Одна группа рабочих не имела контакта с производственной пылью (A1); другую группу соста-
43
вили рабочие, занятые на подземных работах (A2). Предполагалось, что работа в запыленных условиях (фактор A2) влияет на скорость выдоха.
Вэтом же исследовании одновременно изучалось влияние возраста (фактор В). Было отмечено, что с возрастом максимальная скорость выдоха уменьшается. Требовалось установить, связано ли уменьшение скорости выдоха только с возрастом, или же производственные условия также влияют на этот показатель.
Для проведения необходимых расчетов экспериментальные данные сводятся в специальную таблицу (табл. 1.18). Всех исследуемых необходимо раз-
делить на группы по фактору А (в примере их 2: А1 и A2), каждую из групп А разделить еще на группы по фактору В (в примере их также 2: B1 и В2). В каждой из указанных подгрупп следует записать значения вариант — х (в нашем примере - величины максимальной скорости выдоха), подсчитать число наблюдений, определить средние арифметические величины.
Ваналогичной таблице следует сгруппировать варианты отдельно по фактору А и по фактору В (табл. 1.19).
Таблица 1.18 - Скорость выдоха у рабочих разного возраста, работающих в разных производственных условиях
|
|
А1-здоровые рабочие, не имею- |
А2-здоровые рабочие, заня- |
Итого |
|
|||||||||
|
|
щие контакта с производствен- |
тые на подземных работах |
|
|
|||||||||
|
|
ной пылью |
|
угольных шахт |
|
|
|
|||||||
|
|
В1(30-39 л) |
|
В2(40-49 л) |
В1(30-39 л) |
|
В2(40-49 л) |
|
|
|||||
х |
|
4,5; 4,7 |
|
4,0; 4,1; 4,2 |
4,3; 4,5 |
|
3,8; 3,9; 4,0 |
|
|
|||||
n |
|
2 |
|
3 |
|
2 |
|
3 |
|
|
10 |
|
||
∑x |
|
9,2 |
|
12,3 |
8,8 |
|
11,7 |
|
42 |
|
||||
_ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x |
|
4,6 |
|
4,1 |
4,4 |
|
3,9 |
|
|
4,2 |
|
|||
|
Таблица 1.19 - Скорость выдоха у работающих в разных производственных |
|||||||||||||
|
|
|
условиях лиц разного возраста |
|
|
|
|
|
|
|||||
|
|
А1-здоровые рабо- |
|
А2-здоровые ра- |
|
В1-рабочие в |
|
В2-рабочие в |
||||||
|
|
чие, не имеющие |
|
бочие, занятые на |
|
возрасте 30-39 |
|
возрасте 40- |
||||||
|
|
контакта с произ- |
|
подземных рабо- |
|
|
лет |
|
49 лет |
|||||
|
|
водственной пылью |
тах угольных шахт |
|
|
|
|
|
|
|
|
|||
х |
|
4,5; 4,7; 4,0; 4,1; 4,2 |
|
4,3; 4,5; 3,8; 3,8; 4,0 |
|
4,5; 4,7; 4,3; 4,5 |
|
4,0; 4,1; 4,2; |
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
3,8; 3,9; 4,0 |
|
|
n |
|
5 |
|
|
5 |
|
|
|
4 |
|
6 |
|
||
∑x |
|
21,5 |
|
|
20,5 |
|
|
|
18 |
|
24 |
|
||
_ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x |
|
4,3 |
|
|
4,1 |
|
|
|
4,5 |
|
4 |
|
44
Чтобы определить общую и остаточную вариации по факторам А и В, а затем соответствующие дисперсии, необходимо найти:
1)квадраты всех вариант—x2;
2)суммы этих квадратов—Σx2;
3)суммы вариант, возведенные в квадрат,—(Σx)2;
4)суммы вариант, возведенные в квадрат и поделенные на число наблюде-
(∑x)2
ний − |
|
. |
|
|
|
n |
(∑x)2 |
|
|||
Последнюю дробь |
обозначим h, если расчет производится для ка- |
||||
n |
|||||
|
|
|
|
кой-либо отдельной группы, и H, если расчет касается всех наблюдений. Аналогично: п—число наблюдений в отдельных группах, а N—общее число наблюдений. Через r обозначим число групп, на которое делятся наблюдаемые по фактору А (rA) и по фактору В (rB).
Последовательность двухфакторного дисперсионного анализа следующая:
I.Определяем вариацию по фактору А (SА)
SA = hА — Н;
II.Определяем вариацию по фактору В (SB)
SB = hB — H;
3. Определяем вариацию по сумме факторов А и В и взаимодействия этих факторов (SA+B+AB)
SA+B+AB = Σh — H;
4.Определяем вариацию, обусловленную взаимодействием факторов A и В
-так называемый «перекрестный эффект» (SAB)
SAB = SA+B+AB – SA – SB;
5. Определяем остаточную вариацию (Sz)
SZ=Σx2 - Σh; 6. Определяем полную вариацию-(S)
S= Σx2 - H (S = SA + SB + SAB + Sz);
7.Определяем число степеней свободы (VA) и дисперсию (σA2) по фактору
A
VA=rA-1; |
σA2=SA/VA; |
|||||
8. Определяем число степеней свободы (VB) и дисперсию (σB2) по фактору |
||||||
В |
|
|
|
SB |
|
|
v |
=r −1; |
σ2 |
= |
|
||
|
||||||
B |
B |
B |
|
vB |
||
|
|
|
|
9. Определяем число степеней свободы (VAB) и дисперсию σAB2 для взаимодействия факторов А и В
vAB = vA vB ; σAB2 = |
SAB |
|
vAB |
||
|
45
10. Определяем число степеней свободы (νZ) и величину остаточной дисперсии (σZ)
v =n−r r |
; |
σ2 |
= |
SZ |
|
|
|||||
Z |
A B |
|
Z |
|
vz |
|
|
|
|
|
11.Определяем критерий F — отношение каждой изучаемой дисперсии к остаточной дисперсии .f=σ2/σZ2
12.Производим оценку критерия F по специальной таблице.
13.Степень влияния изучаемых факторов определяем по отношению каждой изучаемой вариации к полной вариации
Сосредоточим основные расчеты в следующей таблице (табл. 1.20) затем по указанной схеме рассчитаем остальные компоненты двухфакторного дисперсионного анализа.
Таблица 1.20 – Дисперсионный анализ влияния контакта с производственной пылью и возраста на максимальную скорость выдоха
|
|
|
|
|
А1 – здоровые рабо- |
А2 – здоровые рабо- |
|
|
|
|
rA=2 |
||||
|
|
|
|
|
чие, не имеющие кон- |
чие, занятые на |
|
|
|
|
rB=2 |
||||
|
|
|
|
|
такта с производст- |
подземных работах |
|
|
|
|
|
|
|
||
|
|
|
|
|
венной пылью |
угольных шахтах |
|
|
|
|
|
|
|
||
|
|
|
|
|
В1 – 30-39 |
В2 – 40-49 |
В1 – 30- |
В2 – 40-49 |
|
|
|
|
|
|
|
|
|
|
|
|
лет |
лет |
39 лет |
лет |
|
|
|
|
|
|
|
|
|
|
x |
4,5; 4,7 |
4,0; 4,1; |
4,3; 4,5 |
3,8; 3,9; |
H = |
|
(∑x)2 |
|||||
|
|
|
|
|
|
4,2 |
|
4,0 |
|
|
|
= |
|||
|
|
|
|
|
|
|
|
N |
|
||||||
|
|
|
|
|
|
|
|
|
= |
(42,0) |
2 |
=176,40 |
|||
|
|
|
|
|
|
|
|
|
|
10 |
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
n |
2 |
3 |
2 |
3 |
|
|
|
|
N=10 |
|||
|
|
∑x |
9,2 |
12,3 |
8,8 |
11,7 |
|
|
|
∑x=42,0 |
|||||
x = |
∑x |
4,6 |
4,1 |
4,4 |
3,9 |
|
|
|
|
x =4,2 |
|||||
n |
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
∑x2 |
42,34 |
50,45 |
38,74 |
45,65 |
|
|
|
∑x2=177,18 |
||||||
(∑x)2 |
84,64 |
151,29 |
77,44 |
136,89 |
(∑x)2=(42,0)2=1764 |
||||||||||
h = |
|
(∑x)2 |
|
42,32 |
50,43 |
38,72 |
45,63 |
|
|
|
∑h=177,10 |
||||
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
46
|
|
|
(21,5) |
2 |
(20,5) |
2 |
|
|
|
hA |
|
|
|
+ |
|
|
|
=176,5 |
|
5 |
5 |
|
|
||||||
hB |
|
|
(18,0) |
2 |
(24,0)2 |
|
|
|
|
|
|
|
|
+ |
|
|
=177,0 |
|
|
|
|
|
5 |
5 |
|
||||
|
|
|
|
|
|
|
|
1.SA = hA — Н = 176,50 - 176,40 = 0,10.
2.SB = hB — Н = 177,00 - 176,40 = 0,60.
3.SA+B+AB = Σh — Н = 177,10 - 176,40 = 0,70.
4.SAB = SA+B+AB — SA - SB = 0,70 -0,10 -0,60=0,00.
5.SZ = Σx2 — Σh = 177,18— 177,10 =.0,08.
6.S = Σx2 — Н = 177,18 - 176,40 = 0,78.
12. Табличное значение критерия F при числе степеней свободы большей дисперсии v1 = VA = 1 и меньшей дисперсии v2 = vz = 6 равно 5,99. Так как расчетный критерий F превышает табличное значение при 5% уровне значимости, то это означает, что найденные различия в средних арифметических максимальной скорости выдоха значимы, не случайны, им можно доверять. Риск ошибки этого вывода в отношении фактора А не более 5%, риск ошибки в отношении влияния фактора В—менее 1%. Значимость различий средних в зависимости от взаимодействия фактора А и фактора В по имеющимся данным не установлена.
Степень влияния отдельных изучаемых факторов в общем числе влияний довольно значительна:
47
Степень влияния условий работы (0,128) у здоровых рабочих оказалась меньше степени влияния возраста (0,769). Суммарное влияние двух выделенных факторов составляет 0,897 (0,128+0,769), т. е. 89,7%. Итоговые данные результатов расчета можно сконцентрировать в таблице (табл. 1.21).
Таблица 1.21 - Сводная таблица двухфакторного дисперсионного анализа
Рассмотрим еще раз формулу о сумме вариации:
S = S A + SB + S AB + SZ
Если в эксперименте выделяется действие только одного фактора А, то SB и SAB входят в Sz. Увеличение Sz за счет SB И SAB может привести к тому, что значимость влияния фактора А окажется по расчетам недостаточной. Поэтому следует по возможности, кроме фактора А, исследовать какой-либо фактор В, пусть малозначащий, его выделение уменьшит Sz и яснее выявит роль фактора
А.
Если исследователя интересует влияние нескольких факторов (более двух), то необходимо провести трехфакторный, четырехфакторный дисперсионный анализ, т. е. многофакторный анализ.
48