- •1 СТАТИСТИЧЕСКАЯ ОБРАБОТКА БИОМЕДИЦИНСКОЙ ИНФОРМАЦИИ
- •1.1 Биомедицинская информация и способы ее получения
- •1.2 Организация медико-статистических исследований
- •1.3 Относительные величины
- •1.4 Статистическая обработка вариационного ряда
- •1.4.1 Основные понятия и определения
- •1.4.2 Методика составления вариационного ряда
- •1.4.3 Методика статистической обработки вариационного ряда при нормальном законе распределения вариант
- •1.4.4 Расчет статистических характеристик при малом числе наблюдений
- •1.5 Выборочный метод исследований
- •1.5.1 Формирование выборочной совокупности
- •1.5.2 Определение объема выборочной совокупности
- •1.5.3 Сравнение средних арифметических величин двух выборок из совокупности с нормальным распределением вариант
- •1.6 Основы дисперсионного анализа
- •1.6.1 Общие положения
- •1.6.2 Методика однофакторного дисперсионного анализа
- •1.6.3 Методика двухфакторного дисперсионного анализа
- •1.6.4 Методика однофакторного дисперсионного анализа альтернативных признаков
- •1.7 Определение соответствия эмпирических и теоретических данных
- •1.7.1 Общие положения
- •1.7..2 Определение соответствия признаков альтернативных явлений
- •1.7.3 Определение критерия χ2 по данным, представленным в сложных таблицах
- •1.7.4 Проверка соответствия фактических частот вариационного ряда теоретическому распределению
- •1.8 Корреляционный анализ
- •1.8.1 Способы выявления корреляционной связи
- •1.8.2 Виды и теснота корреляционной связи
- •1.8.2 Определение коэффициент корреляции при малом числе наблюдений
- •1.8.3 Определение коэффициент корреляции при большом числе наблюдений
- •1.8.4 Средняя ошибка коэффициента корреляции
- •1.8.5 Определение тесноты связи между качественными признаками
- •1.8.6 Множественная корреляция
- •1.8.7 Понятие о корреляционном отношении
- •1.9 Основы регрессионного анализа
- •1.10 Непараметрические критерии в медицинских исследованиях
- •1.10.1 Критерии для характеристики одной совокупности
- •1.10.2 Критерии различия для двух сопряженных совокупностей
- •1.10.3 Критерии различия для двух несопряженных совокупностей
- •1.10.3 Непараметрические методы изучения связи
- •1.11 Современное программное обеспечение для статистической обработки биомедицинских исследований
- •2 ПРИНЦИПЫ ПОСТРОЕНИЯ БАНКОВ ДАННЫХ
- •2.1 Общие сведения о банках данных
- •2.2 Типы баз данных
- •2.2.1 Автономные базы данных
- •2.2.2 Файл-серверные базы данных
- •2.2.3 Многоярусные базы данных
- •2.2.4 Базы данных клиент/сервер
- •2.3 Реляционный подход к построению БД
- •2.3.1 Реляционная модель данных
- •2.3.1.1 Целостность данных
- •2.3.2 Реляционная алгебра
- •2.3.3 Реляционное исчисление
- •2.4 Иерархический и сетевой подходы
- •2.4.1 Иерархический подход.
- •2.4.2 Сетевой подход.
- •2.5 Инвертированные базы данных
- •2.6 Принципы построения реляционных баз данных
- •2.6.1 Процедура индексирования
- •2.6.2 Организация связи с базами данных прикладных программ
|
rxy = |
∑(x −x)×(y − y) |
(1.31) |
|
|
n×σx ×σy |
|
|
rxy = |
∑xy −n×x × y |
(1.32) |
|
n×σx ×σy |
||
|
|
|
|
где rxy — коэффициент линейной корреляции; |
|
||
х и у — коррелируемые (сопоставляемые) величины; |
|
||
_ |
_ |
|
|
x и |
x — средние арифметические ряда х и ряда у; |
|
σx, σy — средние квадратическое отклонения сопоставляемых рядов; n — число сравниваемых пар.
Использование формулы (1.32) предпочтительнее, так как не требует определения отклонений вариант от средних. В этом случае среднее квадратическое отклонение в каждом ряду следует вычислять по формуле:
∑x2 |
− |
(∑x)2 |
|
|
n |
|
|||
σ = |
|
(1.33) |
||
n −1 |
||||
|
|
Допустим, необходимо определить корреляционную связь между интрасклеральным и внутриглазным давлением на основании проведенных измерений у 13 кошек (табл. 1.36).
Полученный коэффициент корреляции свидетельствует о наличии между интрасклеральным и внутриглазным давлением у кошек исследованной группы прямой умеренной связи.
1.8.3 Определение коэффициент корреляции при большом числе наблюдений
Приведенные формулы удобны для расчета коэффициентов корреляции при небольшом числе наблюдений (обычно меньше 30—50). Если число наблюдений велико, то для вычисления коэффициента корреляции целесообразно сначала построить корреляционную таблицу. При этом данные наблюдений, размещенные в таблице, должны быть сгруппированы.
Например, необходимо установить, имеется ли связь между количеством нейтрофилов и общим числом лейкоцитов у 142 обследованных детей. Распределение их по числу лейкоцитов и нейтрофилов представлено в табл. 1.37.
В графе 12 таблицы указаны частоты (fy) признака у (нейтрофилез), в строке 16—частоты (fx) второго признака х (число лейкоцитов). В клетке на пересечении графы fy и строки fx приведена общая сумма наблюдений, равная в нашем
65
Таблица 1.36 - Вычисление коэффициента корреляции по не сгруппированным данным
|
Интраскле- |
|
Внутри- |
|
|
|
|
|
|
Номер |
ральное ве- |
|
глазное |
2 |
2 |
|
ху |
||
опыта |
нозное дав- |
|
давление |
|
х |
у |
|||
|
ление(х) |
|
(у) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
19,8 |
|
|
32,5 |
392,04 |
1056,25 |
643,50 |
||
2 |
7,8 |
|
|
16,1 |
60,84 |
259,21 |
125,58 |
||
3 |
12,7 |
|
|
21,3 |
161,26 |
453,69 |
270,51 |
||
4 |
13,4 |
|
|
26,8 |
179,56 |
718,24 |
359,12 |
||
5 |
10,3 |
|
|
23,4 |
106,09 |
547,66 |
241,02 |
||
6 |
13,7 |
|
|
19,7 |
187,69 |
388,09 |
269,89 |
||
7 |
16,2 |
|
|
22,9 |
262,44 |
524,41 |
370,98 |
||
8 |
15,4 |
|
|
22,2 |
237,16 |
492,84 |
341,88 |
||
9 |
21,5 |
|
|
22,6 |
462,25 |
510,76 |
485,90 |
||
10 |
8,1 |
|
|
17,6 |
65,61 |
309,76 |
142,56 |
||
11 |
11,7 |
|
|
14,3 |
136,89 |
204,49 |
167,31 |
||
12 |
7,6 |
|
|
18,6 |
57,76 |
345,96 |
141,36 |
||
13 |
6,1 |
|
|
21,4 |
37,21 |
457,96 |
130,54 |
||
|
|
|
|
|
|
|
|
|
|
n=13 |
∑х = 164,3 |
|
∑у = 279,4 |
∑х2=2346,83 |
∑у2=6269,22 |
∑ху=3690,15 |
|||
|
_ |
|
|
_ |
|
|
|
|
|
|
x= 12,64 |
|
y =21,49 |
|
σх = 4,74 |
σу = 4,70 |
|
||
|
|
|
|
|
|
|
|
|
|
|
r |
= ∑xy −n × x × y = |
3690,15 −13 12,64 21,49 |
= +0,55 |
|||||
|
|
||||||||
|
xy |
|
n ×σx ×σ y |
|
13 4,74 4,70 |
|
|||
|
|
|
|
|
примере 142. Расчет коэффициента корреляции производится по несколько видоизмененной основной формуле:
|
|
∑(∑ fxy ax )ay −n |
∑ f x ax |
× |
∑ f y ay |
|
||||
rxy |
= |
|
n |
n |
(1.34) |
|||||
|
|
|
|
|
|
|||||
|
|
|
n ×σ1x ×σ1y |
|
|
|||||
|
|
|
|
|
|
|
|
|||
1 |
= |
∑ f x ax2 |
− |
∑ f x ax |
2 |
|
|
(1.35) |
||
σx |
n |
|
n |
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
||
1 |
= |
∑ f y ay2 |
|
|
∑ f y ay |
2 |
|
|
(1.36) |
|
σ y |
|
− |
|
|
|
|
|
|||
|
|
n |
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
где: fх— итоговые числа наблюдений в отдельных графах ряда х;
66
fy—итоговые числа наблюдений в отдельных строках ряда у;
fxy ~ числа наблюдений в клетках таблицы на пересечении граф х и строк у; aх и aу — отклонения от условных средних рядов х и у в единицах их ин-
тервалов;
n — общее число наблюдений;
σx1 и σy1 — средние квадратическия отклонения рядов х и у в единицах интервалов.
67
Таблица 1.37 - Определение коэффициента корреляции между нейтрофилезом и лейкоцитозом у детей
|
|
|
|
|
|
|
Лейкоциты (в тыс.) x |
|
|
|
|
|
|
|
|
y |
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Нейрофилы (в тыс.), y |
Строки |
|
|
|
10—11.9 |
12—13.9 |
|
14—15.9 |
16—17.9 |
18—19.9 |
20—21.9 |
22—23.9 |
24—25.9 |
|
|
y |
y |
y |
)a |
|
|
4—5.9 |
6—7.9 |
8—9.9 |
|
|
|
2 |
a |
x |
||||||||||||
|
|
y |
y |
a |
a |
a |
|||||||||||||||
|
|
y |
y |
xy |
xy |
||||||||||||||||
|
|
t |
a |
f |
f |
Σf |
(Σf |
||||||||||||||
|
|
|
|
|
|
|
|
графы |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
1 |
2 |
3 |
4 |
5 |
|
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
15 |
16 |
17 |
0 |
– |
0,9 |
1 |
3 |
5 |
2 |
7 |
1 |
|
0 |
1 |
|
|
|
|
19 |
-3 |
-57 |
171 |
-17 |
+51 |
1,0 |
– 1,9 |
2 |
6 |
9 |
7 |
4 |
1 |
|
0 |
|
|
|
|
|
27 |
-2 |
-54 |
108 |
-42 |
+84 |
|
2 |
– |
2,9 |
3 |
|
3 |
10 |
14 |
8 |
|
3 |
3 |
|
|
|
|
41 |
-1 |
-41 |
41 |
+7 |
-7 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3 |
– |
3,9 |
4 |
1 |
3 |
2 |
2 |
5 |
|
1 |
|
|
|
|
|
18 |
0 |
0 |
0 |
+5 |
0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
4 |
-- 4,9 |
5 |
|
1 |
2 |
2 |
441 |
4 |
|
|
|
|
|
13 |
1 |
13 |
13 |
+8 |
8 |
||
5 |
– |
5,9 |
6 |
|
|
1 |
1 |
|
|
1 |
2 |
1 |
|
|
|
10 |
2 |
20 |
40 |
+15 |
30 |
6 |
–6,9 |
7 |
|
|
|
1 |
1 |
|
1 |
11 |
2 |
1 |
|
|
6 |
3 |
18 |
54 |
+19 |
57 |
|
7 |
– |
7,9 |
8 |
|
|
|
|
|
1 |
|
|
|
|
|
3 |
4 |
12 |
48 |
+5 |
20 |
|
8 |
– |
8,9 |
9 |
|
|
|
|
|
|
|
|
|
1 |
|
|
2 |
5 |
10 |
50 |
+11 |
55 |
9 |
– |
9,9 |
10 |
|
|
|
|
|
|
|
|
|
|
1 |
|
2 |
6 |
12 |
72 |
+7 |
42 |
10 –10,9 |
11 |
|
|
|
|
|
|
|
|
|
|
1 |
|
0 |
7 |
0 |
0 |
0 |
0 |
||
11 – 11,9 |
12 |
|
|
|
|
|
|
|
|
|
|
|
|
0 |
8 |
0 |
0 |
0 |
0 |
||
12 – 12,9 |
13 |
|
|
|
|
|
|
|
|
|
|
|
|
0 |
9 |
0 |
0 |
0 |
0 |
||
13 – 13,9 |
14 |
|
|
|
|
|
|
|
|
|
|
|
|
0 |
10 |
0 |
0 |
0 |
0 |
||
14 –14,9 |
15 |
|
|
|
|
|
|
|
|
|
|
|
1 |
1 |
11 |
11 |
121 |
7 |
77 |
||
|
|
fx |
16 |
10 |
21 |
24 |
31 |
25 |
|
14 |
9 |
3 |
2 |
2 |
1 |
142 |
|
Σ=-56 |
Σ=718 |
|
Σ=417 |
|
|
ax |
17 |
-3 |
-2 |
-1 |
0 |
1 |
|
2 |
3 |
4 |
5 |
6 |
7 |
- |
|
|
|
|
|
|
fxax |
18 |
-30 |
-42 |
-24 |
0 |
25 |
|
28 |
27 |
12 |
10 |
12 |
7 |
Σ=25 |
|
|
|
|
|
|
|
|
a2x |
19 |
9 |
4 |
1 |
0 |
1 |
|
4 |
9 |
11 |
25 |
36 |
49 |
|
|
|
|
|
|
|
fx x a2x |
20 |
90 |
84 |
24 |
0 |
25 |
|
56 |
81 |
48 |
50 |
72 |
49 |
Σ=579 |
|
|
|
|
|
68
Пользуясь приведенной формулой, рассчитываем коэффициент корреляции для нашего примера. Прежде всего необходимо определить отклонения каждой варианты в своем ряду от условного среднего значения в единицах интервалов. Для этого произвольно за условную среднюю ряда х примем варианту 10—11,9, а в ряду у - варианту 3—3,9. Для большей наглядности выделим соответствующие графу и строку полужирным шрифтом. Далее для каждого ряда запишем отклонения (ах и ау) вариант от условных средних арифметических величин в единицах интервалов (при этом все разности между соседними групповыми вариантами условно принимаем равными единице). В таком случае отклонения в ряду х (строка 17) будут следующими: —3, —2, —1, 0, 1, 2, 3, 4, 5, 6, 7; а в ряду у (графа 13): —3, —2, —1, 0, 1, 2,3,4,5,6, 7,8,9, 10, 11.
Для того, чтобы найти средние квадратические отклонения в единицах интервалов по приведенной выше формуле, необходимо вычислить сумму произведений отклонений на соответствующие частоты—Σfxax и Σfyaу:
Σfxax=10 (-3)+21 (-2)+24(-l)+31*0+ ... ...+1·7=25; Σfyay ==19·(—3)+27·(—2)+41 (—1) +...+11 l == —56.
Далее определяем сумму произведений квадратов отклонений на соответствующие частоты:
Σfxax2 =-9·10+4·21 +1·24+ ... +49·1=579; Σfyay2 = 9·19+4·27+1·41+0·18+ ... +121·1=718
Промежуточные и окончательные результаты подсчета по этим формулам записаны в графе 15 и строке 20 таблицы.
Вычисляем значения σx1 и σy1:
Остается определить величину Σ(Σfxyax)ay для числителя формулы коэффициента корреляции. Вычисляем сумму произведений отклонений ряда х и ряда у на соответствующие частоты, т. е. Σfxyaxay. Вначале получаем сумму произведений Σfxyax путем перемножения чисел, стоящих в клетках таблицы и представляющих из себя частоты совмещенных значений х и у (fxy) на величины отклонений вариант ряда х от условной средней, т. е. на aх. Эти произведения суммируем для каждой горизонтальной строки и заносим в графу 16. Например, для первой строки
Σfxyax =3·(-3)+5·(-2)+2·(-l)+7·(0) + 1-1+0·2+1·3=(—9)+(—10)+(-2)+1 +3 = -17
65