
- •Задачи биостатистики
- •Основные понятия и определения биостатистики
- •Классификация признаков
- •Анализ медико-биологических данных на основе их графического представления
- •Анализ медико-биологических данных на основе числовых статистических характеристик
- •Свойства нормального распределения
- •Теория проверки статистических гипотез
- •I алгоритм
- •II алгоритм
- •Проверка гипотезы о нормальности распределения случайной величины
- •Параметрические критерии проверки статистических гипотез
- •Анализ относительных величин
- •Доверительный интервал
- •Доверительный интервал для разности генеральных средних двух независимых групп
- •Доверительный интервал для разности генеральных средних двух зависимых групп
- •Доверительный интервал относительных показателей
- •Непараметрические критерии проверки статистических гипотез
- •Анализ качественных признаков. Таблицы сопряженности.
- •Оценка факторов риска
- •Оценка чувствительности и специфичности диагностических тестов
- •Оценка прогностического значения диагностических тестов
- •Однофакторный дисперсионный анализ
- •Линейная корреляция
- •Коэффициент корреляции рангов к. Спирмена
- •Линейная регрессия
- •Анализ выживаемости
- •Методы прогнозирования
- •Методы простой экстраполяции
- •Метод среднего абсолютного прироста
- •Метод среднего темпа роста
- •Прогнозирование на основе математических моделей
- •Оценка факторов риска и прогнозирование на основе логистической регрессии
- •Байесовский подход к диагностике и прогнозированию. Последовательный анализ Вальда
- •Определение размера выборки
- •Расчет объема выборки при эпидемиологических исследованиях
- •При неизвестной численности генеральной совокупности для количественных признаков
- •Объем генеральной совокупности известен
- •При неизвестной численности генеральной совокупности для количественных признаков
- •Представление статистических данных в научных публикациях
- •Приложение 1. Критические значения коэффициента асимметрии As
- •Приложение 2. Критические точки двустороннего t-критерия Стьюдента
- •Приложение 3. Критические значения u-критерия Манна-Уитни
- •Приложение 4. Критические значения парного т-критерия Уилкоксона
- •Приложение 5. Критические значения χ2
- •Приложение 6. Критические значения коэффициента корреляции рангов Спирмена
- •Приложение 7. Критические значения f-критерия Фишера
Прогнозирование на основе математических моделей
Наиболее распространенным методом прогнозирования является нахождение аналитического выражения (уравнения) тренда. Тренд экстраполируемого явления - это основная тенденцию временного ряда, в некоторой мере свободная от случайных воздействий.
Разработка прогноза заключается в определении вида экстраполирующей функции y=f(t), которая выражает зависимость изучаемой величины от времени на основе исходных наблюдаемых данных. Первым этапом является выбор оптимального вида функции, дающей наилучшее описание тренда. Наиболее часто используются следующие зависимости:
• линейная
;
• параболическая
• показательная
функция
Проблемы нахождения коэффициентов линейной функции и прогноз на ее основе были рассмотрены в разделе «регрессионный анализ». Если форма кривой, описывающей тренд, имеет нелинейный характер, то задача оценки функции y=f(t) усложняется, и в этом случае необходимо привлечь к анализу специалистов по биостатистике и воспользоваться компьютерными программами по статистической обработке данных.
В большинстве реальных случаев временной ряд представляет собой сложную кривую, которую можно представить как сумму или произведение трендовой, сезонной, циклической и случайной компонент (рисунок 33).
Рисунок 33
Тренд представляет собой плавное изменение процесса во времени и обусловлен действием долговременных факторов. Сезонный эффект связан с наличием факторов, действующих с заранее известной периодичностью (например, времена года, лунные циклы). Циклическая компонента описывает длительные периоды относительного подъема и спада, состоит из циклов переменной длительности и амплитуды (например, некоторые эпидемии имеют длительный циклический характер). Случайная составляющая ряда отражает воздействие многочисленных факторов случайного характера и может иметь разнообразную структуру.
Анализ всех компонентов временного ряда и прогнозирование на их основе задача нетривиальная и требует специальной подготовки.
Оценка факторов риска и прогнозирование на основе логистической регрессии
Оценка рисков и влияния факторов риска являются важными задачами медицинских исследований – на основании этих данных строятся профилактические мероприятия и прогнозируются исходы тех или иных методов лечения. Как правило, в поиске наиболее значимых анализируется множество факторов, которые могут быть измерены по разным шкалам – непрерывным, дискретным, ординальным, номинальным. В этом случае есть проблема подбора адекватного многомерного статистического метода, не ограниченного какими-либо особыми рамками.
Логистическая регрессия используется, когда зависимая величина является бинарной (т.е. принимает значения да/нет, имеет/не имеет, например, пациент может выздороветь, а может не выздороветь, нуждается в госпитализации или не нуждается и т.д.) и на ее исход влияют независимые переменные различного характера (качественные и/или количественные). Фактически оценивается вероятность принять одно из этих двух утверждений под влиянием изучаемых признаков. Логит этой вероятности – натуральный логарифм отношения вероятности «положительный эффект» (р) к вероятности «отрицательный эффект» (1- р).
Величина
является непрерывной и принимает
значения в интервале от 0 до 1 (от
отрицательного эффекта к положительному
эффекту).
Процедура логистической регрессии заключается в создании и оценке уравнения вида
где x1, x2, x3, – независимые переменные, b0 и b1, b2, b3,… – постоянные коэффициенты
Тогда вероятность положительного эффекта
Рассмотрим пример построения логистической регрессии в программе «STATISTICA-6».
В таблице представлены некоторые факторы, которые возможно влияют на риск возникновения артериальной гипертензии (АГ).
Имя переменной |
Расшифровка |
Тип данных |
АГ |
0 – есть АГ, 1 – нет АГ |
номинальный бинарный |
Возраст, лет |
возраст, лет |
количественный |
Курение |
не курит -0, курит -1 |
номинальный |
Потребление алкоголя |
не потребл. – 0, потребл. -1 |
номинальный |
Потребление соленой пищи |
не потребл. – 0, потребл. -1 |
номинальный |
Пол |
1 - мужской, 2 - женский |
номинальный |
Вес |
6 категорий |
ординальный |
Наследственный фактор АГ |
нет -0, есть -1 |
номинальный |
Необходимо определить какое влияние на вероятность АГ оказывают отобранные переменные. Исходные данные представляются в виде матрицы n×m, где n- количество обследованных, m-число признаков. Фрагмент этой матрицы показан в таблице. Общий объем выборки составил 607 человек.
№ |
АГ |
Возраст |
Курение |
Потребл. алкогол. |
Потр. сол.пищи |
Пол |
Вес |
Наследств. (АГ) |
1 |
1 |
32 |
0 |
0 |
1 |
2 |
3 |
0 |
2 |
1 |
35 |
0 |
0 |
1 |
2 |
5 |
0 |
3 |
1 |
52 |
1 |
1 |
1 |
1 |
4 |
0 |
4 |
1 |
68 |
0 |
1 |
1 |
1 |
5 |
0 |
5 |
0 |
65 |
0 |
0 |
1 |
2 |
5 |
1 |
6 |
0 |
41 |
0 |
0 |
1 |
2 |
3 |
1 |
7 |
1 |
72 |
0 |
0 |
1 |
2 |
4 |
0 |
8 |
1 |
57 |
1 |
0 |
1 |
1 |
3 |
1 |
9 |
0 |
54 |
0 |
0 |
1 |
2 |
3 |
1 |
10 |
0 |
46 |
0 |
0 |
1 |
2 |
4 |
1 |
11 |
1 |
73 |
0 |
0 |
1 |
2 |
1 |
1 |
12 |
1 |
68 |
1 |
1 |
1 |
1 |
3 |
0 |
13 |
1 |
35 |
0 |
0 |
1 |
2 |
4 |
0 |
14 |
1 |
37 |
1 |
0 |
1 |
1 |
5 |
0 |
15 |
1 |
56 |
0 |
0 |
1 |
2 |
3 |
1 |
16 |
1 |
66 |
0 |
0 |
1 |
2 |
4 |
1 |
Анализ проводится в модуле Nonlinear Estimation, для запуска которого надо в меню Statistics выбрать команду Advanced Linear/Nonlinear Models (линейные/нелинейные модели). В открывшемся меню выбрать команду Nonlinear Estimation (нелинейная оценка), а затем опцию Quick Logit regression (логит регрессия) – «ОК».
В открывшемся окне необходимо указать зависимую и независимые переменные из списка переменных, щелкнув кнопкой Variables. Зависимой переменной (откликом) является «АГ», независимой – все остальные. Нажмите ОК. Программа возвратится в начальное диалоговое окно.
С помощью строки Input File contains (введите содержимое файла) отметьте вариант: Codes and no count (только коды) и вновь нажмите на ОК.
Откроется окно Model Estimation. Во вкладке Advanced можно выбрать процедуру оценивания — Estimation method. Выберем: quasi-Newton. Поставьте птичку в окошке Asymptotic standart errors. ОК.
Появится диалоговое окно Results. Видно, что значение параметра Chi-square (хи-квадрат) = 294,6 велико, а значение р=0,000000 - мало. Это говорит о достаточной адекватности выбранной модели. Качество модели можно оценить и по классификационной матрице во вкладке Classification of cases and odds ratio
Odds ratio (Отношение шансов) = 8,054 |
|||
Наблюдаемый |
Предсказа нный 0 |
Предсказанный 1 |
% корректных предсказаний |
0 |
376 |
51 |
88 |
1 |
86 |
94 |
52 |
В целом информационная способность модели составляет
470/607*100%=77%
Отношение шансов показывает, что классификация по модели в 8 раз корректнее, чем если бы мы предсказывали исход случайным образом.
Кнопка Summary. Parameter estimates на вкладке Advanced предназначена для визуализации предсказанных значений коэффициентов b0, b1, b2, b3, b4, b5, b6, b7 уравнения логит регрессии.
Model: Logistic regression (logit) N of 0's:427 1's:180 (Логит-АГ) Dep. var: АГ? Loss: Max likelihood (MS-err. scaled to 1) Final loss: 294,57107701 Chi?(7)=148,85 p=0,0000
|
||||||||
|
Const.B0 |
Пол |
Возраст |
Курение |
Потребл. алкогол. |
Потр. сол.пищи |
Вес |
Наследств (АГ) |
Estimate (оценка коэффициента) |
-4,725 |
0,278 |
0,030 |
0,014 |
-0,270 |
0,614 |
0,122 |
1,921 |
Standard Error (ст.ошибка коэффициента) |
0,690 |
0,237 |
0,007 |
0,298 |
0,252 |
0,233 |
0,055 |
0,209 |
t-Стюдента (599) |
-6,849 |
1,174 |
4,256 |
0,048 |
-1,073 |
2,637 |
2,241 |
9,213 |
p-level |
0,000 |
0,241 |
0,000 |
0,961 |
0,284 |
0,009 |
0,025 |
0,000 |
-95%ДИ |
-6,080 |
-0,187 |
0,016 |
-0,572 |
-0,765 |
0,157 |
0,015 |
1,511 |
+95%ДИ |
-3,370 |
0,744 |
0,044 |
0,600 |
0,224 |
1,071 |
0,230 |
2,330 |
Wald's Chi-square (хи-квадрат критерий Вальда) |
46,910 |
1,379 |
18,114 |
0,002 |
1,152 |
6,955 |
5,020 |
84,874 |
p-level |
0,000* |
0,240 |
0,000* |
0,961 |
0,283 |
0,008* |
0,025* |
0,000* |
Odds ratio (unit ch) Отношение шансов |
0,009 |
1,321 |
1,030 |
1,015 |
0,763 |
1,847 |
1,130 |
6,827 |
-95%ДИ |
0,002 |
0,829 |
1,016 |
0,565 |
0,465 |
1,170 |
1,015 |
4,533 |
+95%ДИ |
0,034 |
2,104 |
1,045 |
1,823 |
1,252 |
2,918 |
1,258 |
10,282 |
Odds ratio (range) Отношение шансов |
|
1,321 |
9,349 |
1,015 |
0,763 |
1,847 |
3,012 |
6,827 |
-95%ДИ |
|
0,829 |
3,333 |
0,565 |
0,465 |
1,170 |
1,146 |
4,533 |
+95%ДИ |
|
2,104 |
26,224 |
1,823 |
1,252 |
2,918 |
7,915 |
10,282 |
Первые три строки таблицы дают нам значения коэффициентов логистической регрессии, их стандартные ошибки, статистическую значимость по критерию Стъюдента и доверительный интервал для каждого коэффициента.
Статистическую значимость можно оценить и по критерию хи-квадрат Вальда. Из таблицы видно, что статистически незначимыми являются коэффициенты для факторов «пол», «курение» и «потребление алкоголя» (р>0,05), т.е. для них принимается нулевая гипотеза о равенстве отношения шансов единице, т.е. эти факторы не влияют на риск развития артериальной гипертензии.
Влияние всех других факторов можно оценить по величине отношения шансов (ОШ) и доверительным интервалам для них. Значительно повышает риск артериальной гипертензии наследственный фактор - в 6,8 (4,5-10,3) раз. Далее идет «потребление соли» – в 1,9 (1,2-2,9) раз, «вес» – ОШ от 1,0-1,3, а возраст фактически не ассоциирован с риском АГ (ОШ=1,016-1,045).
Теперь рассмотрим, как можно использовать полученную модель для прогнозирования. Пусть обследуется пациент со следующими признаками:
мужчина в возрасте 45 лет, вес 75 кг (3 весовая категория), курит, алкоголь не потребляет, любит соленую пищу, отец гипертоник.
Рассчитаем
=-0,196
Вероятность положительного эффекта (отсутствия АГ)
Тогда вероятность развития АГ =1-0,45=0,55
Анализ качественных признаков на основе логлинейной модели
Весьма
распространенной проблемой в медицинских
исследованиях является анализ качественных
номинальных признаков, которые, как
правило, представляются в виде кодов
(например, цвет кожных покровов: розоватый
-1, желтый -2, пунцовый -3 и т.д.). Интерес
представляет частота встречаемости
признаков в различных группах, а также
сила и направление влияния одних
признаков на другие. Нами уже были
рассмотрены таблицы сопряженности 2×2,
которые используются для анализа
совместного распределения двух признаков,
имеющих по две градации. Задачу можно
сформулировать другими словами – оценка
взаимного влияния двух двухуровневых
факторов. Однако, встречаются более
сложные случаи – многомерные таблицы
сопряженности, например, нужно выяснить
зависит ли срок госпитализации от
возраста пациента и тяжести его состояния
при поступлении в стационар (в каждую
ячейку вводится число случаев
).
|
|
сроки госпитализации |
||
тяжесть состояния при поступлении |
возраст |
до 5 дней |
от 5 до 10 дней |
> 10 дней |
легкая степень |
до 40 лет |
n111 |
n211 |
… |
40-60 лет |
n112 |
n212 |
… |
|
> 60 лет |
n113 |
n213 |
… |
|
средняя степень |
до 40 лет |
n121 |
n221 |
… |
40-60 лет |
n122 |
n222 |
… |
|
> 60 лет |
n123 |
n223 |
… |
В данном примере фактор А -«срок госпитализации» имеет три уровня (i=1,2,3), фактор В - «возраст» - два уровня (j=1,2), и фактор С –«тяжесть состояния» - три уровня (k=1,2,3).
Один из способов решения подобных задач – построение логлинейной модели вида:
+
+
,
где
-
теоретические частоты наблюдений
λ - логарифмы эффектов различных сочетаний факторов А, В, и С на различных уровнях (интерпретируется как вклад факторов и их сочетаний в частоту).
Переходя от логарифмов к натуральным значениям, получают теоретические (ожидаемые) частоты .
Рассмотрим пример реализации логлинейного анализа в ППП STATISTICA с последующей интерпретацией результатов. Задача состоит в оценке факторов риска развития артериальной гипертензии. Анализировалась частота встречаемости следующих признаков (факторов)
Имя переменной |
Расшифровка |
АГ |
1 – есть АГ, 2 – нет АГ |
Курение |
не курит -1, курит -2 |
Потребление алкоголя |
не потребл. – 1, потребл. -2 |
Потребление соленой пищи |
не потребл. – 1, потребл. -2 |
Наследственный фактор АГ |
нет -1, есть -2 |
Исходные данные представляются в виде матрицы n×m, где n- количество обследованных, m-число признаков. Фрагмент этой матрицы показан в таблице. Общий объем выборки составил 607 человек.
№ |
Курение |
Потр.Алког. |
Потр. сол.пищи |
Наследств (АГ) |
АГ |
1 |
1 |
1 |
1 |
1 |
2 |
2 |
1 |
1 |
1 |
1 |
2 |
3 |
1 |
1 |
1 |
2 |
1 |
4 |
1 |
1 |
1 |
2 |
1 |
5 |
1 |
1 |
1 |
1 |
2 |
6 |
2 |
1 |
1 |
2 |
2 |
7 |
1 |
1 |
1 |
2 |
1 |
8 |
1 |
1 |
1 |
2 |
1 |
9 |
1 |
1 |
1 |
2 |
2 |
10 |
1 |
1 |
1 |
1 |
2 |
11 |
2 |
1 |
1 |
1 |
2 |
12 |
1 |
1 |
1 |
2 |
2 |
13 |
1 |
1 |
1 |
2 |
2 |
14 |
1 |
1 |
1 |
2 |
1 |
15 |
1 |
1 |
1 |
2 |
2 |
16 |
1 |
1 |
2 |
1 |
2 |
… |
… |
… |
… |
… |
… |
Если какие-то ячейки таблицы сопряженности окажутся пустыми – не встречается данное сочетание факторов, то программа автоматически вставляет в эту ячейку величину 0,5, что никак не влияет на конечные результаты.
Анализ проводится в модуле Nonlinear Estimation, для запуска которого надо в меню Statistics выбрать команду Advanced Linear/Nonlinear Models (линейные/нелинейные модели). В открывшемся меню выбрать команду Nonlinear Estimation (нелинейная оценка), а затем опцию Log-Linear analysis of Frequency Tables (логлинейный анализ) – «ОК».
В открывшемся окне необходимо указать форму задания исходных данных input file Raw Data, и выбрать переменные из списка, щелкнув кнопкой Variables: в нашем примере отмечаем все признаки (факторы). Нажмите ОК. В открывшемся окошке Log-Linear model specification вы увидите, что фактор курения имеет код 1, потребление алкоголя - 2, потребление соли - 3, наследственный фактор - 4, наличие гипертонии (АГ) – 5.
Нажмите на кнопку Tests of Marginal and Partial Association (проверка общих и частных взаимосвязей), появятся две таблицы. Первая из них «Results of Fitting all K-Factor Interactions», показывает результаты проверки нулевой гипотезы о независимости числа случаев от факторов и их сочетания. Проверка осуществляется по критерию максимального правдоподобия и по критерию хи-квадрат Пирсона.
Results of Fitting all K-Factor Interactions These are simultaneous tests that all K-Factor Interactions are simultaneously Zero.
|
|||||
|
Degrs.of Freedom (число ст.св.) |
Max.Lik.Chi-squ.(критерий макс. правдоподобия) |
Probab.p (р-уровень) |
Pearson Chi-squ (хи-квадрат Пирсона) |
Probab.p (р-уровень) |
K-Factor |
|||||
1 |
5 |
704,4 |
0,000 |
1548 |
0,000 |
2 |
10 |
206,2 |
0,000 |
237 |
0,000 |
3 |
10 |
6,7 |
0,754 |
6 |
0,798 |
4 |
5 |
4,3 |
0,511 |
4 |
0,527 |
5 |
1 |
0,9 |
0,342 |
1 |
0,344 |
При К=1 и 2 р<0,05, т.е. влияние самих факторов и их попарных сочетаний статистически значимо, а сочетания по 3, 4 и 5 факторов – незначимо.
Во второй таблице «Tests of Marginal and Partial Association» представлены данные о связи факторов и их сочетаний с ожидаемыми частотами наблюдений (рассчитанными по логлинейной модели). Из нее видно, что статистически значимыми являются 9 эффектов (р<0,05 по критерию максимального правдоподобия и по критерию хи-квадрат Пирсона).
tests of Marginal and Partial Association
|
|||||
Effect |
Degrs.of Freedom (число ст.св.) |
Prt.Ass. Chi-sqr. (частные взаимосв., хи-квадрат) |
Prt.Ass. P (частные взаимосв., р-уровень) |
Mrg.Ass. Chi-sqr. (общие взаимосв., хи-квадрат) |
Mrg.Ass. P (общие взаимосв., р-уровень) |
1 |
1 |
209,8 |
0,000 |
209,8 |
0,000 |
2 |
1 |
141,4 |
0,000 |
141,4 |
0,000 |
3 |
1 |
178,2 |
0,000 |
178,2 |
0,000 |
4 |
1 |
74,3 |
0,000 |
74,3 |
0,000 |
5 |
1 |
100,7 |
0,000 |
100,7 |
0,000 |
12 |
1 |
69,5 |
0,000 |
69,5 |
0,000 |
13 |
1 |
1,3 |
0,257 |
0,3 |
0,576 |
14 |
1 |
0,0 |
0,874 |
0,8 |
0,383 |
15 |
1 |
0,2 |
0,631 |
0,0 |
0,825 |
23 |
1 |
2,8 |
0,092 |
1,5 |
0,221 |
24 |
1 |
10,6 |
0,001 |
10,9 |
0,001 |
25 |
1 |
0,3 |
0,585 |
0,3 |
0,567 |
34 |
1 |
0,3 |
0,593 |
3,2 |
0,076 |
35 |
1 |
8,5 |
0,004 |
11,7 |
0,001 |
45 |
1 |
106,5 |
0,000 |
109,6 |
0,000 |
123 |
1 |
0,9 |
0,346 |
1,3 |
0,263 |
124 |
1 |
0,1 |
0,758 |
0,3 |
0,577 |
125 |
1 |
1,6 |
0,201 |
2,3 |
0,128 |
134 |
1 |
0,0 |
0,880 |
0,0 |
0,899 |
135 |
1 |
0,6 |
0,440 |
0,8 |
0,384 |
145 |
1 |
0,7 |
0,396 |
0,2 |
0,653 |
234 |
1 |
1,0 |
0,322 |
1,1 |
0,289 |
235 |
1 |
0,0 |
0,873 |
0,3 |
0,615 |
245 |
1 |
0,1 |
0,702 |
0,0 |
0,840 |
345 |
1 |
0,9 |
0,341 |
0,7 |
0,392 |
1234 |
1 |
0,6 |
0,449 |
0,6 |
0,457 |
1235 |
1 |
0,1 |
0,750 |
0,9 |
0,345 |
1245 |
1 |
0,2 |
0,665 |
0,4 |
0,550 |
1345 |
1 |
2,7 |
0,098 |
2,7 |
0,099 |
2345 |
1 |
0,0 |
0,978 |
0,1 |
0,722 |
Так как нас интересует фактор наличия артериальной гипертонии (код 5) и связь его с другими изучаемыми факторами из данной таблицы выберем статистически значимые взаимодействия – это 3-5 и 4-5.
О
степени влияния того или иного фактора
судят по отношению
данного фактора к сумме
всех факторов (в%).
Effect |
Degrs.of Freedom |
Prt.Ass. Chi-sqr. |
Prt.Ass. p |
% |
5 |
1 |
100,7 |
0,000 |
47 |
35 |
1 |
8,5 |
0,004 |
4 |
45 |
1 |
106,5 |
0,000 |
49 |
|
|
Σ=215,7 |
|
|
Т.е. на 49% развитие артериальной гипертензии зависит от наследственных факторов, на 4% - от излишнего потребления соли и на 47% от других факторов, которые не рассматриваются в данном исследовании.
Вернитесь в окошко Log-Linear model specification и нажмите ОК. Появятся результаты автоматического поиска оптимальной модели для ожидаемых частот наблюдения.
Table to be analyzed: (1) (2) (3) (4) (5) Курение Потр.Алк Потр. со Наследст АГ 2 x 2 x 2 x 2 x 2
Minimum cell frequency: 1, Maximum: 188, Sum: 607,
Model to be tested: 21,53,42,54
Delta: ,5000 ; Maximum iterations: 50 ; Conv. criterion: ,0100 Convergence reached after 2 iterations df p Maximum Likelihood Chi-square: 16,269 22 ,80231 Pearson Chi-square: 15,922 22 ,81976
|
Оптимальной оказалась модель, включающая взаимодействия 2-1, 5-3, 4-2, 5-4. Значимость модели проверяется по критериям максимального правдоподобия и по критерию хи-квадрат Пирсона. Нулевая гипотеза заключается в равенстве наблюдаемых и рассчитанных по модели ожидаемых частот. Т.к. р=0,8 (т.е.>0.05) нулевая гипотеза принимается и модель считается адекватной.
Более содержательный разбор наблюдавшихся частот можно провести, рассматривая таблицы 2×2 для попарного сочетания уровней факторов. Для этого нажмите кнопку Observed table (наблюдаемые частоты) и в появившемся окошке выберем, например, АГ и наследственный фактор. Появится 8 таблиц, первая из них
Obs. Freq. (+delta): АГ by Наследств (АГ) w/in vars: Курение:1 (нет) Потр.Алког.:1 (нет) Потр. сол.пищи:1 (нет)
|
|||
|
Наследств фактор 1 (нет) |
Наследств фактор 2 (есть) |
Total |
АГ |
|||
1 (есть) |
32,5 |
45,5 |
78 |
2 (нет) |
188,5 |
35,5 |
224 |
Total |
221,0 |
81,0 |
302 |
Среди тех кто не курит, не пьет, не потребляет излишне соль гипертоники встречаются в 224/78=2,9 раза реже, чем здоровые. Причем среди гипертоников лиц с наследственным фактором в 45,5/35,5=1,3 больше, чем лиц без него.
Такой же анализ можно провести относительно других факторов и их сочетания.
Для задач прогнозирования используется опция Fitted table (ожидаемые частоты). Аналогично получаем таблицу
Fitted Freq.: Потр. сол.пищи by АГ w/in vars: (Логит-АГ) Курение:1 Потр.Алког.:1 Наследств (АГ):1
|
|||
|
Потр. сол.пищи 1 (нет) |
Потр. сол.пищи 2 (да) |
Total |
АГ |
|||
1 (есть) |
22,1 |
45,0 |
67,1 |
2 (нет) |
38,8 |
9,7 |
48,5 |
Total |
60,9 |
54,7 |
115,6 |
Если человек не курит, не потребляет алкоголь, не имеет наследственную отягощенность и не потребляет много соли, то вероятность АГ составляет 22,1/60,9*100%=36%, а его отсутствия - 64%.