
- •Задачи биостатистики
- •Основные понятия и определения биостатистики
- •Классификация признаков
- •Анализ медико-биологических данных на основе их графического представления
- •Анализ медико-биологических данных на основе числовых статистических характеристик
- •Свойства нормального распределения
- •Теория проверки статистических гипотез
- •I алгоритм
- •II алгоритм
- •Проверка гипотезы о нормальности распределения случайной величины
- •Параметрические критерии проверки статистических гипотез
- •Анализ относительных величин
- •Доверительный интервал
- •Доверительный интервал для разности генеральных средних двух независимых групп
- •Доверительный интервал для разности генеральных средних двух зависимых групп
- •Доверительный интервал относительных показателей
- •Непараметрические критерии проверки статистических гипотез
- •Анализ качественных признаков. Таблицы сопряженности.
- •Оценка факторов риска
- •Оценка чувствительности и специфичности диагностических тестов
- •Оценка прогностического значения диагностических тестов
- •Однофакторный дисперсионный анализ
- •Линейная корреляция
- •Коэффициент корреляции рангов к. Спирмена
- •Линейная регрессия
- •Анализ выживаемости
- •Методы прогнозирования
- •Методы простой экстраполяции
- •Метод среднего абсолютного прироста
- •Метод среднего темпа роста
- •Прогнозирование на основе математических моделей
- •Оценка факторов риска и прогнозирование на основе логистической регрессии
- •Байесовский подход к диагностике и прогнозированию. Последовательный анализ Вальда
- •Определение размера выборки
- •Расчет объема выборки при эпидемиологических исследованиях
- •При неизвестной численности генеральной совокупности для количественных признаков
- •Объем генеральной совокупности известен
- •При неизвестной численности генеральной совокупности для количественных признаков
- •Представление статистических данных в научных публикациях
- •Приложение 1. Критические значения коэффициента асимметрии As
- •Приложение 2. Критические точки двустороннего t-критерия Стьюдента
- •Приложение 3. Критические значения u-критерия Манна-Уитни
- •Приложение 4. Критические значения парного т-критерия Уилкоксона
- •Приложение 5. Критические значения χ2
- •Приложение 6. Критические значения коэффициента корреляции рангов Спирмена
- •Приложение 7. Критические значения f-критерия Фишера
Линейная регрессия
Проблема. В настоящий момент имеет место всё более широкое использование бронхологических методик в пульмонологии, в т.ч. и в группе соматически тяжёлых больных с выраженной бронхообструкцией и тяжёлой дыхательной недостаточностью. Небольшое количество работ посвящено оценке изменений сатурации кислорода SaO2 (насыщение крови кислородом, выраженное в %) под влиянием проведения фибробронхоскопии, причём это касается, прежде всего, постбронхоскопического периода. Во всех случаях отмечалось снижение резервов оксигенации после бронхологического вмешательства. Вместе с тем изучению динамики SaO2 непосредственно во время проведения бронхологического вмешательства почти не уделяется внимания. В ходе проведённых исследований выявлено, что зависимость SaО2 (y) от времени проведения ФБС (τ) определяется в виде суммы двух функций: y(τ) = y1(τ) + y2(τ). Функция y1(τ) отражает линейную составляющую и функция y2(τ) - периодическую составляющую. Предметом настоящего рассмотрения стала линейная составляющая функциональной зависимости SaО2 от времени проведения ФБС. |
Вернемся к графику, который показывает зависимость между ростом и весом (рисунок 24). Мы уже оговорили, что между этими величинами существует связь и эта связь линейная. А теперь попытаемся вывести некоторую функцию (математическое правило), которая позволяла бы определять, хотя бы приблизительно, изменение веса при изменении роста.
Регрессия – это функция, связывающая зависимую величину y с независимой величиной x. Она показывает, как в среднем изменяется y при изменениях x. Из математики нам известны различные функции: линейная, квадратичная, экспоненциальная, тригонометрические и т.д. Простейшей функцией является линейная, график этой функции изображен на рисунке 26. Уравнение линейной регрессии имеет вид
где
–
зависимая переменная, x
– независимая переменная, b0
и b1
– постоянные
коэффициенты
Основная задача регрессионного анализа найти постоянные коэффициенты b0 и b1 и оценить их статистическую значимость. Дело в том, что через точки на диаграмме рассеяния можно провести сколь угодно много прямых линий (вывести множество функций), все они будут отличаться друг от друга коэффициентами b0 и b1. Необходимо выбрать из них такую, которая наилучшим образом описывает связь между y и x. Одним из способов сделать это - применить метод наименьших квадратов (МНК).
Как уже отмечалось, уравнение регрессии показывает, как в среднем меняется y, т.е. конкретные его значения, полученные в опыте, и рассчитанные по уравнению могут не совпадать – есть некоторая ошибка. Из рисунка 27 видно, что для одних значений y эта ошибка меньше, для других – больше.
Рисунок 27
Суть МНК в том, чтобы вывести такое уравнение регрессии, для которого сумма квадратов всех ошибок была бы наименьшей. После некоторых математических выкладок, которые мы здесь приводить не будем, можно получить, что такое уравнение имеет следующие коэффициенты b1и b0.
Уравнение регрессии фактически является математической моделью взаимосвязи двух случайных величин. Качество этой модели, т.е. насколько хорошо она отражает эту связь, можно оценить с помощью коэффициента детерминации R2, который равен квадрату коэффициента корреляции между величинами (×100 %). Он показывает, сколько процентов исходных (выборочных) данных вписывается в полученную модель, или какой процент изменчивости y объясняется влиянием x.
При проведении фибробронхоскопии были получены следующие данные по динамике SaO2
Для получения уравнения регрессии проведены расчеты
Окончательно уравнение регрессии имеет вид
SaО2 = -0,05τ+87,5
Интерпретация: линейная компонента зависимости SaO2 от времени проведения ФБС (τ) отражает, по нашим представлениям, как бы результирующий вектор кислородоустойчивости организма. При отсутствии кислородной подачи во время проведения ФБС непосредственный гипоксический эффект, сопровождающий введение в трахеобронхиальное дерево фибробронхоскопа (крупного инородного тела, частично обтурирующего просвет), явно превалирует над более отдалённым положительным эффектом эвакуации бронхиального секрета. Поэтому линейная компонента здесь будет иметь чётко убывающий характер. График функции
Поскольку уравнение регрессии находится по выборочным данным, обязательным является процедура проверки на статистическую значимость коэффициентов b1 и b0 и самой модели, которая осуществляется с использованием критериев Стъюдента и Фишера. В таблицах приведено решение этой задачи в ППП STATISTICA
Из нее видно, что между анализируемыми величинами существует сильная прямая связь (r= 0,93), коэффициенты уравнения регрессии статистически значимы (по критерию Стъюдента), само уравнение регрессии также статистически значимо (по критерию Фишера), оно объясняет до 87% вариации SaO2 (R2=0,87). |
Уравнение регрессии, как правило, используются для прогноза, т.е. по нему, зная величину x, можно вычислить возможное значение y. При этом вы должны быть уверены, что общая тенденция развития явления сохранится за пределами наблюдений. В противном случае прогноз можно осуществлять только в пределах наблюдаемых значений x.
Предположим мы прогнозируем некоторое значение у при заданном х=х0. Тогда доверительный интервал для прогноза составляет
где
– среднеквадратичное отклонение у
вследствие ошибок модели, t-критерий
Стъюдента для заданного α
и f=n-2
Решим задачу прогноза сатурации кислорода SaO2 через 200 сек после начала ФБС. SaО2 = -0,05τ+87,5=-0,05×200+87,5=77,5 % Для расчета доверительного интервала дополним таблицу
Тогда
Таким образом, на 200 сек. фибробронхоскопии сатурация кислорода составит от 76 до 79%. |
Если независимых переменных много x1, x2, x3, x4, т.д., то возможно построение уравнение множественной линейной регрессии
Например, САД зависит от возраста, ИМТ, рациона питания и т.д. (см. таблицу).
r= 0,6 R2=0 ,36 F(4,433)=60,3 p=0,000 |
||||
|
Коэффициенты bi |
Ст. ошибка коэффициента |
t -Стъюдента |
p-уровень |
признак |
|
|
||
свободн. член |
-16,5 |
11,12 |
-1,48 |
0,139 |
ЛПВП |
2,5 |
2,20 |
1,16 |
0,247 |
Возр |
0,3 |
0,12 |
2,47 |
0,014 |
Холест. |
3,2 |
0,69 |
4,57 |
0,000 |
ИМТ |
5,5 |
0,39 |
14,18 |
0,000 |
Уравнение регрессии имеет вид
В данном примере коэффициент множественной корреляции равен 0,6, т.е. модель объясняет до 36% вариаций систолического артериального давления. Она является статистически значимой (т.е. не случайной). Если судить по p-уровню, то САД зависит от возраста, содержания холестерина в крови и от индекса массы тела. Связь с уровнем липидов не подтверждается. В таблице ниже приведены частные коэффициенты корреляции отдельных признаков с САД, а также оценка их статистической значимости. Самая сильная связь наблюдается с индексом массы тела (r= 0,563), с возрастом и уровнем холестерина связь слабая, а с ЛПВП - статистически незначимая.
признак |
Частная корреляция |
t -Стъюдента |
p-уровень |
ЛПВП |
0,056 |
1,16 |
0,247 |
Возр |
0,118 |
2,47 |
0,014 |
Холест |
0,214 |
4,57 |
0,000 |
ИМТ |
0,563 |
14,18 |
0,000 |
Перед использованием множественной регрессии проверьте соблюдение некоторых условий:
зависимая величина является количественной непрерывной, а независимые - могут быть количественными или ординальными
независимые величины не должны сильно коррелировать между собой, в этом случае нужно отобрать один наиболее значимый признак
число наблюдений должно примерно в 10 раз превосходить число анализируемых признаков
Если взаимосвязь между величинами имеет более сложный характер, чем линейный, то возможны нелинейные модели, например такого вида
Для анализа таких моделей также существуют статистические методы, однако для их освоения требуются специальные математические знания. Описание этих методов можно найти в специальной литературе.