- •Основы работы с базами данных в программе
- •Открытие существующей базы данных.
- •2. Просмотр списка данных.
- •3. Использование окна формы данных.
- •4. Поиск записей.
- •5. Сортировка списка.
- •6. Применение функции «автофильтр».
- •7. Вычисление промежуточных итогов.
- •8. Получение сводных таблиц.
- •9. Критерий согласия хи-квадрат и критерий сопряженности (ассоциации q).
- •Вероятностная диагностика по методу байеса.
9. Критерий согласия хи-квадрат и критерий сопряженности (ассоциации q).
Рассматривая полученную таблицу, можно заметить, что глаукома относительно чаще встречалась среди мужчин, чем среди женщин. Другие заболевания - наоборот. На основании этих данных можно выдвинуть гипотезу о связи частоты встречаемости отдельных заболеваний и пола данных больных. Эта гипотеза может быть проверена с помощью специальных статистических критериев. В данном случае, можно применить критерий согласия хи-квадрат.
Для вычисления значения критерия хи-квадрат в четырехпольной таблице, которая получилась в результате проведенных преобразований (В окне Вычисление поля сводной таблицы должна быть установлена операция «Количество значений по полю возраст», т.к. критерий хи-квадрат вычисляется только на абсолютных данных!):
В ячейку А10 введите текст: Критерий хи-квадрат. В ячейку В10 формулу:
==((B5*C6-B6*C5)^2*D7)/(B7*C7*D6*D5)
В ячейку А11 введите текст: Значимость критерия хи квадрат, а в ячейку В11 формулу:
==ХИ2РАСП(B10;1)
Итак, если значимость критерия больше 0,05, то необходимо принять нулевую гипотезу: все различия в распределении частот диагнозов статистически несущественны и могут быть объяснены действием случайных факторов. Если значимость критерия меньше 0,05 , то нулевая гипотеза отвергается и следует принять утверждение, что распределение заболеваний зависит от пола.
Самостоятельно попробуйте проверить это утверждение для больных, лечившихся у разных врачей.
Примечание: На практике вычисление критерия хи-квадрат возможно только в случаях, когда число наблюдений в отдельно взятых клетках таблицы не менее 5, а общее число наблюдений в таблице приближается к 100.
С помощью специальных статистических критериев, опираясь на табличные данные, можно установить не только факт наличия или отсутствия взаимосвязи (сопряженности) отдельных статистических признаков (факторов), но и оценить силу этой связи. Для этого в четырехпольной таблице можно использовать коэффициент ассоциации Юла Q. Для его расчета в ячейке А12 наберите формулу:
=(B5*C6-B6*C5)/(B5*C6+B6*C5)
Оценивается коэффициент ассоциации Юла Q в следующих пределах: от 0 до 0,5 связь слабая. Более 0,5 – связь сильная. В данном примере связь очень слабая, к тому же статистически не достоверная.
Вероятностная диагностика по методу байеса.
Накапливая информацию о больных в базах данных, в частности фиксируя в них наблюдаемые симптомы заболеваний и верифицированные диагнозы, затем на основе сводных таблиц можно получить так называемые диагностические таблицы, содержащие условные вероятности появления тех или иных симптомов у больных с разными видами заболеваний. Упрощенный пример такой диагностической таблицы и реализованной на ее основе диагностической процедуры по вероятностной стратегии Байеса содержится в файле с именем BAJES , хранящемся в папке "Мои документы".
Откройте этот файл в программе Microsoft Excel и переключитесь на лист с названием «Диагностическая таблица».
В таблице рассматривается 4 диагноза и 20 бинарных симптомов (то есть симптомы могут иметь только два значения -да или нет). Основная часть таблицы содержит условные вероятности симптомов, показывающие как часто встречается тот или иной при симптом при каждом из заболеваний. Например, боли в грудной клетке наблюдались в 90% случаев инфаркта миокарда и лишь в 5% случаев перитонита.
Кроме того, в таблице имеются априорные вероятности симптомов, показывающие как часто встречаются симптомы в общем, во всей совокупности больных со всеми рассматриваемыми диагнозами. Априорные вероятности диагнозов приняты одинаковыми.
Чем выше условная вероятность симптома по сравнению с его априорной вероятностью, тем больше информации дает данный симптом о соответствующем диагнозе.
Например, рассчитайте, какое количество информации дает симптом Угнетение рефлексов относительно диагноза Тромбоэмболия легочной артерии. Количество информации (в битах) рассчитывается как двоичный алгоритм отношения условной и априорной вероятности). Поэтому введите в клетку H17 формулу: =LOG(E17/F17;2) Полученная величина информативности достаточно высока, она показывает, что условная вероятность почти в 4 раза превышает априорную вероятность, то есть, что данный симптом встречается при данном заболевании почти в 4 раза чаще, чем в среднем у всех больных.
Рассчитайте самостоятельно в клетке H14 информативность симптома «Общая заторможенность» относительно диагноза «Перитонит», зафиксируйте результат в рабочей тетради.
Для выполнения диагностической процедуры переключитесь на лист Пациент.
Пользуясь диагностической таблицей, промоделируйте по очереди все четыре диагноза, как бы имея перед собой больного с одним из указанных заболеваний. Для этого в клетки В4…В23 вводите цифру 1, если наличие соответствующего симптома весьма вероятно при данном заболевании, или цифру 0 - если проявление симптома при данном заболевании маловероятно. Например, представьте, что у больного предполагается инфаркт миокарда. Обратите внимание, как изменяются вероятности диагнозов (в ячейках C3…F3) по мере формирования набора симптомов.
Подберите для каждого из 4 диагнозов набор симптомов, дающий максимальную вероятность диагноза по сравнению с остальными. Зафиксируйте эти характерные симптомокомплексы и соответствующие вероятности диагнозов в рабочих тетрадях.
