Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Медицинская информатика [Н.Ф.Рожков][2002].doc
Скачиваний:
100
Добавлен:
15.06.2014
Размер:
487.94 Кб
Скачать

Рожков Н. Ф.

Медицинская информатика

Омск 2002г.

Элементарная статистическая обработка данных.

Ниже будет рассмотрен еще один аспект работы с пакетом Ехсеl, а именно использование пакета для анализа данных. В медицинской практике и, особенно, в медицинских исследованиях часто приходится сталкиваться с необходимостью обработки и анализа данных.

Пакет Ехсеlоснащен средствами статистической обработки данных. И, хотя Ехсеlсущественно уступает специализированным пакетам обработки данных, тем не менее, в него включены основные, наиболее часто используемые статистические процедуры: средства описательной статистики, критерии различия, корреляционные методы и другие, позволяющие проводить необходимый статистический анализ медицинских данных.

При рассмотрении применения методов обработки медицинских данных, также ограничимся только простейшими и наиболее часто используемыми методами, реализованными в Мастере функций и Пакете анализа Ехсеl

1. Определение основных статистических характеристик

Демонстрационный пример. Рассмотрим две группы больных тахикардией, одна из которых (контрольная) получала традиционное лечение, другая (исследуемая) получала лечение по новой методике. Ниже приведены частоты сердечных сокращений (ЧСС) для каждой группы (ударов в минуту).

Контроль Исследование

  1. 135

  1. 126

  1. 115

  1. 140

  1. 121

  1. 112

151 130

Требуется провести статистический анализ этих данных.

Решение.

Для проведения статистического анализа, прежде всего, необходимо ввести данные в рабочую таблицу. Открываем новую рабочую таблицу. Вводим в ячейку А1 слово «Контроль». Затем в ячейки А2:А8 — соответствующие значения ЧСС. Аналогично в ячейки В1:В8 вводим значения ЧСС исследуемой группы.

Отметим, что рассматриваемые группы больных со статистической точки зрения являются выборками.

Выборка — группа элементов, выбранная для исследования из всей совокупности элементов. Задача выборочного метода состоит в том, чтобы сделать правильные выводы относительно всего собрания объектов, их совокупности. Например, врач делает заключения о составе крови пациента на основе анализа ее нескольких капель.

При статистическом анализе, прежде всего, необходимо определить характеристики выборки, и важнейшей является среднее значение.

Среднее значение (Хс, М)— центр выборки, вокруг которого группируются элементы выборки.

Для определения среднего значения в контрольной группе необходимо установить табличный курсор в свободную ячейку (А9). На панели инструментов нажать кнопку Вставка функции. В появившемся диалоговом окнеМастер функцийвыбрать категорию Статистические и функцию СРЗНАЧ, после чего нажать кнопку ОК. Появившееся диа окно СРЗНАЧ за серое поле мышью отодвинуть вправо на 1—2 см от данных (при нажатой левой кнопке). Указателем мыши ввести диапазон данных контрольной группы для определения среднего значения (А2 : А8). Нажать кнопку ОК. В ячейке А9 появится среднее значение выборки — 145,714.

В качестве упражнения требуется в ячейке В9 определить среднее значение ЧСС для исследуемой выборки.

Упражнение.

Табличный курсор установить в ячейку В9. На панели инструментов нажать кнопку Вставка функции (ƒх). В появившемся диалоговом окне выбрать категорию Статистические и функцию СРЗНАЧ, после чего нажать кнопку ОК.

Появившееся диалоговое окно СРЗНАЧ за серое поле Мышью отодвинуть вправо на 1—2 см от данных (при нажатой левой кнопке). Указателем мыши ввести диапазон данных для определения среднего значения (В2:В8). Нажать кнопку ОК. В ячейке В9 появится среднее значение выборки — 125,571. Следующей по важности характеристикой выборки является мера разброса элементов выборки от среднего значения. Такой мерой является среднее квадратичное или стандартное отклонение.

Стандартное отклонение (среднее квадратическое отклонение) — параметр, характеризующий степень разброса элементов выборки относительно среднего значения. Чем больше среднее квадратическое отклонение, тем дальше отклоняются значения элементов выборки от среднего значения. Стандартное отклонение обычно обозначается буквой σ (сигма).

Для определения стандартного отклонения в контрольной группе необходимо установить табличный курсор в свободную ячейку (А10). На панели инструментов нажать кнопку Вставка функции.

В появившемся диалоговом окне Мастер функций выбрать категорию Статистические и функцию СТАНДОТКЛОн, после чего нажать кнопку ОК. Появившееся диалоговое окно СТАНДотклон за серое поле мышью отодвинуть вправо на 1—2 см от данных (при нажатой левой кнопке). Указателем мыши ввести диапазон данных контрольной группы для определения стандартного отклонения (А2:А8). Нажать кнопку ОК. В ячейке А10 появится стандартное отклонение выборки — 12, 29В. Существует правило, согласно которому при отсутствии артефактов данные должны лежать в диапазоне М (в примере 145,7+/-36,9)

В качестве упражнения требуется в ячейке В10 определить стандартное отклонение ЧСС для исследуемой выборки.

Упражнение.

Табличный курсор установить в ячейку В1О. На панели инструментов нажать кнопку Вставка функции. В появившемся диалоговом окне выбрать категорию Статистические и функцию СТАНДОТКЛОН, после чего нажать кнопку ОК.

Появившееся диалоговое окно СТАНДОТКЛОН за серое поле мышью отодвинуть вправо на 1 —2 см от данных (при нажатой левой кнопке). Указателем мыши ввести диапазон данных для определения стандартного отклонения (В2:В8). Нажать кнопку ОК. В ячейке В10 появится стандартное отклонение выборки — 10,277

2. Выявление достоверности различий

Следующей задачей статистического анализа в рассматриваемом примере является сравнение данных исследуемой группы с контрольной. Сопоставляя средние значения ЧСС контрольной группы больных (145,7) и исследуемой (125,6), можно видеть, что они отличаются. Можно ли по этим данным сделать вывод о большей эффективности нового препарата?’

для решения задач такого типа используются так называемые критерии различия в частности, t—критерий Стьюдента.

Критерий Стьюдента (t) — наиболее часто используется для проверки гипотезы: « Средние двух выборок относятся к’ одной и той же совокупности». Критерий позволяет найти вероятность того, что оба средних относятся к одной и той же совокупности. Если эта вероятность р ниже уровня значимости (р < 0,05), то принято считать, что выборки относятся к двум разным совокупностям.

Уровень значимости — максимальное значение вероятности появления события, при котором событие считается практически не возможным. В медицине наибольшее распространение получил уровень значимости равный 0,05. Поэтому если вероятность, с которой интересующее событие может произойти случайным образом р 0,05 , то принято считать это событие маловероятным, и если оно все же произошло, то это не было случайным.

Для оценки достоверности отличий по критерию Стьюдента принимается нулевая гипотеза, что средние выборок равны между собой. Затем вычисляется значение вероятности того, что изучаемые события (ЧСС больных в обеих выборках) произошли случайным образом. Для этого табличный курсор устанавливается в свободную ячейку (А11). На панели инструментов необходимо нажать кнопку Вставка функции (ƒх) появившемся диалоговом окне Мастер функций выбрать категорию Статистические и функцию ТТЕСТ, после чего нажать кнопку ОК. Появившееся диалоговое окно ТТЕСТ за серое поле мышью отодвинуть вправо на 1—2 см от данных (при нажатой левой кнопке). Указателем мыши ввести диапазон данных контрольной группы в поле Массив 1 (А2 :А8). В поле Массив 2 ввести диапазон данных исследуемой группы (В2:В8). В поле Хвосты всегда вводится с клавиатуры цифра «2» (без кавычек), а в поле Тип с клавиатуры введем цифру «3» нажать кнопку ОК. В ячейке А11 появится значение вероятности — 0,006295.

Поскольку величина вероятности случайного появления анализируемых выборок (0,006295) меньше уровня значимости (р=О,О5), то нулевая гипотеза отвергается. Следовательно, различия между выборками не случайные и средние выборок считаются достоверно отличающимися друг от друга. Поэтому на основании применения критерия Стьюдента можно сделать вывод о большей эффективности нового препарата (р<0,05).

При использовании t-критерия можно выделить два случая. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух независимых, несвязанных выборок (так называемый двухвыборочныйt-критерий). В случае есть контрольная группа и опытная группа, состоящие, например, из разных пациентов, количество которых в группах может быть различно. При заполнении диалогового окна ТТЕСТ при этом указывается Тип 3.

Во втором же случае, когда одна и та же группа объектов порождает числовой материал для проверки гипотез о средних, используется так называемый парный t-критерий. Выборки при этом называют зависимыми, связанными (при заполнении диалогового окна ТТЕСТ указывается Тип 1). Например, измеряется содержание лейкоцитов у здоровых животных, а затем у тех же самых жйвотных после облучения определенной дозой излучения.

В качестве упражнения рассмотрим такой пример. Имеется температура (С) двух групп больных:

37,3 37,1

37,3 37,2

37,4 37,3

37,5 37,4

37,6 37,5

Необходимо определить достоверность различия между группами при двух вариантах постановки задачи: 1) группы состоят из различных больных (тип 3); 2) группы состоят из одних и тех же больных, но первая — до приема жаропонижающего, а вторая — после (тип 1).

Критерий согласия х.² Бывают ситуации, когда необходимо сравнить две относительные или выраженные в процентах величины. Например, в случае проверки эффективности действия вакцины. Пусть во время эпидемии в контрольной группе заболело 60 человек, а в вакцинированной 40 (обе группы включали по 100 человек). Для проверки достоверности различий здесь критерий Стьюдента применить не удастся. В таких задачах обычно используют критерий х² (хи-квадрат).

Здесь, как и в случае с критерием Стьюдента, принимается нулевая гипотеза, что средние выборок равны между собой. Кроме того, определяется ожидаемое значение результата. Обычно это среднее значение между выборками. В примере (60+40)72=50, т. е. мы ожидали, что разницы между группами нет и в обоих случаях должно было заболеть по 50 человек. Затем вычисляется значение вероятности того, что изучаемые события (заболевания в обеих выборках) произошли случайным образом. Для этого вводим данные в рабочую таблицу: 60 — в ячейку Е1, 40 — в F1, 50 — в Е2,F2. Табличный курсор устанавливается в свободную ячейку (ЕЗ). На панели инструментов необходимо нажать кнопку вставка функции (ƒх ). В появившемся диалоговом окне Мастер функций выбрать категорию Статистические и функцию ХИ? ТЕСТ, после чего нажать кнопку ОК. Появившееся диалоговое окно ХИ2ТЕСТ за серое поле мышью отодвинуть вправо на 1—2 см от данных (при нажатой левой кнопке). Указателем мыши ввести диапазон данных наблюдавшейся заболеваемости в поле Фактический интервал (Е1 :F1). В поле Ожидаемый интервал ввести диапазон данных предполагаемой заболеваемости (Е2:F2). Нажать кнопку ОК. В ячейке ЕЗ появится значение вероятности — 0,0455.

Поскольку величина вероятности случайного появления анализируемых выборок (0,0455) меньше уровня значимости (р=О,О5), то нулевая гипотеза отвергается. Следовательно, различия между выборками не могут быть случайными и выборки считаются достоверно отличающимися друг от друга. Поэтому на основании применения критерия хи-квадрат можно сделать вывод о том, что в двух группах пациентов выявлены достоверные отличия по заболеваемости (р<О 05) что явилось результатом вакцинации.

3. Выявление взаимосвязей

Важной задачей статистического анализа данных является также выявление взаимосвязей между выборками. Для оценки степени взаимосвязи служит коэффициент корреляции.

Коэффициент корреляции (R,r) — параметр, характеризующий степень линейной взаимосвязи между двумя выборками. Коэффициент корреляции изменяется от -1 (строгая обратная линейная зависимость) до 1 (строгая прямая пропорциональная зависимость). При значении О — линейной зависимости между двумя выборками нет. На практике коэффициёнт корреляции принимает некоторые промежуточные значения. для оценки степени взаимосвязи можно руководствоваться следующими эмпирическими правилами. Если коэффициент корреляции (г) по абсолютной величине (без учета знака) больше чем 0,95, то принято считать, что между параметрами существует практически линейная зависимость (прямая при положительномrи обратная при отрицательномr). Если коэффициент корреляцииrлежит в диапазоне от 0,8 до 0,95, говорят о сильной степени линейной связи между параметрами; 0,6 < г < 0,8 — говорят о наличии линейной связи между параметрами. При г < 0,4 обычно считают, что линейную взаимосвязь между параметрами выявить не удалось.

Демонстрационный пример.Имеются результаты наблюдений частоты сердечных сокращений (ударов в минуту) и частоты дыхания (вдохов в минуту) у группы больных с определенной патологией:

чсс чд

120 20

84 15

105 18

92 16

113 19

90 16

80 15

Необходимо определить имеется ли взаимосвязь между часто той сердечных сокращений и частотой дыхания при исследуемой патологии.

Решение.Для выявления степени взаимосвязи прежде всего не обходимо ввести данные в рабочую таблицу. Открываем новую рабочую таблицу. Вводим в ячейку А1 слово "ЧСС". Затем в ячейки А2:А8 — соответствующие значения ЧСС. Аналогично в ячейки В1 :В8 вводим значения ЧД исследуемой группы. Затем вычисляется значение коэффициента корреляции между выборками. Для этого табличный курсор устанавливается в свободную ячейку (Ад). На панели инструментов необходимо нажать кнопку Вставка функции (fx). В появившемся диалоговом окне Мастер функций выбрать категорию Статистические и функцию КОРРЕЛ, после чего нажать кнопку ОК. Появившееся диалоговое окно КОРРЕЛ за серое поле мышью отодвинуть вправо на 1—2 см от данных (при нажатой левой клавише). Указателем мыши ввести диапазон данных ЧСС в поле Массив 1 (А2:А8). В поле Массив 2 ввести диапазон данных ЧД (В2:В8). Нажать кнопку ОК. В ячейке А9 появится значение коэффициента корреляции — 0,995493. Значение коэффициента корреляции больше чем 0,95. Значит, можно говорить о том, что при исследуемой патологии имеется высокая степень прямой линейной взаимосвязи между частотой дыхания и частотой сокращений (г= 0,995493) у больных.

Упражнение.

Определить, имеется ли взаимосвязь между рождаемостью и смертностью

(количество на 1000 человек) в Санкт-Петербурге.

Годы Рождаемость Смертность

1991 9,3 12,5

1992 7,4 13,5

1993 6,6 17,4

1994 7,1 17,2

1995 7,0 15,9

1996 6,6 14,2

Решение.

Ввести данные в рабочую таблицу. Открываем новую рабочую таблицу. Вводим в ячейку А1 слово Рождаемость. Затем в ячейки А2:А7 — соответствующие значения рождаемости. Аналогично в ячейки В1 :В7 вводим значения смертности населения. Затем вычисляется значение коэффициента корреляции между выборками. Для этого табличный курсор устанавливается в свободную ячейку (А8). На панели инструментов необходимо нажать кнопку Вставка функции (fx). В появившемся диалоговом окне Мастер функций выбрать категорию Статистические и функцию КОРРЕЛ, после чего нажать кнопку ОК. Появившееся диалоговое окно КОРРЕЛ за серое поле мышью отодвинуть вправо на 1—2 см от данных (при нажатой левой кнопке). Указателем мыши ввести диапазон данных рождаемости в поле Массив 1 (А2:А7). В поле Массив 2 ввести Диапазон Данных смертности (В2:В7). Нажать кнопку ОК. В ячейке А8 появится значение коэффициента корреляции — -0,68456. Значение коэффициента корреляции по абсолютной величине больше чем 0,6. Значит, можно говорить о том, что между рождаемостью и смертностью населения в Санкт-Петербурге имеется некоторая обратная линейная взаимосвязь (г= -0,68456). Это позволяет предположить зависимость снижения рождаемости и увеличения смертности в Санкт-Петербурге от одних и тех же факторов.

4. Использование пакета анализа

В пакете Ехсеlпомимо Мастера функций имеется набор более мощных инструментов для анализа данных, называемый Пакет анализа, который может быть использован для решения задач обработки медицинских данных.

Установка раздела Анализ данных в пакете Ехсеl:

а) в меню Сервис выбрать команду Надстройки;

б) в появившемся списке установить флажок Пакет анализа.

Возможности пакета анализа данных. Ехсеlпозволяет проводить следующие методы анализа:

1. Однофакторный дисперсионный анализ.

2. двухфакторный дисперсионный анализ с повторениями.

З. двухфакторный дисперсионный анализ без повторений.

4. Корреляция.

5. Ковариация.

6. Описательная статистика.

7. Экспоненциальное сглаживание.

8. Двухвыборочный F-тест для дисперсий.

9. Анализ Фурье.

10. Гистограмма.

11. Скользящее среднее.

12. Генерация случайных чисел.

13. Ранг и персентиль.

14. Регрессия.

15. Выборка.

16. Парный двухвыборочный t-тест для средних.

17. двухвыборочный t-тест с одинаковыми дисперсиями.

18. Двухвыборочный t-тест с разными дисперсиями.

19. двухвыборочный z-тест для средних.

Ввод данных. Для использования пакета анализа исследуемые данные следует представить в виде таблицы, где столбцами являются соответствующие показатели. При создании таблицы Ехсеlинформация вводится в отдельные ячейки. Совокупность ячеек, содержащих анализируемые данные, называется входным диапазоном.

Последовательность обработки данных. Для использования статистического пакета анализа данных необходимо:

а) указать курсором мыши на пункт меню Сервис и щелкнуть левой кнопкой мыши;

б) в спускающемся меню выбрать команду Анализ данных (если команда Анализ данных отсутствует в меню Сервис, то необходимо установить в Ехсеlпакет анализа данных);

в) выбрать необходимую строку в появившемся списке Инструменты анализа;

г) ввести входной и выходной диапазоны и выбрать необходимые параметры.

Описательная статистика. Используется для генерации одномерного статистического отчета, содержащего информацию о центральной тенденции и изменчивости входных данных. Для выполнения процедуры необходимо:

а) команда Сервис>Анализ данных;

б) в появившемся списке инструменты анализа выбрать строку Описательная-статистика и нажать кнопку ОК;

в) в появившемся диалоговом окне указать входной диапазон, т. е. ввести ссылку на ячейки, содержащие анализируемые данные, для этого следует навести указатель мыши на левую верхнюю ячейку данных, нажать левую кнопку мыши и, не отпуская ее, протянуть указатель мыши к правой нижней ячейке, содержащей анализируемые данные, затем отпустить левую кнопку мыши.

г) указать выходной диапазон, т. е. ввести ссылку на ячейки, в которые будут выведены результаты анализа. Для этого следует поставить переключатель в положение Выходной диапазон (навести указатель мыши и щелкнуть левой клавишей), далее навести указатель мыши в поле ввода Выходной диапазон и щелкнуть левой кнопкой мыши, затем указатель мыши наводится на левую верхнюю ячейку выходного диапазона и делается щелчок левой кнопкой мыши.

д) в разделе Группировка переключатель устанавливается в положение по столбцам;

е) устанавливается флажок в поле Итоговая статистика.

ж) нажимается кнопка ОК (указатель мыши наводится на кнопку ОК и делается щелчок левой кнопкой).

В результате анализа в указанном выходном диапазоне для каждого столбца данных выводятся следующие статистические характеристики: среднее, стандартная ошибка (среднего), медиана, мода, стандартное отклонение, дисперсия выборки, эксцесс, асимметричность, интервал, минимум, максимум, сумма, счет, наибольшее, наименьшее, уровень надежности.

Демонстрационный пример 1. В ходе исследования возрастных изменений слуховой функции у детей использовался тест определения эмоциональной составляющей речи в условиях маскировки шумом. Были получены результаты:

Отношение Без шума -6 дБ -12дБ

сигнал / шум

78,6 61,9 45,2

95,2 97,6 97,6

Процент 83,3 61,9 80,9

правильных 85,7 73,8 62,4

ответов 80,4 75,6 70,6

90,2 68,8 69,2

Необходимо определить основные статистические характеристики в группах результатов.

Решение. Для использования инструментов анализа исследуемые данные следует представить в виде таблицы, где столбцами являются соответствующие показатели. Так, значения процентов правильных ответов при подаче сигнала без шума вводим в диапазон А1:А6, с шумом бдБ — в диапазон В1:В6 и т.д. В результате получим таблицу:

А В С

1 78,6 61,9 45,2

2 95,2 97,6 97,6

3 83,3 61,9 80,9

4 85,7 73,8 62,4

5 80,4 75,6 70,6

6 90,2 68,8 69,2

Далее необходимо провести элементарную статистическую обработку. Для этого, указав курсором мыши на пункт меню Сервис, выбираем команду Анализ данных. Затем в появившемся списке Инструменты анализа выбираем строку Описательная статистика. В появившемся диалоговом окне указываем входной диапазон- А1 :С6. Указываем выходной диапазон — ячейку А8. В разделе Группировка переключатель устанавливается в положение по столбцам. Устанавливается флажок в поле Итоговая статистика, и нажимаем кнопку ОК.

В результате анализа в указанном выходном диапазоне для каждого столбца данных получим:

Здесь наиболее важными являются показатели Среднее, Стандартная ошибка (среднего) и Стандартное отклонение.

Проверка гипотез. Анализ двух выборок (t-тест Стьюдента). Как указывалось выше, в общем случае необходимо воспользоваться процедурой двухвыборочныйt-тест с разными дисперсиями, так как процедуры парный двухвыборочныйt-тест для средних и Двухвыборочныйt-тест с одинаковыми дисперсиями относятся к частным, специальным случаям (более подробно см. раздел Компьютерный анализ Медицинских данных).

Для выполнения процедуры анализа необходимо:

а) команда Сервис>Анализ данных;

б) в появившемся списке Инструменты анализа выбрать строку Двухвыборочный t-тест с разными дисперсиями, щелкнуть левой кнопкой мыши и нажать кнопку ок;

в) в появившемся диалоговом окне указать Интервал переменной 1, т. е. ввести ссылку на первый диапазон анализируемых данных, содержащий один столбец данных. Для этого следует навести указатель мыши на верхнюю ячейку первого столбца данных, нажать левую кнопку мыши и, не отпускал ее, протянуть указатель мыши к нижней ячейке, содержащей анализируемые данные, затем отпустить левую кнопку мыши;

г) указать Интервал переменной 2, т. е. ввести ссылку на второй диапазон анализируемых данных, содержащий один столбец данных. Для этого следует навести указатель мыши в поле ввода Интервал переменной 2 и щелкнуть левой кнопкой мыши, затем навести указатель мыши на верхнюю ячейку второго столбца данных, нажать левую кнопку мыши и, не отпускал ее, протянуть указатель мыши к нижней ячейке, содержащей анализируемые данные, затем отпустить левую кнопку мыши.

д) указать выходной диапазон, т. е. ввести ссылку на ячейки, в которые будут выведены результаты анализа. Для этого следует поставить флажок в левое поле Выходящий диапазон (навести указатель мыши и щелкнуть левой кнопкой), далее навести указатель мыши в правое поле ввода Выходной диапазон и щелкнуть левой кнопкой мыши, затем указатель мыши наводится на левую верхнюю ячейку выходного диапазона и делается щелчок левой кнопкой мыши. Размер выходного диапазона будет определен автоматически, и на экран будет выведено сообщение в случае возможного наложения выходного диапазона на исходные данные.

е) нажимается кнопка ОК.

Результаты анализа. В выходной диапазон будут выведены: средняя, дисперсия и число наблюдений для каждой переменной, гипотетическая разность средних,df(число степеней свободы), значениеt-статистики, Р(Т<=t) одностороннее,tкритическое одностороннеё, Р(Т<=t) двухстороннее,tкритическое двухстороннее.

Интерпретация результатов. Если величина вероятности случайного появления анализируемых выборок ( Р(Т<=i) двух стороннее) меньше уровня значимости (р=0,О принято считать, что различия между выборками не случайные, т. е. различия достоверные.

Демонстрационный пример 2. Рассматривалась реакция организма добровольцев в ответ на введение ацетофоса. Измерялась активность холинэстеразы крови у мужчин и женщин через 2 ч после однократного введения ацетофоса в дозе 2 мг/кг веса (в процентах к исходному фону)

NМужчины Женщины

1 84,5 51,5

2 85,6 75,7

3 92,3 57,6

4 69,2 60,4

5 84,1

Можно ли по этим данным сделать вывод о большей чувствительности женского организма к действию ацетофоса?

Решение. Для решения задач такого типа используются так называемые критерии различия, в частности,t-критерий Стьюдента.

Вводим данные: активность холинэстеразы для мужчин — в диапазон А1 :А5; активность холинэстеразы для женщин — в диапазон В1:В4 (заметим, что в русифицированной версии Ехсеlзнаку запятой, отделяющей целую часть от дробной, соответствует "запятая").

Выбор процедуры здесь осуществляется из трех вариантов t-теста и поскольку данные не имеют опарного соответствия, число их различно и говорить о равенстве дисперсий затруднительно, выбираем процедуру Двухвыборочныйt- тест с разными дисперсиями.

Для реализации процедуры в пункте меню Сервис выбираем строку Анализ данных и далее указываем курсором мыши на строку Двухвыборочный t- тест с разными дисперсиями.

В появившемся диалоговом окне задаем Интервал переменной 1. для этого наводим указатель мыши на верхнюю ячейку столбца (А1), нажимаем левую кнопку мыши и, не отпуская ее, протягиваем указатель мыши к нижней ячейке (А5), затем отпускаем левую кнопку мыши. Аналогично указываем Интервал переменной 2, т. е. ввести ссылку на диапазон второго столбца В1: В4. далее указываем выходной диапазон. Для этого ставим переключатель в положение Выходной диапазон (навести указатель мыши и щелкнуть левой кнопкой), затем наводим указатель мыши в правое поле ввода Выходной диапазон и, щелкнув левой кнопкой мыши, указатель мыши наводим на левую верхнюю ячейку выходного диапазона (С 1) и делаем щелчок левой кнопкой мыши. Нажимаем кнопку ОК.

Результаты анализа.В выходном диапазоне появятся следующие результаты:

двухвыборочный t-тест с различными дисперсиями

Переменная 1 Переменная 2

Среднее 83,14 61,3

……………………………………….

Р(Т<=t)двухстороннее 0,014190181

……………………………………….

Интерпретация результатов. Средние значения активности холинэстеразы (83% для мужчин и 61% для женщин) довольно сильно отличаются и нулевая гипотеза о том, что разницы между группами нет (т. е. средние выборок равны между собой), отвергается. Это следует из того, что вероятность реализации нулевой гипотезы мала (р0,014, что меньше чем уровень значимости 0,05, т. е. р<О,О5 и величина вероятности случайного появления анализируемых выборок ( Р(Т<=t) двухстороннее) меньше уровня значимости (р можно считать, что различия между выборками не случайные, т. е. различия достоверные.

Таким образом, из приведенных результатов исследования вытекает, что организм женщин более чувствителен к действию ацетофоса, чем мужской организм с уровнем значимости р<О,05.

Корреляционный анализ. Процедура позволяет получить корреляционную матрицу, содержащую коэффициенты корреляции между различными параметрами. Для реализации процедуры необходимо:

а) выполнить команду Сервис>Анализ данных;

б) в появившемся списке Инструменты анализа выбрать строку Корреляция и нажать кнопку ОК;

в) в появившемся диалоговом окне указать входной диапазон, т. е. ввести ссылку на ячейки, содержащие анализируемые данные. Для этого следует навести указатель мыши на левую верхнюю ячейку данных, нажать левую кнопку мыши и, не отпускал ее, протянуть указатель мыши к правой нижней ячейке, содержащей анализируемые данные, затем отпустить левую кнопку мыши. Входной диапазон должен содержать не менее двух столбцов.

г) в разделе Группировка переключатель устанавливается в положение по столбцам;

д) указать выходной диапазон, т. е. ввести ссылку на ячейки, в которые будут выведены результаты анализа. Для этого следует поставить флажок в левое поле Выходной диапазон (на вести указатель мыши и щелкнуть левой кнопкой), далее на вести указатель мыши в правое поле ввода Выходной диапазон и щелкнуть левой кнопкой мыши, затем указатель мыши наводится на левую верхнюю ячейку выходного диапазона и делается щелчок левой кнопкой мыши. Размер выходного диапазона будет определен автоматически, и на экран будет выведено сообщение в случае возможного наложения выходного диапазона на исходные данные.

е) нажимается кнопка ОК.

Результаты анализа. В выходной диапазон будет выведена корреляционная матрица, в которой на пересечении соответствующих строки и столбца находится коэффициент корреляции между соответствующими параметрами. Ячейки выходного диапазона, имеющие совпадающие координаты строк и столбцов, содержат значение 1, так как каждый столбец во входном диапазоне полностью коррелирует с самим собой.

Интерпретация результатов.Если коэффициент корреляции (г) по абсолютной величине (без учета знака) больше чем 0,95, то принято считать, что между параметрами существует практически линейная зависимость (прямая при положительном г и обратная при отрицательном г). Если коэффициент корреляции г лежит в диапазоне от 0,8 до 0,95, говорят о сильной степени линейной связи между параметрами. 0,6 < г < 0;8 — говорят о наличии линейной связи между параметрами. При г < 0,4 обычно считают, что линейную взаимосвязь между параметрами выявить не удалось.

Демонстрационный пример 3.Пусть как в примере 1 исследовались возрастные изменений слуховой функции у детей, и использовался тест определения эмоциональной составляющей речи в условиях маскировки шумом. Были получены результаты

Необходимо выявить, существует ли взаимосвязь между возрастом, уровнем шума и эффективностью распознавания эмоций.

Решение. Для выполнения корреляционного анализа вводим в диапазон А1 :13 исходные данные:

Затем в меню Сервис выбираем пункт Анализ данных и далее указываем строку Корреляция. В появившемся диалоговом окне указываем входной диапазон М :13. Указываем, что данные рассматриваются по строкам. Указываем выходной диапазон. Для этого

ставим флажок в левое поле Выходной диапазон и в правое поле ввода Выходной диапазон вводим А4. Нажимаем кнопку ОК.

Результаты анализа. В выходном диапазоне получаем корреляционную матрицу:

Интерпретация результатов. Из таблицы видно, что корреляция между процентом распознавания и возрастом равна 0,77, а между процентом распознавания и уровнем шума — -0,59, между уровнем шума и возрастом— г = 0.

Таким образом, в результате анализа выявлены зависимости: сильная степень линейной связи между эффективностью распознавания полезного сигнала и возрастом (г=0,77) и слабая обратная линейная связь между эффективностью распознавания полезного сигнала и уровнем маскирующего шума (г=-0,59).

Регрессионный анализ.Линейный регрессионный анализ заключается в подборе графика и его уравнения для набора наблюдений. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или бол независимых переменных. В Пакете анализа экспериментальные данные аппроксимируются линейным уравнением до 16 порядка:

У = аО + аIхХI + а2хХ2 + ... + а16хХ16

где У — зависимая переменная, ХI, ..., ХI6 — независимые переменные, аО, аI, ..., аIб — искомые коэффициенты регрессии.

Для получения коэффициентов регрессии необходимо:

а) выполнять команду Сервис>Анализ данных;

6) в появившемся диалоговом окне Анализ данных в списке Инструменты анализа выбрать строку Регрессия, указан кур сором мыши и щелкнув левой кнопкой мыши. Затем нажать кнопку Ок;

в) в появившемся диалоговом окне задать Входной интервал У, т. е. ввести ссылку на диапазон анализируемых зависимых данных, содержащий один столбец данных. Для этого следует навести указатель мыши на верхнюю ячейку столбца зависимых данных, нажать левую кнопку мыши и, не отпуская ее, протянуть указатель мыши к нижней ячейке, содержащей анализируемые данные, затем отпустить левую кнопку мыши;

г) указать Входной интервал Х, т. е. ввести ссылку на диапазон независимых данных, содержащий до 16 столбцов анализируемых данных. Для этого следует навести указатель мыши в поле ввода Входной интервал Х и щелкнуть левой кнопкой мыши, затем навести указатель мыши на верхнюю левую ячейку диапазона независимых данных, нажать левую кнопку мыши и, не отпуская ее, протянуть указатель мыши к нижней правой ячейке, содержащей анализируемые данные, затем отпустить левую кнопку мыши;

д) указать выходной диапазон, т. е. ввести ссылку на ячейки, в которые будут выведены результаты анализа. Для этого следует поставить переключатель в положение Выходной диапазон (навести указатель мыши и щелкнуть левой кнопкой), далее навести указатель мыши в правое поле ввода Выходной диапазон и щелкнуть левой кнопкой мыши, затем указатель мыши наводится на левую верхнюю ячейку выходного диапазона и делается щелчок левой кнопкой мыши. Размер выходного диапазона будет определен автоматически, и на экран будет вы ведено сообщение в случае возможного наложения выходного диапазона на исходные данные;

е) нажимается кнопка ОК.

Результаты анализа. Выходной диапазон будет включать в себя результаты дисперсионного анализа, коэффициенты регрессии, стандартную погрешность вычисления У, среднеквадратичные отклонения, число наблюдений, стандартные погрешности для коэффициентов.

Интерпретация результатов. Значения коэффициентов регрессии находятся в столбце Коэффициенты и соответствуют:

У-пересечение — а0;

Переменная Х — а1

Переменная Х2 — а2, и т. д.

В столбце Р-Значение приводится достоверность отличия соответствующих коэффициентов от нуля. В случаях, когда Р>0,05, коэффициент может считаться нулевым; это означает, что соответствующая независимая переменная практически не влияет на зависимую переменную.

Приводимое значение R-квадрат характеризует, с какой степенью точности полученное регрессионное уравнение аппроксимирует исходные данные. ЕслиR-квадрат > 0,95, говорят о высокой точности аппроксимации (модель хорошо описывает явление). ЕслиR-квадрат лежит в диапазоне от 0,8 до 0,95, говорят об удовлетворительной аппроксимации (модель в целом адекватна описываемому явлению). ЕслиR-квадрат <0,95 принято считать, что точность аппроксимации недостаточна и модель требует улучшения (введения новых независимых переменных, учета нелинейностей и т.д.).

Демонстрационный пример 4.Имеются результаты, проводившейся у 8 больных эффективной криодеструкции кожных рубцов различной толщины.

Необходимо рассмотреть возможность на основании этих данных определять предполагаемое время криодеструкции.

Решение. Вводим данные: толщина рубца — в диапазон А1 :А8; время криодеструкции в диапазон В1: В8 (заметим, что знаку запятой, отделяющей целую часть от дробной, соответствует "запятая"). В пункте меню Сервис выбираем строку Анализ данных и далее указываем курсором мыши на строку Регрессия. В готовившемся диалоговом окне задаем Входной интервал У. Для этого наводим указатель мыши на верхнюю ячейку столбца зависимых данных (В1), нажимаем левую кнопку мыши и, не отпуская ее, протягиваем указатель мыши к нижней ячейке (В8), затем, отпускаем левую кнопку мыши. Аналогично указываем Входной интервал Х, т. е ввести ссылку на диапазон независимых данных А1 :А8. Далее указываем выходной диапазон. Для этого ставим переключатель в положение Выходной диапазон (навести указатель мыши, и щелкнуть левой кнопкой), затем наводим указатель мыши в правое поле ввода Выходной диапазон и щелкнув левой кнопкой мыши, указатель мыши наводим на левую верхнюю ячейку выходного диапазона (С1) и делаем щелчок левой кнопкой мыши. Нажимаем кнопку ОК

Результаты анализа. В выходном диапазоне появятся следующие результаты:

ВЫВОД ИТОГОВ:

Регрессионная статистика

……………

R-квадрат 0,945442

………………..

Коэффициенты ... Р-значение……

У-пересеч 0,329583 .. 0,070564

Переменная 0,124583 5,18Е-05

………….

Отсюда выражение для определения времени криодеструкции по толщине рубца будет иметь следующий вид:

Время криодеструкции в мин = 0,33 + 0,125 * (толщину рубца в мм)

Полученная модель с высокой точностью позволяет определять время криодеструкции (R²=94,54%).

Пример 6. Множественная линейная регрессия. Исследовалась связь между дефицитом циркулирующей крови при острой желудочно-кишечной геморрагии язвенной этиология (У, мл) и двумя факторами: вязкостью крови (ХI, условные единицы) и гематокритной величиной (Х2, проценты). Были получены следующие данные:

Необходимо рассмотреть возможность оценки дефицита циркулирующей крови на основании измерения двух факторов вязкости крови и гематокритной величины.

Решение. Вводим данные: дефицит циркулирующей крови — в диапазон А1:А10; вязкость крови — в диапазон В1 :В10; гематокритную величину — в диапазон С1: С10

В пункте меню Сервис выбираем строку Анализ данных и далее указываем курсором мыши на строку Регрессия. В появившемся диалоговом окне задаем Входной интервал У. Для этого наводим указатель мыши на верхнюю ячейку столбца зависимых данных (А1) нажимаем левую кнопку мыши и, не отпуская ее протягиваем указатель мыши к нижней ячейке (А1 0), затем отпускаем левую кнопку мыши.

Аналогично указываем Входной интервал Х, т. е. ввести ссылку на диапазон независимых данных ВI:С10. Далее указываем выходной диапазон. Для этого ставим переключатель в положение Выходной диапазон (навести указатель мыши и щелкнуть левой кнопкой), затем наводим указатель мыши в правое поле ввода Выходной диапазон и щелкнув левой кнопкой мыши, указатель мыши наводим на левую верхнюю ячейку выходного диапазона (В 1) и делаем щелчок левой кнопкой мыши. Нажимаем кнопку ОК.

Результаты анализа. В выходном диапазоне появятся следующие результаты:

Интерпретация результатов.Дефицит циркулирующей крови при острой желудочно-кишечной геморрагии язвенной этиологии может быть оценен с высокой точностью (с погрешностью около 5% —R-квадрат = 0,99) из следующего выражения:

Дефицит крови в мл = 6244 — 919 * (вязкость крови) — 54, (гематокритная величина в %)

Дисперсионный анализ— предназначен для исследования задачи о действии на измеряемую величину (отклик) одного или нескольких факторов. Причем в однофакторном, двухфакторном и т. д. анализе влияющие на результат факторы считаются известными, и речь идет только о выяснении существенности или оценке этого влияния.

Для проведения дисперсионного анализа необходимо:

а) ввести данные в таблицу, так чтобы в каждом столбце оказались данные, соответствующие одному значению исследуемого фактора, а столбцы располагались в порядке возрастания (убывания) величины исследуемого фактора;

б) выполнить команду Сервис>Анализ данных;

в) в появившемся диалоговом окне Анализ данных в списке Инструменты анализа выбрать процедуру. Одно факторный дисперсионный анализ, указан курсором мыши. И щелкнув левой кнопкой мыши. Затем нажать кнопку Ок;

г) в появившемся диалоговом окне задать Входной интервал, т. е. ввести ссылку на диапазон анализируемых данных, содержащий все столбцы данных. Для этого следует навести указатель мыши на верхнюю левую ячейку диапазона данных, нажать левую кнопку мыши и, не отпуская ее, протянуть указатель мыши к нижней правой ячейке, содержащей анализируемые данные, затем отпустить левую кнопку мыши.

д) в разделе Группировка переключатель устанавливается в положение по столбцам;

е) указать выходной диапазон, т. е. ввести ссылку на ячейки, в которые будут выведены результаты анализа. Для этого следует поставить переключатель в положение Выходной диапазон (навести указатель мыши и щелкнуть левой кнопкой), далее навести указатель мыши в правое поле ввода Выходной диапазон и щелкнуть левой кнопкой мыши, затем указатель мыши наводится на левую верхнюю ячейку выходного диапазона и делается щелчок левой кнопкой мыши. Размер выходного диапазона будет определен автоматически, и на экран будет выведено сообщение в случае возможного наложения выходного диапазона на исходные данные;

ж) нажимается кнопка ОК.

Результаты анализа. Выходной диапазон будет включать в себя результаты дисперсионного анализа: средние, дисперсии, критерий Фишера и другие показатели.

Интерпретация результатов. Влияние исследуемого фактора определяется по величине значимости критерия Фишера, которая находится в таблице Дисперсионный анализ на пересечении строки Между группами и столбца Р-Значение. В случаях когда Р Значение < 0,05, критерий Фишера значим и влияние исследуемого фактора можно считать доказанным.

Демонстрационный пример 5. В демонстрационном примере 5 необходимо определить влияет ли уровень шума на правильность распознавания эмоциональной составляющей речи у детей.

Решение.Исследуемте данные вводим в рабочую таблицу Ехсеlтакже, как и в примере 1 (диапазон А1 :Сб). Выполняем команду Сервис данных. В появившемся диалоговом окне Анализ данных в списке Инструменты анализа щелчком мыши выбираем процедуру Однофакторный дисперсионный анализ. Нажимаем кнопку ОК. В появившемся диалоговом окне Однофакторный дисперсионный анализ задаем Входной интервал А1 :С6. Для этого наводим указатель мыши на ячейку А1 и протягиваем его к ячейке Сб при нажатой левой кнопке мыши. В разделе Группировка переключатель устанавливается в положение по столбцам. Далее необходимо указать выходной диапазон. Для этого ставим переключатель в положение Выходной диапазон (навести указатель мыши и щелкнуть левой кнопкой), затем щелкаем указателем мыши в правом поле ввода Выходной диапазон, и щелчком мыши на ячйке А8 указываем расположение выходного диапазона. Нажимаем кнопку ОК.

Результаты анализа.В результате будет получена следующая таблица.

Интерпретация результатов. В таблице дисперсионный анализ на пересечении строки Между группами и столбца Р-Значение находится величина 0,15529. Величина Р-Значение 0,05, следовательно критерий Фишера незначим и влияние фактора шума на эффективность распознавания доказать не удалось.

7. Другие возможности пакета

Материал главы позволяет сделать лишь первые шаги в использовании пакета Ехсеlв работе врача. В ней рассмотрены далеко не все возможности применения пакета в медицинской практике. На пример, Ехсеlявляется эффективных средством проведения численного моделирования клинической ситуации или медико-биологического объекта, для описания которых используется ряд параметров. При этом часть этих параметров предполагается известными (исходные параметры), а часть рассчитывается по формулам. Меняя во всевозможных сочетаниях значения исходных параметров, можно наблюдать за изменением расчетных параметров и анализировать получаемые результаты. Ехсеlпроизводит такие расчеты быстро и без ошибок, предоставляя пользователю в считанные секунды множество вариантов решения поставленной задачи, на основании которых можно выбрать наиболее приемлемое.

По мере возникновения необходимости при дальнейшем, более глубоком освоении пакета следует обращаться к более полным общим руководствам (см. например, список рекомендованной литературы) или к помощи справочной системы Ехсеl.

-При выборе подходящего руководства можно воспользоваться чередующими рекомендациями. В настоящее время в продаже имеется большое количество разнообразной литературы по работе с пакетом Ехсеl. Лучше всего выбирать пособие, относящееся к той версии, которая установлена на вашем компьютере, хотя это и не очень принципиально. Также следует убедиться в наличии и полноте представления в руководстве интересующих вас разделов (на пример, графика или статистические возможности пакета). Следует также обратить внимание на стиль изложения, степень подробности: изложение материала должно соответствовать вашему уровню знания пакета. При покупке пособий зарубежных авторов необходимо обратить внимание на иллюстрации — лучше, если ни будут приведены для русскоязычной версии.

8. Краткая сводка основных операций

Запуск Ехсеl

Для запуска Ехсеl необходимо воспользоваться меню, которое появляется при нажатии на кнопку Пуск.

После запуска на экране появится окно программы Ехсеl.

Окно Ехсеl

Строка заголовка (верхняя граница окна Ехсеl) содержит:

— имя работающего приложения — Microsoft Excel

— кнопки Оконного меню (в конце Строки заголовка):

— Восстановить — Развернуть,

— Свернуть, — Закрыть.

В заголовке окна кроме названия программы приводится и имя редактируемого файла.

Строка меню занимает вторую строчку основного окна и содержит команды меню, упорядоченные по функциональному признаку. Под строкой меню находятся так называемые панели инструментов. Кнопки на этих панелях предназначены для более быстрого выполнения команд по сравнению с выбором из меню. Ниже панелей инструментов находится строка формул, предназначенная для ввода текста, чисел и формул в ячейки таблицы.

Таблица в Ехсеl называется рабочим листом. Один файл Ехсеl может содержать несколько рабочих листов и называется рабочей книгой. Для выбора нужного рабочего листа в нижней части окна находятся ярлычки рабочих листов. Выбор листа осуществляется щелчком мыши по нужному ярлычку.

Справа и снизу рабочей таблицы находятся:

Вертикальная полоса прокрутки: стрелки прокрутки ,бегунок.

Горизонтальная полоса прокрутки.

Открытие таблицы:

Осуществляется выполнением действий: 1) панель Стандартная — кнопка Открыть , или 2) меню Файл — команда Открыть.

Создание новой рабочей книги:

Последовательность действий: 1) меню Файл — команда Создать..., или 2) панель Стандартная — кнопка Создать. Щелчок на кнопке создает новую рабочую книгу.

Ввод данных

Ввод может осуществляться только в активную ячейку. Активная ячейка — это ячейка, выделенная указателем ячейки (табличным курсором). Смена активной ячейки производится с помощью клавиш управления курсором (стрелок) или мыши.

Ввод информации в активную ячейку выполняется в строке формул и заканчивается нажатием клавиши Еnter.

Для удаления содержимого ячейки необходимо установить табличный курсор на интересующую ячейку и нажать клавишу Delete.

Выделение блока ячеек

Для выделения блока ячеек необходимо указатель мыши установить в левом верхнем углу блока, нажать левую кнопку мыши и, не отпуская, переместить указатель в правый нижний угол блока ячеек. Отпустить левую кнопку.

Построение диаграмм

1. Ввести данные в таблицу.

2. На панели инструментов нажать кнопку Мастер диаграмм.

3. В появившемся диалоговом окне Мастер диаграмм шаг 1 из 4 указать тип диаграммы.

4. В диалоговом окне Шаг 2 из 4 выбрать вкладку Диапазон и в поле Диапазон указать интервал данных. Указать, в каких строках или столбцах расположены ряды данных. Выбрать вкладку Ряд и в поле Подписи оси Х: указать диапазон подписей. Нажать кнопку Далее.

5. В третьем окне ввести заголовок диаграммы и названия осей. Выбрать вкладку легенда и указать необходима ли легенда (расшифровка кривых). Нажать кнопку Далее.

б. В четвертом окне указать место размещения диаграммы

7. Если диаграмма в демонстрационном поле имеет желаемый вид нажать кнопку Готово. В противном случае нажать кнопку Назад и изменить установки.

Редактирование диаграмм

Для редактирования диаграммы необходимо выделить ее как объект — щелкнуть левой кнопкой мыши в поле диаграммы.

Тип диаграммы, созданной с помощью Мастера диаграмм, можно

изменить, если воспользоваться командой Тип диаграммы из меню Диаграмма (появляется послё активизации диаграммы).

Копирование

1. Установить табличный курсор (активность) на ячейку, содержащую копируемую информацию (источник), или выделить соответствующий блок ячеек.

2. Указателем мыши нажать кнопку Копировать на панели инструментов.

3. На рабочем листе с помощью мыши выделить блок (ячейку), в который будет осуществляться копирование.

4. Указателем мыши нажать кнопку Вставить на панели инструментов.

Автосуммирование.

1. Установить табличный курсор (активность) на ячейку, в которой должна находиться сумма.

2. Указателем мыши нажать кнопку Автосумма на панели инструментов.

3. Если указываемый пунктиром блок соответствует требуемому диапазону суммирования, нажать клавишу Enter. В противном случае с помощью указателя мыши выделить требуемый блок и нажать клавишуEnter.

Ввод математических формул.

Ввод формулы должен начинаться со знака «=» (равно). Все записи в формулах должны осуществляться латинскими буквами.

Печать результатов

1. Печать всего рабочего листа.

1.1. Перед печатью необходимо убедиться, что содержание и форма выводимого документа имеют требуемый вид. Для этого на панели инструментов с помощью мыши нажать кнопку Предварительный просмотр.

1.2. В случае если документ удовлетворяет требованиям, на панели инструментов нажать кнопку Печать.

1.3. В появившемся диалоговом окне печати нажать кнопку ОК.

2. Печать фрагмента рабочего листа.

2.1. Выделить блок интересующего фрагмента с помощью мыши.

2.2. Открыть раздел меню Файл, выбрать пункт Область печати и подпункт Задать.

2.3. далее идти к пункту 1.1.

3. Печать одной диаграммы.

3.1. Активизировать интересующую диаграмму.

3.2. далее идти к пункту 1.1.

Форматирование рамки таблицы

1. Выделить блок ячеек, вдоль границ, которых должна быть проведена линия.

2. С помощью мыши на панели инструментов Форматирование нажать стрелку справа от кнопки Границы.

3. В открывшемся меню выбрать местоположение и тип рамки.

4. Щелкнуть левой кнопкой мыши.

Если рамка сформирована не полностью, повторить процедуру, начиная с п. 1.

Для удаления рамки следует выделить соответствующий блок ячеек, повторить п. 2 и в открывшемся меню выбрать вариант без рамки (левый верхний квадрат)

Работа с простейшими базами данных

Простейшая база данных (список данных) — это таблица, строки (записи) которой содержат однотипную информацию. Первая строка таблицы должна содержать имена столбцов (полей).

Просмотр списка данных может осуществляться при помощи клавиш управления курсором (стрелки, РgUp, РgDn).

Для работы со списками используются команды меню Данные:

Сортировка — осуществляет сортировку списка. Открывает диалоговое окно Сор диапазона, в котором можно выбрать до трех полей сортировки (по возрастанию или по убыванию). После нажатия кнопки ОК вначале выполняется сортировка по первому полю, затем в тех позициях, где в первом поле были одинаковые значения, происходит сортировка по второму полю и затем, аналогично по третьему полю.

Фильтр — осуществляет выбор из списка указанного набора Записей. Режим автофильтрация позволяет проводить отбор записей, удовлетворяющих заданному критерию. Для фильтрации необходимо выполнить следующие действия:

— переместить курсор в любое место списка;

— в подменю команды Фильтр выбрать режим Автофильтр;

— щелкнуть мышью на одной из появившихся кнопок списков столбцов;

— в появившемся списке значений выбрать нужное значение.

Отмена результатов фильтрации осуществляется выбором значения Всев списке столбца.

Форма — окно формы данных используется для просмотра, ввода и обработки данных. Окно позволяет вести поиск записей по данному критерию, дополнять список новыми записями, удалять ненужные, а также редактировать данные.

Итоги — позволяет вычислять промежуточные итоги по заданному столбцу. Для подведения итогов необходимо выполнить следующие действия:

—расположить табличный курсор в любом месте списка;

— выполнить сортировку списка по заданному столбцу (см. Сортировка);

— выбрать команду Итоги из меню Данные;

— заполнить диалоговое окно Промежуточные итоги.

Отмена действий.

Кнопки Отменить и Вернуть на Стандартной панели инструментов.

Сохранение результатов

Первичное сохранение:

1) панель Стандартная— кнопка Сохранить , или

2) меню Файл — команда Сохранить как...

Текущее сохранение:

1) панель Стандартная — кнопка Сохранить , или

2) меню Файл — команда Сохранить.

Рекомендуемая универсальная последовательность действий:

1. Выбрать раздел меню Файл.

2. Выбрать пункт меню Сохранить как.

З. В появившемся диалоговом окне указать диск, папку и ввести в поле Имя файла имя файла.

Закрытие рабочей книги:

Строка меню — кнопка Закрыть , или меню Файл — команда Закрыть.

Завершение работы

Для завершения работы необходимо указателем мыши нажать кнопку в правом верхнем углу экрана. В случае появления диалогового окна с предложением сохранить данные при необходимости осуществить их сохранение. В противном случае нажать кнопку Нет.

Получение справочной информации

Возможны следующие варианты получения справочной информации:

1. Всплывающие подсказки.

2. Контекстное меню (правая кнопка мыши).

З. Помошник.

4. Справочная информация.

Сообщения об ошибках

1.# ДЕЛ/О! — Попытка деления на ноль.

2. #ИМЯ? — Имя функции задано неверно.

З. #Н/Д — Нет данных в ячейке.

4. #ЧИСЛО! — Проблема с числовым значением (например, ячейка содержит отрицательное число вместо положительно го).

Компьютерный анализ медицинский данных

1. Особенности анализа медицинских данных

В медицинской практике и, особенно, в медицинских исследованиях часто применяются различные методы анализа и обработки данных. Математика, в частности статистика, широко используется в медицине. Математические методы позволяют объективно оценивать количественные результаты исследований.

Однако в настоящее время наблюдается определенное отставание в применении статистических методов анализа в отечественной медицинской науке. Сравнение отечественных и зарубежных публикаций показывает значительно более высокий уровень использования методов статистики в зарубежных работах.

достаточно часто встречаются отечественные работы, в которых анализ ограничивается качественным описанием объектов и процессов, когда количественные оценки их характеристик сводятся лишь к констатации «увеличения» или «уменьшению» средних значений отдельных признаков. В таких работах данные после минимальной обработки представляются в примерно такой последовательности: изучено... историй болезни, больные распределялись по возрасту следующим образом..., по полу ..., по форме заболевания... (выделяется процент токсических форм), по срокам госпитализации... (указывается процент ранее госпитализированных), по срокам введения сыворотки..., состоянию иммунизации.., и пр. далее больные могут делиться на привитых и непривитых, по степени иммунизации, и эти сведения могут сопоставляться с формой заболевания, возрастом и наличием осложнений. Аналогично учитываются и другие факторы.

Для получения такого элементарного анализа, когда достаточно относительных и средних величин, не требуется сколько-нибудь сложных математических методов. В том случае, если необходимо выявить достоверность отличий, степень взаимосвязи между показателями и другие характеристики данных, требуется использование специальных методов анализа, в частности статистических.

Для любого врача, связанно с экспериментальными исследованиями (а медицина это в значительной мере экспериментальная наука) совершенно очевидна не использования статистических методов в своей работе. При этом роль используемых статистических методов двояка: с одной стороны они позволяют обнаруживать ранее неизвестные закономерности, а с другой стороны с их помощью авторы проверяют достоверность априорно формулируемых выводов.

Первой и важнейшей необходимостью при анализе данных является корректность и грамотность применения статистических методов, что требует от автора основательной подготовки в данной области знания.

В то же время подготовка в области прикладной статистики в Медицинских вузах для врача-исследователя явно не достаточна. Некорректность и неполнота применения методов статистики де лает весьма сомнительными, а подчас и просто несостоятельными декларируемые авторами выводы. Восполнить этот пробел необходимо. Для облегчения решения данной задачи и служит настоящая глава.

Долгое время анализ медицинских данных оставался уделом специалистов, так как глубокое понимание современных методов анализа данных требует серьезной математической подготовки. Вообще говоря, идеальным вариантом является случай, когда человек, хорошо знающий математическую статистику, применяет компьютерные методы для анализа своих данных. Однако для того, чтобы неплохо знать статистические методы, необходима специальная математическая подготовка в объеме вузовского курса, что нереально для врача. Тем не менее, современная технология обработки данных позволяет осуществлять минимально необходимый анализ собственного материала и при отсутствии серьезной подготовки по статистике.

Поэтому так же, как сейчас много внимания уделяется обучению населения приемам оказания первой помощи и простейшим медицинским процедурам, так И овладение основными статисти ческими методами, необходимыми для подготовки и правильного оформления статей, диссертаций, отчетов, является важнейшей за дачей для врача, занимающегося исследовательской работой.

В настоящее время редко кто из проводящих статистический анализ экспериментальных данных вручную выполняет все необходимые вычисления. Большинство использует компьютерные пакеты программ. Использование компьютера смещает акценты при анализе данных, требует от исполнителя новых навыков, что заставляет говорить уже о компьютерных методах анализа. В то же время именно благодаря применению компьютеров возникает возможность для врача, не имеющего специальной математической подготовки, воспользоваться основными приемами обработки экспериментального материала, наиболее часто применяемыми в исследовательской практике.

Использование компьютера делает достаточно сложные метод анализа медицинских данных более доступными и наглядными: теперь уже не требуется вручную выполнять трудоемкие расчеты по сложным формулам, строить таблицы и графики — всю эту черновую работу взял на себя компьютер, а человеку осталась главным образом творческая работа: пост задач, выбор методов их решения и интерпрётация результатов.

Если раньше для анализа данных в первую очередь требовалось глубокое знание статистики и владение методами расчетов по достаточно сложным формулам, то в современной компьютерной технологии обработки данных более важным стало умение работать с пакетом для обработки данных. При этом, как и прежде, необходимо уметь получить общее представление об обрабатываемых данных, понимать в каких ситуациях применимы различные статистические методы, знать каковы их свойства, уметь интерпретировать результаты и представлять их в наглядной форме. На этом, в основном, и будет сосредоточено внимание в настоящем разделе.

В этой главе теоретические основы математических методов обработки данных сведены к минимуму. Главное внимание здесь уделено практической стороне анализа данных методами прикладной статистики. В краткой и популярной форме приведены основные приемы компьютерной обработки цифровых показателей, которые получены в результате различных медицинских исследований и клинических наблюдений, сообщаются разнообразные методы и приемы графического представления обработанных данных.

Цель данной главы — позволить читателям, не имеющим первоначальной математической подготовки, использовать простейшие компьютерные методы обработки медицинских данных, не вникая в теорию вопроса, дать им практическое руководство по компьютерному анализу и обработке данных, получаемых в ходе научной работы. Причем основное внимание в разделе уделяется раскрытию содержательной стороны компьютерных методов анализа, т. е. пояснению особенностей и ограничений их практического применения.

В главе на примере пакета Statisticа рассмотрено новое поколение программных средств, поднявших на более высокий уровень технологию обработки данных.

Рассматриваемые примеры носят учебный, иллюстративный характер.

Читателю этого раздела достаточно подготовки по математике в объеме обычной программы средней школы, а также желательно предварительное знакомство с главами, посвященными операционной системе Windows98 и электронной таблице Ехсеl.

2. Принципы компьютерной обработки и анализа данных

2. 1. Особенности компьютерного анализа

В основе обработки и анализа данных лежат математические методы, которые в большинстве своем являются неизменными уже в течение многих десятилетий. Соответственно неизменны и общие принципы и последовательность действий при обработке данных. Однако технология обработки данных меняется, и существенно. В первую очередь это связано с совершенствованием технических средств проведения вычислений (листок бумаги, логарифмическая линейка, калькулятор, компьютер).

Компьютерный анализ медицинских данных предполагает некоторое математическое преобразование данных с помощью определенных программных средств. Необходимо иметь представление, как о математических методах обработки данных, так и о соответствующих программных средствах.

Как уже отмечалось, математические, статистические методы, реально применяемые на практике, за последние 30 лет существенно не изменились. Однако, благодаря использованию компьютеров, значительно расширился круг применяемых методов, и, соответственно, возникла необходимость в овладении основами этих методов медицинскими работниками.

Напротив, соответствующее программное обеспечение за это время изменилось очень сильно. Средства обработки данных появились одновременно с первыми вычислительными машинами - раньше операционных систем, редакторов 1 электронных таблиц

Со сменой поколений ЭВМ и даже чаще менялись поколения программных средств обработки данных, И, если возможности первых ЭВМ по анализу данных не превосходили возможности современных средних калькуляторов, то в 70-е годы появились пакеты, содержащие практически все те математические методы обработки, которые включены и в современные пакеты (88Р, ВМОР и др.). дальнейшее развитие пакетов обработки данных шло по пути совершенствования технологии обработки и анализа данных.

5.1).

Хронология развития пакетов анализа данных

2. 2. Некоторые сведения по статистике

Цель этого раздела — познакомить читателя с основными понятиями статистики, на которые опирается компьютерный анализ данных. Методы статистического анализа являются универсальными и могут применяться в самых различных областях человеческой деятельности, в частности, в медицине. Не стремясь к строгому формальному изложению, дадим определения на понятийном уровне.

Выборка— группа элементов, выбранная для исследования из всей совокупности элементов. Задача выборочного метода состоит в том, чтобы сделать правильные выводы относительно всего собрания объектов, их совокупности. Например, врач делает заключения о составе крови пациента на основе анализа ее нескольких капель.

Среднее значение (М, Хс)— центр выборки, вокруг которого группируются элементы выборки.

Медиана— элемент выборки, число элементов выборки со значениями больше которого и меньше которого — равно.

Мода— элемент выборки с наиболее часто встречающимся значением.

Дисперсия (D)— параметр, характеризующий степень разброса элементов выборки относительно среднего значения. Чем больше дисперсия, тем дальше отклоняются значения элементов выборки от среднего значения.

Стандартное отклонение (среднее квадратическоеотклонение, S) — параметр аналогичный дисперсии, но имеющий ту же размерность, что и среднее значение, а поэтому и более удобный.

Ошибка среднего или стандартная ошибка (m) — параметр

, характеризующий степень возможного отклонения средне го значения, полученного на исследуемой ограниченной выборке, от истинного среднего значения, полученного на всей совокупности элементов.

Асимметрия — величина, характеризующая несимметричность распределения элементов выборки относительно среднего значения. Принимает значения от —1 до 1. В случае симметричного распределения равна 0.

Эксцесс— степень выраженности *хвостов распределения, т. е. частоты появления удаленных от среднего значений.

Часто значения асимметрии и эксцесса используют для проверки гипотезы о том, что наблюденные данные (выборка) принадлежат нормальному распределению. Для нормального распределения асимметрия равна нулю, а эксцесс — трем.

Нормальное распределение — совокупность объектов, в которой крайние значения некоторого признак — наименьшее и наибольшее — появляются редко; чем ближе значение признака к среднему арифметическому, тем чаще оно встречается. Например, распределение пациентов по их чувствительности к воздействию любого фармакологического агента часто приближается к нормальному распределению.

Коэффициент корреляции (г) — параметр, характеризующий степень линейной взаимосвязи между двумя выборками. Коэффициент корреляции изменяется от —1 (строгая обратная линейная зависимость) до 1 (строгая прямая пропорциональная зависимость). При значении О линейной зависимости между двумя выборками нет.

Случайное событие — событие, которое может произойти или не произойти без видимой закономерности.

Случайная величина — величина, принимающая различные значения без видимой закономерности, т. е. случайным образом.

Вероятность (р)— параметр, характеризующий частоту появления случайного события. Вероятность изменяется от 0 до 1, причем вероятность р = О означает, что случайное событие никогда не произойдет, вероятность р = 1 означает, что случайное событие происходит всегда.

Гистограмма выборки— графическое изображение зависимости частоты попадания элементов выборки от соответствующего интервала группировки. Единственной целью построения гистограммы выборки является содействие наглядному восприятию значения статистических величин. Например, можно построить графическое изображение числа случаев смерти от инфаркта миокарда в зависимости от возраста умерших.

Уровень значимости— максимальное значение вероятности появления события, при котором событие считается практически не возможным. В медицине наибольшее распространение получил уровень значимости равный 0,05. Поэтому если вероятность, с которой интересующее событие может произойти случайным образом р < 0,05 , то принято считать это событие маловероятным, и если оно все же произошло, то это не было случайным.

Критерий Стьюдента (t)— наиболее часто используется для проверки гипотезы: "Средние двух выборок относятся к одной и той же совокупности". Критерий позволяет найти вероятность того, что оба средних относятся к одной и той же совокупности. Если эта вероятность р ниже уровня значимости (р < 0,05), то принято считать, что выборки относятся к двум разным совокупностям.

Переменная— любая варьируемая величина.

Независимая переменная (фактор) — переменная, варьирование которой происходит независимо от других величин.

Зависимая переменная (отклик)— величина, изменяющаяся при изменении одной или большего числа независимых переменных.

Регрессия— линейный регрессионный анализ заключается в подборе графика и соответствующего уравнения для набора наблюдений. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или более независимых переменных. Например, на степень заболеваемости человека влияют несколько факторов, включая возраст, вес и иммунный статус. Регрессия пропорционально распределяет меру заболеваемости по этим трем факторам на основе данных наблюдаемой заболеваемости. Результаты регрессии впоследствии могут быть использованы для предсказания уровня заболеваемости новой, не исследованной группы людей.

Дисперсионный анализ— предназначен для исследования задачи о действии на измеряемую величину (отклик) одного или нескольких факторов. Причем в однофакторном, двухфакторном и т. д. анализе влияющие на результат факторы считаются известными, и речь идет только о выяснении существенности или оценке этого влияния (например, исследуется степень влияния тяжести специального браслета одеваемого на запястье, на частоту самопроизвольного дрожания мышц рук — тремора).

Арсенал методов анализа данных, предлагаемых современной статистикой, значительно превосходит элементарные методы, рассматриваемые в настоящей главе. Так за рамками рассмотрения остались широко используемые на практике методы анализа временных рядов и многомерного статистического анализа (т. е. анализа многомерных статистических данных). Поэтому для общего представления о возможностях анализа данных дадим краткий обзор наиболее широко используемых методов.

Временной ряд— это совокупность последовательных измерений значений переменной (процесса), произведенных через определенные, чаще всего равные, интервалы времени.

Для анализа временных рядов используются следующие методы:

корреляционный анализ— позволяет выявить наиболее существенные периодические зависимости и их задержки в одном процессе (автокорреляция) или между несколькими процессами (кросскорреляциями) (например, между отведениями в энцефалографии);

спектральный анализ— позволяет находить периодические и квазипериодические зависимости в данных (например, анализ ритмов в энцефалографии).

сглаживание и фильтрация— предназначены для преобразования временных рядов с целью удаления из них высокочастотных или сезонных (низкочастотных) колебаний (например, фильтрация электрокардиограммы с целью удаления артефактов и помех);

авторегрессия и скользящее среднее — используются для описания и прогнозирования процессов, проявляющих однородные колебания. Вокруг среднего значения (например, прогнозирование сроков менструального цикла).

Многомерный статистический анализ — предназначен для анализа исследований, в которых каждое наблюдение представляется не единственным числом, а некоторым набором чисел, в котором в заданном порядке записаны все измеренные характеристики объекта.

Из методов многомерного статистического анализа наиболее широко используются следующие:

факторный анализ — при большом количестве измеряемых показателей используется для обнаружения влияющих на зависимые переменные нескольких основных комплексных факторов (например, при изучении свойств личности с помощью психологических тестов для объяснения результатов проведенных исследований их результаты подвергаются факторному анализу, который и позволяет выявить те личностные свойства, которые оказывали влияние на поведение испытуемых в проведенных исследованиях);

дискриминантный анализ — позволяет по имеющимся количественным характеристикам объекта отнести его к одной из нескольких выделенных групп (например, определение вида патологии по результатам объективных исследований больного);

кластерный анализ — позволяет разбить изучаемую совокупность объектов на группы "схожих", объектов, называемых кластерами (например, выделение особых патологических состояний, отличающихся определенной спецификой, таких как стадии гипертонической болезни).

2. 3. Современная технология анализа данных

Совершенствование технических средств приводит к изменению относительной трудоемкости различных этапов процесса обработки

анализа, что также ведет к изменению технологии обработки данных вообще и медицинских, в частности. В те сравнительно недавние времена, когда обработка данных осуществлялась в ручную, самым трудоемким процессом был этап собственно статистических вычислений, расчетов по различным формулам. На этом этапе было сосредоточено внимание специалистов, предлагались различные упрощенные варианты расчетов, более простые методы, специально приспособленные для ручного счета и т. д.

Затем с появлением первых компьютерных пакетов технология основывалась на принципе командной строки и требовала довольно приличных знаний статистики и владения компьютером на уровне программиста.

Далее развитие пошло по пути использования меню и готовых процедур, что резко снизило требования как к знанию статистики, так и к владению компьютером.

И, наконец, в последнее время продолжилось улучшение интерфейса с пользователем, активнее используется графический подход, важное значение приобретает визуализация данных, что еще больше облегчает обработку данных неспециалисту.

В настоящее время, благодаря использованию компьютеров, вы числительный этап стал наимёнее трудоемким. Облегчились и другие этапы обработки данных. На первое место по относительной трудоемкости вышли другие этапы: освоение статистического пакета, этап подготовки данных к анализу, этап предварительного анализа данных и этап интерпретации результатов. Все в целом привело к изменению технологии обработки и анализа данных. При этом для применения основных методов обработки данных от исполнителя требуется лишь выполнение определенных статистических правил и грамотное использование пакета. Врачу не нужно углубляться в сложность математических определений, а следует понять, для чего и как эти методы используются. Реализации такого подхода и будет посвящено дальнейшее изложение.

На практике для врача в настоящее время обработка и анализ данных сводится к решению следующих задач:

1) получение представления об основных статистических методах,

2) освоение пакета,

3) собственно анализ данных.

Если ограничиваться минимальными представлениями о статистических методах. (см, например, п. 2. 2), то освоение пакета анализа является одним из наиболее тру4оемких-эТаков обработки данных. -

Собственно анализ данных с использованием статистического пакета (работа с пакетом, собственно технология анализа данных) включает следующие разделы.

1. Планирование исследования.

2. Подготовка данных к анализу.

3. Предварительный (разведочный) анализ данных.

4. Выбор метода анализа и его реализация.

5. Интерпретация результатов.

6. Представление результатов.

Планирование исследования.Наиболее предпочтительным случаем является такой, когда еще до проведения исследования уже существует определенная ясность о предполагаемых к использованию в дальнейшем методах обработки данных. В этом случае обычно удается спланировать исследование с учетом последующей обработки данных и избежать ситуаций, когда оказывается, что какие-то наблюдения были лишними, а каких-то не хватает для реализации выбранных методов анализа.

К сожалению на практике на начальных этапах исследования часто еще нет полной ясности о методах обработки результатов исследований. Поэтому, следует представлять себе наиболее часто используемые методы обработки медицинских данных и требования к исходному материалу, предъявляемые ими. Для первоначального выбора метода обработки может быть использована таблица.

Подготовка данных к анализу— это крайне важный, зачастую недооцениваемый этап работы. Обычно он включает: ввод данных, предварительное преобразование данных, визуализацию данных с целью формирования представления об исследуемом материале. В настоящее время практически отпадает необходимость в предварительных структурировании, построении необходимых выборок, ранжировании и т. д. Все эти задачи в современных пакетах автоматизированы и выполняются непосредственно при реализации выбранного метода анализа. На этом этапе остаются только необходимые преобразования данных и их визуализация, которые тоже существенно облегчены. Важное значение приобретаетпредварительный анализ данных(или разведочный анализ данных). На этом этапе формируются представления о типе анализируемых данных, когда выясняется структура, определяются зависимости между данными, производится их группировка и, если это не было ясно с самого начала, осуществляется предварительный выбор методов анализа. В простейших случаях обработка данных может ограничиваться этапом предварительного анализа.

Выбор и реализация метода анализав связи с многообразием методов может оказаться нетривиальной задачей. Однако в современных пакетах введенные данные достаточно просто обработать с использованием различных процедур, а затем можно выбрать метод, дающий наилучшие результаты.

Интерпретация результатов анализачасто вызывает затруднения у исследователей-медиков в связи с ограниченностью знаний в области статистики. Поэтому к этому этапу следует относиться особенно внимательно и, по возможности, быть предельно точными в следовании указаниям руководств. Это же относится и к практическим рекомендациям и выводам, которые делаются на основе результатов статистического анализа.

Представление результатовявляется одним из важнейших компонентов качества применения статистических методов. Поэтому пол нота и уровень описания, как самого анализа, так и его результатов, наглядность их представления не должны снижать общий уровень выполненной работы, что особенно важно при оформлении диссертаций.

2. 4. Программные средства анализа данных

Важное значение имеет также программное средство (статистический пакет), которое используется при компьютерном анализе. Поскольку освоение пакета является, пожалуй, самым трудоемким этапом современной технологии обработки и анализа данных, обычно осваивается только один пакет и надолго.

Для обработки данных и, в частности, медицинских обычно используют два типа программных средств. Это пакеты обработки данных и электронные таблицы.

Пакеты обработки данных.Число пакетов для обработки данных, получивших распространение в России, достигает нескольких десятков. Из зарубежных пакетов этоSYSTAT,STATGRAPHICS, ВМDР,SPSS,SAS,CSS,Statistiсaи др. Из отечественных — можно назвать такие пакеты, какSTADIA, ЭВРИСТА, МЕЗОЗАВР, САНИ, КЛАСС-МАСТЕР СИГАМД (DataScope) и др.

Таблица 5.2

Основную часть имеющихся пакетов для обработки данных можно отнести к трем категориям: специализированные пакеты, пакеты общего назначения и профессиональные пакеты.

Специализированные пакеты обычно содержат методы из одного- двух разделов статистики или методы, используемые в конкретной предметной области.

Пакеты общего назначения или универсальные. Благодаря отcутcтвию ориентации на специфическую предметную область, широкому диапазону статистических методов, дружелюбному интерфейсу пользователя они являются наиболее удобными для начинающего пользователя. При этом хотя в обработке медицинских данных и присутствуют специфические особенности, практически все медицинские задачи могут быть решены с помощью универсальных пакетов.

Профессиональные пакеты предназначены для пользователей имеющих дело со сверхбольшими объемами данных или узкоспециализированными

методами анализа.

Кратко рассмотрим основные пакеты обработки данных.

Пакеты STATGRAPHICS, STADIA, SYSTAT, SPSS, Statistiсa

, являются универсальными пакетами, содержащими большинство стандартных статистических методов. Пакеты SYSTAT,SPSSпереведены на персональные компьютеры с больших ЭВМ, предыдущих поколений, поэтому, наряду с представительным набором тщательно реализованных вычислительных методов, они сохраняют некоторые архаические элементы. Пакеты Statistiсa,STADIA,STATGRAPHICSисходно разработаны для ПЭВМ, а поэтому проще в обращении. Эти пакеты содержат, вероятно, наибольшее количество методов статистического анализа.

Пакеты ЭВРИСТА и МЕЗОЗАВР являются специализированными пакетами, предназначенными для анализа временных рядов и регрессионного анализа.

Пакет КЛАСС-МАСТЕР предназначен для кластерного анализа данных.

Пакет САНИ предназначен для анализа и визуализации разнотипных данных, в основном, нечисловой природы.

Отдельную группу специализированных пакетов составляют пакеты, предназначенные для решения задач медицинской статистики. Примером таких программных средств являются пакеты Ерi info, РЕРI, 1 Вауегs, служащие для статистической обработки эпидемиологических данных.

Практически все статистические пакеты обеспечивают широкий набор средств визуализации данных: построение графиков, двух- и трехмерных диаграмм, а часто и различные средства деловой графики.

для обработки медико-биологической информации обычно используют универсальные пакеты программ обработки данных, такие как STATGRAPHICS,STADIA,SYSTAT,SPSS,Statistiсaи другие.

Электронные таблицы или табличные процессорыменее удобны для анализа медицинских данных. Тем не менее, простейшая статистическая обработка данных в диссертационных работах час то проводится именно с помощью электронных таблиц вследствие их широкой распространенности.

Электронные таблицы предназначены, в основном, для организации относительно несложных расчетов с большим количеством идентичных данных, например, бухгалтерских расчетов.

Все распространенные электронные таблицы позволяют вычислять значения элементов таблиц по заданным формулам, строить по данным в таблице различные графики и т. д. Многие из них предоставляют и дополнительные возможности. Некоторые из них расширяют возможности по обработке данных — трехмерные таблицы, связь с базами данных и т. д

Наиболее популярные электронные таблицы Suprecalc,QuatroPRO,Lotus1-2-3, Ехсеl и другие по мере развития стали оснащаться средствами статистической обработки данных. И, хотя даже самые мощные из них (Ехсеl) существенно уступают специализированным па кетам обработки данных, тем не менее, в такие пакеты включены наиболее часто используемые статистические процедуры: средства описательной статистики, методы регрессионного анализа, средства анализа временных рядов, сглаживания и прогнозирования.

Сравнительные характеристики основных пакетов дляобработки и анализа данных.Рассмотрим подробнее сравнительные характеристики наиболее распространенных пакетов, используемых для обработки и анализа данных:STATGRAPHICS,SPSS,Statistiсaи Ехсеl. Все эти пакеты работают в средеWindowsоднако имеют определенные отличия.

В частности, пакет SPSSсоздавался еще для "больших" машин и последовательно переводился для работы в среде 00$, а затемWindows. Пакет хорошо отработан, приближается по своим возможностям к профессиональным пакетам, и реализация статистических процедур хорошо приспособлена к практической работе.

Пакет Statistiса специально создавался для работы в средеWindows. Отличается наиболее развитым интерфейсом с пользователем; богатыми графическими возможностями.

Пакет STATGRAPHICSразрабатывался для работы в средеDOS, а затем был адаптирован к операционной системе ‚. По своим характеристикам пакет занимает промежуточное положение междуSPSSиStatistika.

Электронная таблица. Ехсеl включена в рассмотрение ввиду широкого распространения при простейшем статистическом анализе данных. Важным преимуществом пакета Ехсеlявляется его русифицированность. Поэтому, в частности, пакет Ехсеl может быть также использован и при оформлении результатов работы.

Заметим, что в настоящее время появляются новые версии рассматриваемых пакетов.

Цифры 1—4 в таблице отражают экспертную оценку автора пре имуществ одного пакета перед другими (1 — высшая степень).

2.5. Основные принципы выбора пакета для анализа данных

Первым предварительным этапом работы по компьютерному анализу данных является выбор пакета программ для анализа данных. Только после знакомства с пакетом и его освоения можно приступать непосредственно к обработке и анализу данных.

При выборе пакета для анализа данных можно выделить два аспекта:

а) первоначальный выбор пакета анализа

б) текущий выбор при переходе на более современный, более мощный пакет. Подходы в обоих случаях несколько отличаются.

В первом случае на выбор накладываются следующие ограничения.

1. Возможности компьютера.

2. Возможности получения установочной версии пакета.

3. Характеристика пакета. -

По первому пункту следует выбирать наиболее современные версии пакетов из тех, которые могут быть установлены на имеющийся компьютер. Второй пункт очевиден — выбирать можно из тех пакетов, которые доступны. Что касается характеристик пакета, то здесь следует рассмотреть такие аспекты: а) вычислительные возможности, б) удобство работы, в) сложность освоения.

а) Вычислительные возможности. В случае если необходимо обрабатывать медицинские данные умеренных объемов (до нескольких тысяч наблюдений) стандартными статистическими методами, то лучше всего использовать универсальные пакеты. Если смотреть с позиций врача-исследователя, то все современные универсальные статистические пакеты по своим вычислительным возможностям полностью покрывают возможные потребности (Statistika,SPSS,SAS,Statgraphics,Systatи другие пакеты, работаю в операционной системе ‚Windows95,98). Тем не менее, всегда следует убедиться, что выбранный пакет содержит требуемые методы обработки.

б) Удобство работы. Все современные пакеты достаточно удобны в работе (когда они уже освоены).

в) Сложность освоения. По сложности освоения пакеты несколько различаются и здесь следует отдать предпочтение

- русифицированным пакетам, пакетам, по которым имеется доступная литература, пакетам, по которым имеется возножность пройти курс обучения.

Следует заметить, что без крайней необходимости (невозможность обеспечить необходимую обработку данных) не желательно

менять выбранный и освоенный пакет анализа, так как это приведет

к значительному увеличению трудозатрат.

• Теперь о подходе при замене пакета на более современную версию. Здесь есть две крайности:

1. Стремление к постоянному обновлению, установке самых последних версий пакетов — обычно отнимает много сил, не позволяет выработаться полезным стереотипам действий, в то же время не приводит к ощутимому росту возможностей.

2. Привязанность к устаревшим пакетам — чаще всего не позволяет в полной мере использовать возможности современной техники и программного обеспечения.

Существует некий эмпирический оптимум, который может определиться примерным сроком эксплуатации пакета в 5—7 лет, по истечении которого целесообразно осуществлять переход к более современным пакетам. При этом предпочтительно выбирать очередную версию того же пакета, который использовался ранее (например, DOS-версию пакетаStatgraphicsможно заменить на версию пакета Statgraphics дляWindows.) Преемственность значительно облегчает процесс перехода.

Ниже будут описаны основные приемы работы с одним из наиболее часто используемых статистических пакетов — пакетом 5 удовлетворяющим всем вышеперечисленным требованиям, который может быть рекомендован в качестве основного пакета для анализа и обработки данных медицинских исследований.

56

55

3

54

4

53

5

52

6

51

7

50

8

49

9

48

10

47

11

46

12

45

13

44

43

14

15

42

16

41

17

40

18

39

19

38

20

37

36

21

22

35

34

23

24

33

25

32

26

31

27

30

28

29