Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
79
Добавлен:
05.03.2016
Размер:
227.84 Кб
Скачать

Тема 7. Основы статистических методов обработки данных. Использование статистических функций электронной таблицы MS Excel

В медицине и фармации проведение клинических исследований напрямую связано с всесторонним анализом полученных данных. Поэтому изучение прикладной статистики является неотъемлемой частью обучения персонала, принимающего участие не только в статистическом анализе результатов, но и в процессе сбора клинических данных. Этические и экономические соображения диктуют необходимость внимательного отношения к планированию клинических исследований. Кроме того, владение методиками обработки информации позволяет персоналу более эффективно организовать процедуру сбора исходных данных. Статистика находит повседневное применение в лабораторной практике.

Таким образом, знание принципов статистики абсолютно необходимо для планирования, проведения и анализа исследований, посвященных оценке различных ситуаций и тенденций в фармации.

Вариация признака (или фактора, или результатов измерения) возникает, если их значения меняются от индивидуума к индивидууму или для одного индивидуума во времени. Едва ли не всем характеристикам организма человека, будь то физиологические, биохимические или иммунологические, свойственна вариабельность. Кроме того, возникает проблема обработки результатов очень большого числа измерений.

Генеральная совокупность состоит из всех единиц наблюдения, которые могут быть к ней отнесены в соответствии с целью исследования. Естественно, практически это невозможно, поэтому при изучении здоровья населения генеральная совокупность рассматривается в пределах конкретных границ, очерченных территориальным или производственным признаком, и поэтому включает в себя определенное число наблюдений.

Выборочная совокупность (выборка) – часть генеральной совокупности, по свойствам которой судят о генеральной совокупности. На основе анализа выборочной совокупности можно получить достаточно полное представление о закономерностях, присущих всей генеральной совокупности. Выборочная совокупность должна быть репрезентативной, т.е. в отобранной части должны быть представлены все элементы в том соотношении, как и в генеральной совокупности. Выборочная совокупность должна отражать свойства генеральной совокупности, т.е. правильно ее представлять.

Сложности возникают при попытках обобщить характеристики в группе больных или популяционной группе; решить, какое значение той или иной характеристики будет идеальным, нормальным, средним и т.п.; сопоставить две группы больных или две популяционных группы по конкретной характеристике.

Поскольку обычно имеется совокупность наблюдений (десятки, сотни, а иногда – тысячи результатов измерений индивидуальных характеристик), то возникает задача компактного описания имеющихся данных. Для этого используют методы описательной статистики – описания результатов с помощью различных показателей и графиков.

Все изучаемые показатели варьируются, но не все они поддаются непосредственному измерению. Так возникает деление на количественные и качественные показатели.

Для результатов измерений в шкале отношений показатели описательной статистики можно разбить на несколько групп:

- показатели (меры) положения описывают положение экспериментальных данных на числовой оси. Примеры таких данных – максимальный и минимальный элементы выборки, среднее значение, медиана, мода и др.;

- показатели (меры) рассеяния описывают степень разброса данных относительно своего центра (среднего значения). К ним относятся: выборочная дисперсия, разность между минимальным и максимальным элементами (размах, интервал выборки) и др.

- показатели асимметрии: положение медианы относительно среднего и др.

- графическое представление распределения данных, например, в виде гистограммы, эмпирической функции распределения и др.

Данные показатели используются для наглядного представления и первичного («визуального») анализа результатов измерений характеристик экспериментальной и контрольной группы.

Меры положения это общее понятие для числового выражения локализации данных (на числовой оси) как типичного результата измерения. Самыми распространенными из них являются среднее и медиана.

Среднее арифметическое, которое очень часто называют просто «среднее», получают путем сложения всех значений и деления этой суммы на число значений в наборе. Это можно показать с помощью алгебраической формулы. Набор n наблюдений переменной x можно изобразить как . В таком случае формула для определения среднего арифметического наблюдений имеет вид (5.1):

(5.1).

Например, измерив артериальное давление у десяти пациентов с целью исследовать систолическое давление, т.е. только одно число, получим: серия наблюдений (статистическая совокупность) артериального систолического давления в 11-ти наблюдениях имеет следующий вид:

Таблица 5.1

120

115

120

125

120

115

120

115

120

120

125

Среднее арифметическое значение в данном ряду будет равно . Таким образом, мы можем получить характеристику, которая одним числом описывает ряд значений.

Медиана. Если упорядочить данные по величине, начиная с самой маленькой величины и заканчивая самой большой, то медиана также будет характеристикой усреднения в упорядоченном наборе данных. Медиана делит ряд упорядоченных значений пополам с равным числом этих значений как выше, так и ниже ее (левее и правее медианы на числовой оси).

Вычислить медиану легко, если число наблюдений n нечетное. Это будет наблюдение номер . Если n четное, то, строго говоря, медианы нет. Однако обычно можно вычислять ее как среднее арифметическое двух соседних средних наблюдений в упорядоченном наборе данных (т. е. наблюдений номер и ).

В рассмотренном выше примере медиана равна 120.

Мода – это значение, которое встречается наиболее часто в наборе данных; если данные непрерывные, то их обычно группируют и вычисляют модальную группу. Некоторые наборы данных не имеют моды, потому что каждое значение встречается только 1 раз. Иногда бывает более одной моды; это происходит тогда, когда 2 значения или больше встречаются одинаковое число раз и встречаемость каждого из этих значений больше, чем любого другого значения. В этом случае мода совпадает с минимальным модальным значением.

Для данных из таблицы 1 мода, очевидно, равна 120.

Заметим важную особенность моды и медианы: на их величины не оказывают влияние числовые значения крайних вариант.

Меры рассеянияэто статистические показатели, характеризующие степень вариации, разброса значений признака относительно среднего значения (для признаков, имеющих количественный характер) и равномерного распределения (для признаков качественного типа). В зависимости от типа признаков существуют различные меры рассеяния.

Размах (интервал изменения) – это разность между максимальным и минимальным значениями переменной в наборе данных.

Расположим данные, полученные в таблице 5.1, упорядоченно:

Таблица 5.2

115

115

115

120

120

120

120

120

120

125

125

.

Дисперсия. Величина одного и того же признака неодинакова у всех членов совокупности. Например, в группе студентов рост каждого учащегося отличается от роста сверстников. В этом проявляется разнообразие изучаемого параметра.

Один из способов измерения рассеяния данных заключается в том, чтобы определить степень отклонения каждого наблюдения от средней арифметической. Очевидно, что чем больше отклонение, тем больше изменчивость, вариабельность наблюдений. Однако невозможно использовать среднее этих отклонений как меру рассеяния, потому что положительные отклонения компенсируют отрицательные отклонения (их сумма равна нулю). Чтобы решить эту проблему, можно возвести в квадрат каждое отклонение и найти среднее возведенных в квадрат отклонений; эта величина называется дисперсией. Если имеется n наблюдений , среднее арифметическое, то дисперсия рассчитывается по формуле (5.2):

(5.2)

Единицы измерения (размерность) дисперсии – это квадрат единиц измерения первоначальных наблюдений. Например, если измерения производятся в килограммах, то единица измерения дисперсии будет «килограмм в квадрате».

Стандартное отклонение. Стандартное (среднеквадратичное) отклонение () – это положительный квадратный корень из дисперсии. Оно вычисляется в тех же единицах (размерностях), что и исходные данные и характеризует степень рассеивания вариационного ряда вокруг средней. Чем меньше , тем более типична, точна средняя.

На практике часто приходится сравнивать изменчивость признаков, выраженных разными единицами, например, рост в см и масса в кг. Если разделить стандартное отклонение на среднее арифметическое и выразить результат в процентах, получится коэффициент вариации. Он является мерой рассеяния, не зависящей от единиц измерения (безразмерной) (5.3).

(5.3).

При наблюдается слабое разнообразие признака, при 10%<Cv<20% – среднее разнообразие признака, при – сильное разнообразие признака.

Стандартная ошибка среднего. Случайные ошибки выборок возникают за счет того, что для анализа всей совокупности используется только ее часть. Хотя выборочный метод и позволяет обоснованно судить о средней арифметической некоторого количественного признака генеральной совокупности по средней арифметической, исчисленной по выборке, это, однако, не означает, что выборочная средняя совпадает с генеральной средней. Она, как правило, в той или иной степени от нее отличается. Величина ошибки выборки представляет собой разность между генеральной и выборочной средними. Ошибки выборки различны для каждой конкретной выборки и в принципе могут быть обобщенно охарактеризованы с помощью средней из всех таких отдельных ошибок. В математической статистике получены формулы, которые позволяют приближенно вычислить среднюю ошибку выборки, основываясь на данных только той выборки, которая имеется в распоряжении исследователя.

Стандартная ошибка среднего отражает точность оценки среднего значения признака в популяции по его выборке. Небольшая стандартная ошибка (существенно меньше соответствующего среднего значения) означает достаточно точную оценку. Стандартная ошибка уменьшится, т. е. оценка станет более точной, если объем выборки увеличится или данные имеют небольшое рассеяние (дисперсию). При неограниченном увеличении объема выборки стандартная ошибка среднего обращается в 0. Следовательно, эта величина не имеет никакого биологического смысла.

Cтандартная ошибка среднего арифметического может быть найдена по формуле (5.4): , (5.4)

где – среднее квадратическое отклонение, – количество параметров в выборочной совокупности.

Понятие вероятности. Вероятность того или иного события при числе наблюдений оценивается по простой формуле. Если число наблюдаемых конкретных событий при числе наблюдений равно , то вероятность равна отношению числа наблюдений, в которых было обнаружено событие к общему числу наблюдений (5.5):

(5.5)

Пример: Пусть мы изучили 2000 историй болезни больных туберкулезом. В этом случае число наблюдений . Среди просмотренных историй болезни у 100 пациентов было обнаружено снижение количества тромбоцитов (тромбоцитопения) (). В этом случае вероятность тромбоцитопении равна: .

Вероятность можно оценить в непрерывной шкале от 0 до 1 включительно. Событие, которое невозможно, имеет вероятность 0, а событие, которое произойдет обязательно, имеет вероятность 1. Вероятность дополнительного события (события не происходящего) равна единице минус вероятность события.

Математическое ожидание. Пусть определена совокупность измерений систолического давления у некоторой группы обследуемых (табл. 5.2).

Что можно сказать о величине АД в следующем, двенадцатом наблюдении, которое мы не проводили? В полной мере оценить эту величину мы не можем, а лишь дать вероятностную оценку, т.е. предсказать значение с той или иной долей вероятности.

Любое измеренное нами значение АД является случайной величиной. Если имеется какая-либо зависимость, описывающая эту случайную величину, то принято говорить, что случайная величина характеризуется функцией вероятности. В этом случае, основываясь на полученных результатах, можно прогнозировать ту величину, которая будет получена в следующих измерениях. Такая прогнозируемая величина называется математическим ожиданием. Попытаемся определить величину математического ожидания для нашего случая.

Для этого вначале сгруппируем одинаковые результаты и оценим вероятность (в долях единицы) их появления в нашем наблюдении (табл. 5.3):

Таблица 5.3

Систолическое АД (Х)

число пациентов

вероятность (Р)

115

3

3/11

120

6

6/11

125

2

2/11

Так как общее число наблюдений составило 11, то каждое появление того или иного результата представляет собой вероятность, равную 1/11.

Очевидно, что любой эмпирический опыт дает возможность с той или иной степенью правильности предсказывать или прогнозировать будущее. В теории статистики бытовое понимание феномена предсказания приобретает более очерченное звучание в форме понятия математического ожидания.

Математическое ожидание () вычисляется по следующей формуле (5.6):

(5.6) .

Математическое ожидание - это сумма попарных произведений наблюдаемой величины на вероятность ее появления в данном наблюдении.

В рассмотренном нами случае вариационного ряда систолического давления математическое ожидание исследуемой величины составляет:

.

Таким образом, наиболее вероятной будет величина, составляющая 119,55 мм рт. ст.

При изучении общественного здоровья и здравоохранения в научных и практических целях исследователю часто приходится проводить статистический анализ связей между факторными и результативными признаками статистической совокупности (причинно-следственная связь) или определение зависимости параллельных изменений нескольких признаков этой совокупности от какой либо третьей величины (от их общей причины). Необходимо уметь изучать особенности этой связи, определять ее размеры и направление, а также оценивать ее достоверность. С этой целью используется корреляционный и регрессионный анализ.

Корреляционный анализ. Отличительной чертой биологических объектов является многообразие признаков, характеризующих каждый из них. Так, человека можно охарактеризовать возрастом, ростом, весом, различными физиологическими показателями и т. д. Имея однородную совокупность объектов, можно изучить распределение их по любому из их признаков. Весьма часто можно усмотреть известную связь между вариациями по различным признакам. Например, вес образцов, сделанных из одного и тoгo же материала, полностью определяется их объемом. Такую зависимость принято называть функциональной. Для биологических объектов связь обычно бывает менее «жесткой»: объекты с одинаковым значением одного признака имеют, как правило, разные значения по другим признакам. Такую связь между вариациями разных признаков называют корреляцией (дословный перевод: соотношение) между признаками.

Стандартный способ выявления взаимосвязи нескольких переменных, измеряемых в порядковой или интервальной шкалах, – подсчет коэффициента корреляции. Коэффициент корреляции одним числом измеряет силу связи между изучаемыми явлениями и дает представление о ее направленности. По направлению связь может быть прямой или обратной. По силе связи коэффициенты корреляции колеблются от 1 (полная связь) до 0 (отсутствие связи). Коэффициент корреляции может иметь значение от –1 до +1, т.е. иметь отрицательное либо положительное значение. В этих случаях говорят об обратной или прямой корреляционной взаимосвязи. Величина коэффициента характеризует силу корреляционной взаимосвязи.

Чем ближе модуль коэффициента корреляции к единице, тем сильнее или глубже корреляционная взаимосвязь между двумя вариационными рядами. Модульное значение выше 0,8 характеризуют сильную взаимосвязь, в интервале 0,8-0,5 – выраженную взаимосвязь, 0,5-0,2 – слабую взаимосвязь, менее 0,2 (0,2 – 0) – отсутствие взаимосвязи(рис. 7.1).

Рис. 7.1. Схема оценки силы корреляционной связи по величине коэффициента корреляции.

Коэффициент корреляции для нормально распределенных наблюдений (коэффициент корреляции Пирсона) рассчитывается по формуле (7.1):

, (7.1)

где и – варианты сопоставляемых вариационных рядов, и отклонение каждой варианты от своей средней арифметической (и ).

Важно отметить, что установление корреляции между признаками само по себе еще не дает оснований делать какие-либо заключения о причинно-следственных связях между ними. В случае несгруппированной совокупности может быть получено наглядное представление о наличии или отсутствии корреляции путем построения так называемого корреляционного поля (рис. 7.2). Вытянутость корреляционного поля в диагональном направлении свидетельствует о наличии корреляции между обоими признаками. Если число вариант вели­ко, то корреляционное поле часто имеет вид более или менее правильного эллипса со сгущением точек в центре и сравнительно редким их расположением на периферии; отклонение осей эллипса от координатных направлений указывает на наличие корреляции.

Рис. 7.2. Корреляционное поле.

Регрессионный анализ. При наличии корреляционной связи между факторными и результативными признаками врачам нередко приходится устанавливать, на какую величину может измениться значение одного признака при изменении другого.

Например, как изменится масса тела школьников 1-го класса (девочек или мальчиков), если рост их увеличится на 1 см. В этих целях применяется метод регрессионного анализа.

Наиболее часто метод регрессионного анализа применяется для разработки нормативных шкал и стандартов физического развития.

Регрессия – функция, позволяющая по средней величине одного признака определить среднюю величину другого признака, корреляционно связанного с первым.

Уравнение регрессии используется для построения линии регрессии. Последняя позволяет без специальных измерений определить любую среднюю величину у одного признака, если меняется величина х другого признака. По этим данным строится график – линия регрессии, по которой можно определить, например, среднее число простудных заболеваний при любом значении среднемесячной температуры в пределах между расчетными значениями числа простудных заболеваний.

Использование статистических функций MS Excel

Соседние файлы в папке 1 СЕМЕСТР. Информатика. Темы всех занятий 1-15 .rar