Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекції_медінформатика_2013.doc
Скачиваний:
1
Добавлен:
01.05.2025
Размер:
5.6 Mб
Скачать

2. Елементарні статистичні характеристики

Імовірність — кількісна міра об'єктивної можливості поя­ви події при реалізації певного комплексу умов. Імовірність події А позначається як Р(А) та виражається в частках одиниці або у відсотках. Міра ймовірності — діапазон її числових зна­чень від 0 до 1 або від 0 до 100 %.

Частота появи події (статистична ймовірність) — це від­ношення кількості випадків, у яких реалізувався певний ком­плекс умов (m), до загальної кількості випадків (n): р(А)=m/n.

Випадкова подія — подія, яка при реалізації визначеного комплексу умов, може відбутися або не відбутися, її імовір­ність перебуває в межах 0<Р(А)<1 або 0<Р(А)<100 %

Достовірна подія — подія, яка при реалізації визначеного комплексу умов відбудеться неодмінно, її імовірність станови­тиме 1 або 100 %.

Неможлива подія — подія, яка при реалізації визначеного комплексу умов не відбудеться ніколи, її імовірність станови­тиме 0.

Події, які складаються в тім, що в результаті випробування з'явиться яке-небудь із можливих значень випадкової величини, є несумісними й утворять повну групу подій.

3. Єлементи математичної статистики та їх використання в медицині.

Статистична сукупність — це група однорідних елемен­тів, узятих разом у конкретних умо­вах часу та простору. Оскільки дослідження генеральної су­купності або неможливе, або вимагає невиправдано великої роботи, краще обійтися більш обмеженим матеріалом, який і називають вибіркою.

Вибірка — група елементів, вибрана для дослідження з усієї сукупності. Завдання вибіркового методу полягає в тому, щоб зробити правильні висновки щодо генеральної сукупності. Наприклад, лікар робить висновок про склад крові пацієнта на основі аналізу її кількох крапель.

Варіаційний ряд — це ряд числових значень якоїсь певної ознаки, відмінних одне від одного за своєю величиною та роз­ташованих у ранговому порядку.

Таблиця 1. Варіаційний ряд

X

х1

х2

.

xі

.

хk

М

m1

m2

.

mі

.

mk

Р=m/n

р1

р2

.

рі

.

рk

Характеристики варіаційного ряду:

— xі, х2, ... хk — варіанти (числове вираження ознаки, що вивчається);

— m1, m2, ... mk — частоти варіант (числа, що вказують, скільки разів зустрічається ця варіанта у варіаційному ряду);

— р1, р2, ... рk — відносні частоти (Р=m/n);

— n — загальна кількість спостережень (сума варіант, з яких складається варіаційний ряд).

Змінні — величини, які можна виміряти в дослідженнях та контролювати. Для статистичного аналізу використовують аб­солютні, відносні та середні величини.

Абсолютні величини застосовують при наданні характе­ристики загальної чисельності сукупності, а також при оцінці рідкісних явищ.

Серед відносних величин можна виділити екстенсивні та інтенсивні показники. Екстенсивні показники характеризу­ють розподіл цілого на складники. Звичайно екстенсивні по­казники виражаються у відсотках.

Інтенсивні показники використовують при вивченні по­ширеності явища в тому чи іншому середовищі. Ключові слова — частота виявлення, поширеність. Для їх обчислення недо­статньо знати лише величину явища, що цікавить нас, слід знати ще величину того середовища, у якому це явище спос­терігається.

Деякі середні характеристики вибірки:

середнє значення, математичне очікування (Хс, М) — центр вибірки, навколо якого групуються елементи вибірки;

дисперсія (D) — параметр, що характеризує ступінь відхи­лення елементів вибірки щодо середнього значення. Чим біль­ша дисперсія, тим більші відхилення значень елементів вибір­ки від середнього значення;

або

середнє квадратичне або стандартне відхилення () — міра відхилення елементів вибірки щодо середнього значення;

мода — елемент вибірки з найпоширенішим значен­ням;

медіана — середня величина ознаки, що змінюється, перебуває в середині ряду, розташованого в порядку зростання або зменшення значень ознаки. Медіана — значення ознаки, що змінюється, ділячи безліч даних навпіл так, що одна поло­вина більша за медіану, а інша — менша.

У медичних дослідженнях достатньою вважається ймовір­ність появи події не менше 0,95 або 95 % . При вивченні захво­рювань або ситуацій, що мають найважливіші медико-соціальні наслідки або високі показники летальності та інвалідності, а також при фармакологічних дослідженнях імовірність появи події має становити не менше 0,99 (99%).

З акон великої кількості: при достатньо великій кількості спостережень випадкові відхилення взаємно погашаються та виявляється стійкість деяких параметрів, яка виражається в основній закономірності. Отже, що більше проведено дослід­жень, тим результат точніший. Звичайно в медичних дослід­женнях використовують вибірки з не менше ніж 30 спостере­женнями.

Нормальний (гаусовий, симетричний) розподіл імовірності є законом, який характеризує розподіл безперервних випадкових величин, якщо вони є ре­зультатом дії різних причин. Характерним прикладом нор­мального розподілу величин можуть бути частота дихання, частота серцевих скорочень, динаміка росту популяцій та ін..

Методи аналізу даних у медицині та охороні здоров'я:

графічний метод (для візуального подання даних та результатів аналізу);

метод визначення взаємозв'язку між вибірками — знаходження коефіцієнта кореляції, що визначає ступінь лінійного взаємозв'язку. Значення коефіцієнта кореляції не залежить від масштабу вимірювання. Пропорційність означає просто лінійну залеж­ність.

Кореляційний аналіз, регресійний аналіз.

Кореляційна залежність – це така залежність між величинами, що кожному значенню однієї випадкової величини відповідає певний закон розподілу іншої величини. Умовна щільність імовірності величини Y (f(Y/x)) – це щільність імовірності величини Y при зазначеному значенні величини Х. Якщо існують умовні щільності ймовірності величин Y (f(Y/x)) і X ( ), то говорять, що між величинами Y і Х існує кореляційна залежність.

Якщо щільність імовірності випадкової величини Y залежить від значення випадкової величини Х, те й математичне очікування величини Y залежить від цього значення, і можна говорити про умовне математичне очікування випадкової величини Y при заданому значенні величини Х (M(Y/x)). Таким чином, умовне математичне очікування величини Y є функцією величини Х, що математично можна записати так , де функція називається функцією регресії Y на Х. Графік цієї функції називається лінією регресії. Якщо у вираженні для присутні які-небудь постійні коефіцієнти, то вони називаються коефіцієнтами регресії. Аналогічно може бути уведене поняття функції регресії Х на Y. Якщо , то функція - це функція регресії Х на Y, причому в більшості випадків лінії регресії Y на Х и Х на Y – це різні лінії.

Нехай є вибірка з n елементів, для кожного з яких визначаються значення випадкових величин Y й X, причому передбачається, що між цими величинами є кореляційна залежність. Якщо точки з координатами yi й xi (i = 1, 2,…, n) нанести на координатну площину XOY, те вийде так називане кореляційне поле. Виходячи з експериментальних даних, знаходять вибіркову оцінку коефіцієнта кореляції (вибірковий коефіцієнт кореляції), використовуючи формулу

, (1)

де R - вибірковий коефіцієнт кореляції.

Значення вибіркового коефіцієнта кореляції лежать в інтервалі . Якщо R > 0, то функції регресії Y на Х и Х на Y – це зростаючі функції, а якщо R < 0 – убутні. Чим ближче значення до одиниці, тим тісніше точки кореляційного поля згруповані навколо прямій регресії, тобто тим більше підстав уважати функцію регресії лінійної. У цьому випадку говорять про сильну кореляційну залежність. Чим ближче значення R до нуля, тим гірше точки кореляційного поля лягають на пряму, і тем менше підстав уважати функцію регресії лінійної. Разом з тим, малі по модулі значення коефіцієнта кореляції зовсім не обов'язково означають відсутність кореляційної залежності між величинами Y і Х, вони лише означають, що немає достатніх підстав уважати цю залежність лінійної. Таким чином, коефіцієнт кореляції є мірою ступеня лінійності залежності між випадковими величинами, але не мірою ступеня залежності між цими величинами взагалі.

При визначенні функції регресії прийнято вважати оптимальними ті оцінки коефіцієнтів регресії, які отримані на основі застосування методу найменших квадратів.

Суть методу найменших квадратів полягає в тім, що оптимальним значенням коефіцієнтів регресії для функції , уважаються ті, для яких сума

приймає найменше значення.

В окремому випадку лінійної регресії виду

значення коефіцієнтів a й b визначають, мінімізуючи суму . (2)

Для цього знаходять частки похідні вираження (2) по a і по b, дорівнюють ці похідні до нуля й вирішують систему, що виходить, рівнянь. У підсумку для оптимальних вибіркових оцінок коефіцієнтів регресії a й b одержують наступні вираження

; .

З урахуванням виразу (1) останні вирази можуть бути перетворені до вигляду

; .

У випадку регресії Х на Y функція регресії має вигляд

,

а коефіцієнти регресії a1 й b1 обчислюються по формулах

; .

Відзначимо, що лінії регресії Y на Х и Х на Y збігаються тільки в тому випадку, якщо . У цьому випадку між величинами Y і Х є лінійна функціональна залежність.