
- •Частина 1 Базові поняття статистики
- •Передмова
- •1. Вступ до геостатистики Характер геологічної інформації
- •Шкали вимірювання кількісних даних
- •Первинне опрацювання інформації
- •Системний аналіз геологічних об’єктів і процесів
- •Три типи математичних моделей
- •Роль математичної статистики в опрацюванні геологічних даних
- •Завдання математичної статистики
- •Загальна схема розв’язування геологічних задач
- •Геостатистика: між ейфорією та скепсисом
- •2. Головні поняття теорії Ймовірностей
- •Головні властивості ймовірностей
- •Приклад обчислення ймовірностей за допомогою частотного відношення
- •Властивості функції розподілу
- •Характеристики випадкових величин
- •4. Головні закони розподілу, які використовують у геостатистиці
- •Біноміальний закон розподілу
- •Закон розподілу Пуассона
- •Нормальний закон розподілу, або розподіл Гауcса
- •Логарифмічно нормальний (логнормальний) розподіл
- •Інші закони розподілу
- •Розподіл Стьюдента (t-розподіл)
- •Розподіл хі-квадрат
- •Розподіл Фішера (f-розподіл)
- •5. Точкові та інтервальні оцінки статистичного матеріалу (параметрів геологічної сукупності) Критерії оцінювання
- •Точкові оцінки для математичного сподівання, дисперсії, асиметрії та ексцесу
- •Інтервальна оцінка для математичного сподівання
- •Мінімально необхідна кількість вимірювань для оцінювання математичного сподівання із заданою точністю
- •Інтервальна оцінка для дисперсії
- •Дисперсія асиметрії та ексцесу й перевірка гіпотези про нормальний розподіл
- •6. Перевірка геологічних гіпотез Поняття про статистичне доведення
- •Шість етапів статистичного доведення
- •Похибки першого й другого роду
- •Параметричні й непараметричні критерії
- •Критерій погодженості хі-квадрат
- •7. Порівняння двох об’єктів за середнім та дисперсією Критерії Велча й Вілкоксона
- •Критерії Фішера й Сіджела–Тьюкі
- •Список Рекомендованої літератури
- •Список Довідкової Літератури
- •Деякі Інтернет-ресурси
- •Геостатистика
Приклад обчислення ймовірностей за допомогою частотного відношення
Нехай у низці експериментів фіксують покази двох приладів. Подія A полягає в тому, що показ першого приладу менший від критичного значення, аналогічно – для події B. Зобразимо події A та B на часовому ряді вертикальними лініями, якщо відповідні події відбулися, і крапками, якщо вони не відбулися. Нехай отримано вибірку, показану на рис. 2.2:
n = 7; kA = 5, kB = 3;
р(A) = 5/7, р(B) = 3/7, р(A+B) = 6/7, р(AB) = 2/7.
Рис. 2.2.
Перевірка формули додавання ймовірностей:
6/7 = 5/7 + 3/7 – 2/7 правильно!
р(AB) = 2/3, р(BA) = 2/5
Перевірка формули ймовірності добутку подій через умовні ймовірності:
2/7 = (3/7)×(2/3) = (5/7)×(2/5) правильно!
6. Формула ймовірності для повної системи подій. Маємо подію A та набір гіпотез (подій) (H1, H2, …, Hn) Систему подій Hj, j=1, …, n називають повною, якщо вони
1) попарно не перетинаються р(HiHj) = 0 і хоча б одна з них обов’язково відбудеться;
2) разом утворюють вірогідну подію р(H1)+…+ р(Hn) = 1;
3) покривають подію A H1+…+Hn.
Розглянемо події AH1, …, AHn – теж попарно несумісні. Тоді згідно з пунктами 4-5
р(A) = р(H1)
р(AH1)+…+
р(Hn)
р(AHn)
=
,
що й називають формулою повної ймовірності (рис. 2.3).
Рис. 2.3.
7. Формули ймовірності гіпотез (формули Байєса). В умовах виведення формули повної ймовірності (тобто виконуються всі умови пункту 6) розглянемо ймовірність суміщення події A в разі виконанні гіпотези Hi згідно з пунктом 5
р(AHi) = р(Hi) р(AHi) = р(A) р(HiA)
З останньої рівності з урахуванням формули повної ймовірності (пункт 6) знайдемо
Цей вираз називають формулою Байєса.
Формули Байєса застосовують для розв’язування задач, що вкладаються в таку схему. Нехай випадкова подія A може відбутися за різних умов. Щодо цих умов можна зробити n припущень (гіпотез), імовірності яких відомі. Нехай також відомі ймовірності події A за умов кожної з гіпотез. Проводимо експеримент, тобто реалізуємо всю сукупність сприятливих умов, за яких може відбутися подія A. Тепер за результатами реальної появи події A можна переоцінити (уточнити) ймовірність гіпотез. Тому формули Байєса називають ще формулами ймовірності гіпотез. У цих формулах маємо два типи ймовірностей:
1) апріорні (відомі до експерименту): р(Hi), р(AHi);
2) апостеріорні р(HiA) – знайдені в результаті експерименту (досвід).
Приклад. У результаті геохімічного опробування виявлено межі зони ореолу, де можна очікувати підвищеного вмісту деякого хімічного елемента (подія А). Поза цими межами переважають проби з фоновою концентрацією. Завдання: класифікувати окремо взяту нову пробу (поділ на фон і ореол), тобто уточнити межі ореолу. Приймемо систему рівноможливих гіпотез: HО – проба взята з ореолу, HФ – проба взята з території із фоновим значенням, р(HО) = р(HФ) = 0,5. Проби з підвищеним вмістом деякого хімічного елемента трапляються, наприклад, у семи випадках з десяти р(AHО) = 0,7, тоді як на території з фоновим значенням – р(AHФ) = 0,1. Наведені ймовірності є апріорними, взятими з досвіду чи довідника. Згідно з формулами Байєса
р(HОA) =0,5×0,7/(0,5×0,7+0,5×0,1) = 0,7/0,8 = 0,875.
Отже, уточнене значення ймовірності гіпотези HО для проби з підвищеним вмістом дорівнює 0,875, тобто з імовірністю майже 0,9 точку відбору проби можна класифікувати як таку, що взята з ореолу.
3. функція розподілу. характеристики статистичного матеріалу
Форми відображення кількісної інформації
Зібраний статистичний матеріал можна навести
а) аналітично (формула);
б) таблично (стовпці – вимірювані величини, рядки – проби);
в) графічно (графіки, діаграми, схеми, карти).
Класифікація випадкових величин
а) дискретні дані (окремі значення, в окремих точках, в окремі моменти часу);
б) неперервні (будь-які значення на шкалі вимірювань, у будь-якій точці (координаті) і момент часу);
в) згруповані – проміжний варіант між а та б.
Побудова гістограм
Гістограма – це графічне зображення частоти потрапляння даних у задані інтервали. Якщо додаткової інформації про бажані інтервали групування нема, то використовують рівномірне розбиття (за допомогою формули Стеджерса):
, (3.1)
де
– обсяг вибірки. Тоді крок розбиття
(довжина інтервалу):
. (3.2)
Тут [ ] – ціла частина числа. Після визначення меж інтервалів формують таблицю згрупованих даних (табл. 3.1). Контрольними числами у побудованій таблиці будуть: сума стовпця “Кількості” (дорівнює обсягу вибірки ), сума стовпця “Відносні частоти” (дорівнює 1). Зазначимо, що кожен з інтервалів охоплює праву і не охоплює лівої межі, а тому деколи крайні межі дещо розширюють, щоб охопити найменші та найбільші значення.
Таблиця 3.1
Згруповані дані для побудови гістограми
Номер інтервалу (групи) |
Межі |
Кількості вимірювань |
Відносні частоти |
Накопичені частоти |
|
нижня |
верхня |
||||
0 |
-∞ |
z0=xmin |
n0 |
p0 ≈ n0/N |
F(z0)= p1 |
1 |
z0=xmin |
z1= z0+∆ |
n1 |
p1 ≈ n1/N |
F(z1)= =F(z0)+ p2 |
… |
zi |
zi+1= zi+∆ |
… |
… |
F(zi+1)= =F( pi)+ pi+1 |
[k] |
zk-1 |
zk= zk-1 + +∆=xmax |
nk |
pk ≈ nk/N |
F(zk)=1 |
Графік (стовпцева діаграма), побудований за стовпцем “Відносні частоти”, називають гістограмою. Якщо сполучити середини стовпців частот, то утворена ламана буде полігоном частот.
Якщо є багато експериментів, то в границі (для вибірки нескінченного обсягу, N→∞, або генеральної сукупності) отримаємо теоретичну функцію розподілу (або просто функцію розподілу). Вона характеризує ймовірність потрапляння експериментальних даних у той чи інший інтервал (діапазон).
Розрізняють два види функцій розподілу:
1) густина розподілу p(x);
2) інтегральна функція розподілу (іноді просто функція розподілу) F(x).
Теоретична функція розподілу є однією
зі статистичних характеристик матеріалу
і відображає ймовірність появи значень
у певному діапазоні. Густина розподілу
p(x)
– це ймовірність появи значень, що
дорівнюють x (для
дискретних величин) або значень у
малому околі
(диференціал імовірності
).