
- •Частина 1 Базові поняття статистики
- •Передмова
- •1. Вступ до геостатистики Характер геологічної інформації
- •Шкали вимірювання кількісних даних
- •Первинне опрацювання інформації
- •Системний аналіз геологічних об’єктів і процесів
- •Три типи математичних моделей
- •Роль математичної статистики в опрацюванні геологічних даних
- •Завдання математичної статистики
- •Загальна схема розв’язування геологічних задач
- •Геостатистика: між ейфорією та скепсисом
- •2. Головні поняття теорії Ймовірностей
- •Головні властивості ймовірностей
- •Приклад обчислення ймовірностей за допомогою частотного відношення
- •Властивості функції розподілу
- •Характеристики випадкових величин
- •4. Головні закони розподілу, які використовують у геостатистиці
- •Біноміальний закон розподілу
- •Закон розподілу Пуассона
- •Нормальний закон розподілу, або розподіл Гауcса
- •Логарифмічно нормальний (логнормальний) розподіл
- •Інші закони розподілу
- •Розподіл Стьюдента (t-розподіл)
- •Розподіл хі-квадрат
- •Розподіл Фішера (f-розподіл)
- •5. Точкові та інтервальні оцінки статистичного матеріалу (параметрів геологічної сукупності) Критерії оцінювання
- •Точкові оцінки для математичного сподівання, дисперсії, асиметрії та ексцесу
- •Інтервальна оцінка для математичного сподівання
- •Мінімально необхідна кількість вимірювань для оцінювання математичного сподівання із заданою точністю
- •Інтервальна оцінка для дисперсії
- •Дисперсія асиметрії та ексцесу й перевірка гіпотези про нормальний розподіл
- •6. Перевірка геологічних гіпотез Поняття про статистичне доведення
- •Шість етапів статистичного доведення
- •Похибки першого й другого роду
- •Параметричні й непараметричні критерії
- •Критерій погодженості хі-квадрат
- •7. Порівняння двох об’єктів за середнім та дисперсією Критерії Велча й Вілкоксона
- •Критерії Фішера й Сіджела–Тьюкі
- •Список Рекомендованої літератури
- •Список Довідкової Літератури
- •Деякі Інтернет-ресурси
- •Геостатистика
Три типи математичних моделей
Рис. 1.2. Рис. 1.3.
Математичні моделі можна класифікувати так.
1. ПРИЧИННО-НАСЛІДКОВА (ДЕТЕРМІНОВАНА МОДЕЛЬ), для якої маємо функціональну (відому) залежність (рис. 1.2) вихідних параметрів (реакцій) системи Y від вхідних факторів Х :
Y=F(X)
Y={Y1, ..., Yn}, X={X1, ..., Xn},
де F={Fi} описують структуру системних зв’язків. Цей тип моделі стосується внутрішнього опису, що передбачає виявлення механізмів взаємозв’язку між елементами системи і вже на їхній підставі визначення реакцій системи, якщо задані зовнішні фактори (пряма задача), або підбір таких зовнішніх факторів, які б давали задану реакцію системи (зворотна задача):
X=F-1(Y).
2. АКТИВНИЙ ЕКСПЕРИМЕНТ: відомі значення факторів X, але невідомі точні значення реакції на них компонентів об’єкта (або елементів системи) (рис. 1.3):
Y=F(X)+ (X),
де – точність, тобто похибки вимірювань, вплив неврахованих факторів, методологічна (системна) похибка. Якщо << F(X), де (X) < – задане мале число, то кажуть, що експеримент виконано із заданою точністю. Точність, як звичайно, вимірюють у відсотках, наприклад, значення 5% (інженерна похибка) задає широко прийнятий на практиці рівень / F 0,05, де вираз у дужках називають ще відносною точністю (похибкою). Навпаки, величину = Y – F(х) називають абсолютною точністю.
Якщо похибка незначна, то маємо модель, близьку до детерміністичної (визначеної), як у випадку причинно-наслідкового зв’язку. Якщо ж сумірне (одного порядку) з F(х), то величина Y буде ймовірнісною, тобто більш-менш точно передбачити наперед реакцію системи неможливо в рамках детермінованого підходу.
3. ЙМОВІРНІСНА (за природою, від початку) модель; дослідникові наперед невідомі точні значення ні факторів Х, ні реакцій Y:
П(X) П(Y),
де П – символ підмножини. Замість функціональної залежності тут розглядають залежність між підмножинами, які визначають на підставі спеціальної міри – ймовірності Р (англ. probability).
Допустимість імовірності трактування елементів, що утворюють множину Y, визначена, з одного боку, їхньою випадковістю, а з іншого – емпірично спостережуваною повторюваністю появи певних значень Y за неодноразової повторної реалізації комплексу зовнішніх умов F П(х).
Рис. 1.4.
Роль математичної статистики в опрацюванні геологічних даних
Одні з найпростіших системних моделей у геології – імовірнісні (статистичні). Їхня мета полягає в математичному опрацюванні значних обсягів інформації (даних вимірювань), відображеної в цифрах. Як звичайно, статистичні моделі використовують для зовнішнього опису системи, коли природа взаємозв’язків між елементами системи маловивчена або несуттєва.
Математична статистика займається плануванням і статистичним описом результатів досліджень, побудовою та перевіркою математичних моделей для масових випадкових подій.
Геостатистика є прикладною дисципліною і визначає правила й можливості застосування математичної статистики в комплексі наук про Землю. У вужчому значенні геостатистика – це математична теорія розвідування корисних копалин та оцінювання їхніх просторових властивостей. З іншого боку, саме прикладні задачі (практика опрацювання даних вимірювань) були і є стимулом розвитку теоретичних основ математичної статистики.
Умови коректного застосування методів математичної статистики такі.
Масовість означає, що хоча окремий результат вимірювання не є точним, та у разі повторних вимірювань результат (змінну величину) можна оцінити з набагато ліпшою точністю.
Сукупність спостережень називають ще статистичним матеріалом, а їхню кількість – обсягом (розміром, об’ємом, довжиною, тривалістю: залежно від природи вимірювань) спостережень. За обсягом статистичний матеріал класифікують на малий (до 20 спостережень), середній (20–50 спостережень), великий (50–500), дуже великий (500–1000) і надвеликий (це тисячі спостережень).
Випадковість означає, що результат окремого вимірювання є наперед невідомим. У практиці геологічних досліджень цього досягають спостереженнями на рівномірній сітці (якщо можливо) або максимальним зменшенням впливу суб’єктивного фактора. Часто доводиться згущувати (деталізувати) дослідження в певній зоні. Умова випадковості в цьому випадку теж порушується. Очевидно, що статистичний матеріал для цієї зони треба розглядати окремо.
Умова незалежності результатів спостережень від попередніх (і наступних у випадку наявності зворотного зв’язку) або координат простору. Геологічні об’єкти і процеси часто мають просторові та часові залежності, тобто умова незалежності не виконується, що суттєво звужує область застосування статистичних математичних моделей. Однак деколи цими закономірностями можна знехтувати. Наприклад, коли мінливість, спричинена похибкою вимірювань, сумірна з природною мінливістю.
Четверта, остання умова – однорідність спостережень – полягає в тому, що статистичний матеріал повинен належати одному геологічному об’єкту і бути отриманий однаковими методами, приладами тощо.
Приклад: асоціації хімічних елементів у мінералі чи мінералів у породі. Якщо межі геологічного об’єкта задані якісно і наперед, то в результаті кількісного аналізу взаємозв’язків між його складовими може виявитися суттєво різна внутрішня структура (походження, генезис) подібних об’єктів (процесів). Тоді статистичний матеріал треба вміти розділити на декілька однорідних сукупностей з урахуванням виявленої структури взаємозв’язків.
Знову ж таки, на практиці геологи працюють з даними, отриманими в різні роки, різними дослідниками, різними приладами, на підставі різних методологій досліджень, уявлень про процес чи внутрішню структуру геологічних об’єктів. Це знижує ефективність методів математичної статистики в геології.
Якщо ці чотири умови виконуються, то статистичний матеріал відображає статистичну змінну (змінну величину, варіанту). Тут слово статистична означає, що пізнати цю величину (варіанту) можна в результаті реєстрації низки її проявів (ознак), тобто збирання статистичного матеріалу.
Існує декілька підходів до класифікації статистичних змінних. Згідно зі шкалами вимірювань їх поділяють на якісні, порядкові (або рангові) та кількісні; за щільністю значень – на дискретні та неперервні, а за кількістю виміряних параметрів – на одно-, дво- і багатовимірні. Наприклад, дані щодо свердловин є дискретними стосовно просторового характеру простягання геологічного поля, водночас ці дані неперервні стосовно глибини для окремої свердловини. Отже, наведені класифікації не є взаємно незалежними.
Статистичні математичні моделі в геології є одними з найпростіших. Унаслідок обмеженої кількості вимірювань (спостережень) вони допускають отримання помилкових результатів або висновків, які, отже, є відносними (імовірнісними). Крім того, статистичні моделі дають змогу оцінити кількісні зв’язки (пропорції) між геологічними об’єктами чи його ознаками, але не дають інформації про природу цих зв’язків. Це є завданням інтерпретації результатів, у нашому випадку, геологічної, геофізичної чи геохімічної інтерпретації.
Приклад. Нехай виявлено, що в деякому мінералі А вміст одного хімічного елемента становить 10–15%, іншого – 40–60%, ще іншого – 5–10%. Математична статистика не дає відповіді на запитання: чому саме стільки відсотків, а не більше чи менше. Мабуть, повинно бути генетичне пояснення походження цього мінералу внаслідок фізико-хімічних умов, геологічних процесів тощо. З іншого боку, ці кількісні показники можуть слугувати класифікації невідомих зразків щодо зачислення їх до мінералу А.
В основі статистичного моделювання є поняття генеральної сукупності та вибірки. Генеральна сукупність – це абстрактне математичне поняття, яке охоплює всі можливі прояви (значення) випадкової величини (статистичної змінної), що характеризує об’єкт. Вибірка – це сукупність спостережень (вимірювань) цієї випадкової величини.
Приклад. Нехай у непрозорому ящику лежить три кулі: синього (С), зеленого (З) і червоного (Ч) кольору. Беремо навмання кулю. Реєструємо її колір і кладемо назад у ящик. Повторюємо декілька разів. Нехай наш запис містить: ССЗСЧЗ – це вибірка з шести спостережень. СЗЧ – генеральна сукупність. Зазначимо, що за цією вибіркою генеральна сукупність оцінена повністю, тобто ми виявили всі три можливі кольори кульок. Якщо б у наведеній вибірці взяти не більше чотирьох спостережень, то червоний колір кульок не був би виявлений, і висновок про те, що в ящику кульки лише двох кольорів, був би хибним.