
- •Частина 1 Базові поняття статистики
- •Передмова
- •1. Вступ до геостатистики Характер геологічної інформації
- •Шкали вимірювання кількісних даних
- •Первинне опрацювання інформації
- •Системний аналіз геологічних об’єктів і процесів
- •Три типи математичних моделей
- •Роль математичної статистики в опрацюванні геологічних даних
- •Завдання математичної статистики
- •Загальна схема розв’язування геологічних задач
- •Геостатистика: між ейфорією та скепсисом
- •2. Головні поняття теорії Ймовірностей
- •Головні властивості ймовірностей
- •Приклад обчислення ймовірностей за допомогою частотного відношення
- •Властивості функції розподілу
- •Характеристики випадкових величин
- •4. Головні закони розподілу, які використовують у геостатистиці
- •Біноміальний закон розподілу
- •Закон розподілу Пуассона
- •Нормальний закон розподілу, або розподіл Гауcса
- •Логарифмічно нормальний (логнормальний) розподіл
- •Інші закони розподілу
- •Розподіл Стьюдента (t-розподіл)
- •Розподіл хі-квадрат
- •Розподіл Фішера (f-розподіл)
- •5. Точкові та інтервальні оцінки статистичного матеріалу (параметрів геологічної сукупності) Критерії оцінювання
- •Точкові оцінки для математичного сподівання, дисперсії, асиметрії та ексцесу
- •Інтервальна оцінка для математичного сподівання
- •Мінімально необхідна кількість вимірювань для оцінювання математичного сподівання із заданою точністю
- •Інтервальна оцінка для дисперсії
- •Дисперсія асиметрії та ексцесу й перевірка гіпотези про нормальний розподіл
- •6. Перевірка геологічних гіпотез Поняття про статистичне доведення
- •Шість етапів статистичного доведення
- •Похибки першого й другого роду
- •Параметричні й непараметричні критерії
- •Критерій погодженості хі-квадрат
- •7. Порівняння двох об’єктів за середнім та дисперсією Критерії Велча й Вілкоксона
- •Критерії Фішера й Сіджела–Тьюкі
- •Список Рекомендованої літератури
- •Список Довідкової Літератури
- •Деякі Інтернет-ресурси
- •Геостатистика
Властивості функції розподілу
1. Функція розподілу визначена на всій числовій осі: [-∞,+∞]. Якщо вибірка містить значення тільки з деякого діапазону (наприклад, додатні), то для решти значень її можна довизначити нулем (для функції густини розподілу).
2. Змінюється в межах від 0 до 1:
.
3. Інтегральна функція розподілу є монотонно неспадною:
.
4. Площа під графіком функції густини розподілу завжди дорівнює 1 (наслідок із формули для повної системи подій):
або
.
5. Зв’язок між густиною та функцією розподілу такий:
або
.
6. Формули для обчислення ймовірності появи значень із заданого діапазону:
;
;
;
.
Якщо густина розподілу є симетричною
функцією
щодо вертикальної лінії
(рис. 3.1), то
,
зокрема,
для
:
.
Рис. 3.1. Визначення інтервальної ймовірності.
Характеристики випадкових величин
Характеристиками випадкових величин є невипадкові величини (у разі генеральної сукупності). Для вибіркових даних ці характеристики є також випадковими величинами.
Характеристики центральної тенденції
Математичне сподівання Mx для генеральної сукупності (арифметичне середнє для вибірки) – найімовірніше значення, яке отримуємо після багатьох експериментів:
,
або
.
Якщо для всіх i
маємо
,
то
– арифметичне середнє (або надалі просто
середнє).
Медіана Ме – елемент варіаційного ряду (для непарної кількості), що розділяє просортовану за зростанням вибірку навпіл. Для парної кількості елементів вибірки беруть середнє значення між двома центральними елементами:
.
Тут: варіаційний ряд – упорядкування елементів вибірки за зростанням. Тобто медіана – це значення, де функція розподілу дорівнює 0,5 або площа під графіком густини розподілу ліворуч від цього значення дорівнює 0,5.
Мода Mo – значення, яке найчастіше трапляється. Модних значень може бути декілька (тоді говорять про багатомодальний розподіл). Відповідає локальним максимумам густини розподілу:
.
Математичне сподівання, медіана й мода в загальному випадку не дорівнюють одне одному, однак деколи можуть збігатися.
Характеристики розсіяння
Розмах R – різниця між найбільшим і найменшим значенням вибірки
.
Дисперсія D – відображає середньоквадратичне відхилення від математичного сподівання (середнього):
,
або
для дискретних чи
для згрупованих даних.
Середньоквадратичне відхилення σ – це корінь квадратний з дисперсії; має розмірність даних:
Коефіцієнт варіації V – нормоване за середнім значення стандарту, безрозмірна величина:
Центральні моменти вищих порядків:
,
або
для неперервних або дискретних даних, відповідно. Дисперсія є центральним моментом другого порядку.
Інтерквантильна широта.
Квантиль – значення у варіаційному ряді, яке відділяє ліворуч задану кількість значень у відсотках.
Квартиль – це квантиль для 25, 50 або
75%, тобто є три квартилі (
),
які розділяють статистичний матеріал
на чотири однакові частини. Квартиль
для 50% дорівнює медіані. Аналогічно
можна визначити 9 децилів, 99 центилів,
які розділяють статистичний
матеріал, відповідно, на 10 чи 100 однакових
частин.
Інтерквартильна широта – це різниця між третім (75%) та першим (25%) квартилем, що відображає діапазон (середніх) значень, де міститься половина кількості даних (обсягу вибірки):
.
Інші інтерквантильні широти отримаємо, якщо від розмаху вибірки відкинемо (відріжемо) два крайні квантилі:
,
.
Для графічного зображення використовують “ящик із вусами”, на якому мінімальне і максимальне значення позначають рисками, сполученими з блоком, розміщення якого відповідає інтерквартильній широті (рис. 3.2).
Рис. 3.2. Діаграма у вигляді “ящика з вусами”.
Коефіцієнти асиметрії та ексцесу
Асиметрія відображає скошеність графіка густини розподілу (рис. 3.3, а). Якщо графік скошений праворуч (правий схил пологий), то коефіцієнт асиметрії додатний, якщо ж він скошений ліворуч, то коефіцієнт від’ємний, а якщо графік симетричний, то коефіцієнт асиметрії дорівнює нулю:
,
або
–
для неперервних та дискретних величин, відповідно.
Ексцес відображає сплюснутість або видовженість (високовершинність) графіка густини розподілу (рис. 3.3, б):
.
а б
Рис. 3.3. Коефіцієнти асиметрії (а) та ексцесу (б) як характеристика графіків густини розподілу.