Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лабораторная работа №3_ГИС-07 Проверка статисти....doc
Скачиваний:
8
Добавлен:
15.07.2019
Размер:
616.45 Кб
Скачать

Введение

Решение многих геологических задач основано на принципе аналогии, когда для объяснения особенностей строения слабо изученных объектов используют закономерности, установленные при изучении аналогичных объектов. Для правильного выбора объекта-аналога необходимо оценить степень его сходства с исследуемым объектом.

В других случаях, например, при интерпретации многих геофизических данных возникает необходимость оценить степень различия геологических объектов по тем или иным физическим свойствам.

Для объективного решения вопроса о сходстве или различии геологических объектов используются статистические методы проверки гипотез о равенстве числовых характеристик их свойств. В геологической практике чаще всего эти методы используются для суждения:

  • о равенстве средних значений изучаемого признака, полученных разными методами для одного и того же объекта или одним методом для различных объектов;

  • о равенстве дисперсий двух случайных величин по выборочным данным;

  • об однородности изучаемого объекта.

Статистическая проверка гипотез производится с помощью критериев согласия.

Критерием согласия называется значение некоторой функции , где - случайные величины, характеризующие проверяемую гипотезу. Функция выбирается таким образом, чтобы в случае правильности проверяемой гипотезы ее значения представляли бы собой случайную величину с заранее известным распределением.

Проверяемая гипотеза принимается, если значение , вычисленное через выборочные значения величин , окажется меньше или больше (в зависимости от формулировки гипотезы) теоретического значения для аналогичных условий и заданной вероятности , которое берется по известному распределению. Вероятность при этом соответствует уровню вероятности практически невозможного события и называется уровнем значимости.

Соответственно вероятность , определяющая область, в пределах которой правильность принятого решения будет практически достоверным событием, называется доверительной вероятностью.

Статистическая проверка гипотез

Для проверки предположения о законе распределения изучаемого признака, а также для сравнения числовых характеристик (параметров) различных выборок используют понятия гипотез и критерия значимости.

Любое предположение относительно распределения случайной величины называют статистической гипотезой, а правило, по которому на основании имеющихся наблюдений принимают или отвергают гипотезу, называют критерием ее проверки. Для выработки критерия надо указать интервал, в пределах которого возможные значения изучаемого параметра встречаются с наибольшей вероятностью.

Если теоретическое значение параметра укладывается в этот интервал, то гипотеза не противоречит наблюдениям. Область, в которой вероятность наблюдения статистической величины достаточно велика, называется областью принятия гипотезы. Область с малой вероятностью нахождения называется областью непринятия гипотезы, или критической областью. Для проверки гипотезы задают уровень значимости, т. е. Некоторое малое число . Если гипотеза верна , то критерий приводит к неверному решению в 100 процентах случаев и к верному решению в 100 процентах случаев. Выделяют односторонние и двусторонние критерии. Односторонний критерий устанавливает область принятия гипотезы как , а двусторонний критерий – как .

Гипотеза называется простой, если требуется проверить одну единственную гипотезу, и сложной, если проверяется не одна, а две гипотезы и больше.

Для проверки гипотезы соответствия статистической функции распределения теоретической (например, нормальной) в практике обработки геофизических данных получили распространение следующие критерии.

Критерий Колмогорова, согласно которому вычисляется величина , где – максимум модуля разности между статистической функцией распределения и теоретической. По величине в соответствии с ее распределением находится вероятность . Если мала (обычно меньше 0,5), то гипотеза о соответствии и отвергается.

Критерий Пирсона, или хи-квадрат , согласно которому вычисляется величина

, (1.1)

где – число значений случайной величины в i-м разряде гистограммы; – вероятность соответствующего теоретического распределения.

По значению и числу степеней свободы (s – число наложенных связей) с помощью таблиц вероятностей определяется вероятность того, что величина, имеющая распределение с k степенями свободы, превысит данное значение . Если эта вероятность мала, то гипотеза о соответствии выборочного и теоретического распределений отвергается. Например, для равна соответственно 0,9; 0,5; 0,01.

Число степеней свободы определяется разностью между числом разрядов r и числом наложенных связей s. Для сопоставления с нормальным законом распределения число s равно трем, поскольку для вычисления теоретических значений используются оценки среднего и дисперсии, полученные по выборке (это дает две связи), а задание конкретного вида распределения (нормального) добавляет еще одну связь.

Теоретические частоты, например для нормального распределения, устанавливают следующим образом. Находят оценки среднего и дисперсии: и . Случайную величину центрируют и нормируют, переходя к значениям , вычисляют концы разрядов гистограммы: . Далее определяют теоретические вероятности попадания значений в интервалы по формуле . И, наконец, находят теоретические частоты .

Следует отметить, что при использовании критерия , в отличие от критери Колмогорова, необходимость вычисления оценок среднего и дисперсии по выборочным данным учитывается путем уменьшения числа степеней свободы. На изменение числа степеней свободы влияет и изменение числа разрядов гистограммы, т. е. Способ группировки данных. Критерий Колмогорова такого согласования не предусматривает, поэтому он часто дает завышенные значения вероятности .

Критерий Смирнова предложен для проверки гипотезы о принадлежности двух выборок к одной и той же генеральной совокупности. Мерой расхождения двух статистических функций распределения и является величина . Далее определяется параметр , и по таблице для закона распределения Колмогорова находится . При гипотеза об одинаковом распределении X и Y отвергается.

Для проверки однородности двух выборочных распределений используется также критерий в виде

. (1.2)

Этот критерий при больших и распределен по закону с степенями свободы.

Для малых выборок и гипотеза об их принадлежности одной и той же генеральной совокупности проверяется с помощью критерия Вилкоксона, основанного на подсчете числа инверсий. Под инверсией понимают следующее. Если наблюдения, полученные в двух выборках, расположить в общую последовательность в порядке возрастания их значений, например, как , и если при этом какому-либо значению соответствует некоторое значение , то такая пара дает инверсию. Для приведенной последовательности и дают по одной инверсии (с ), дает четыре инверсии (с ), – шесть инверсий. Гипотеза о принадлежности выборок одной и той же совокупности отвергается, если общее число инверсий превосходит выбранную с учетом уровня значимости границу. Эта граница определяется из условия нормального распределения для общего числа инверсий со средним и дисперсией .

Часто вместо сравнения самих распределений, когда выборочное распределение построить трудно, ограничиваются проверкой гипотезы о равенстве числовых характеристик: среднего, дисперсии и др.

Для сравнения средних двух выборок и можно использовать расчет доверительных интервалов и с помощью таблицы 1.1. Если эти интервалы пересекаются, то с вероятностью можно утверждать равенство и .

Учитывая асимптотическую нормальность распределений и (исходя из центральной предельной теоремы), можно говорить об их равенстве с вероятностью при выполнении условия

, (1.3)

где – γ-квантиль (0,1) нормального распределения.

Критерий (1.3) удовлетворительно работает при и .

Аналогично, по пересечению доверительных интервалов, проверяется гипотеза о равенстве любых других числовых характеристик двух выборок.

Более точный метод сравнения средних двух выборок базируется на критерии Стьюдента. Если распределения выборок предполагаются нормальными, то при выполнении условия , где

, (1.4)

а – γ-квантиль распределения Стьюдента с степенями свободы, с вероятностью можно считать . Например, для и критические значения равны соответственно 2,23; 2,09; 2,02.

Для проверки гипотезы о равенстве дисперсий двух выборок (например, при сравнении точности двух приборов) можно воспользоваться расчетом доверительных интервалов и и принять гипотезу при условии их пересечения.

Более точный метод сравнения дисперсий в предположении о нормальности распределений обеих выборок основан на критерии Фишера. Согласно этому критерию отношение выборочных дисперсий

, (1.5)

где , подчиняется распределению Фишера с и степенями свободы.

Гипотеза о равенстве дисперсий принимается с вероятностью при , где есть γ-квантиль распределения Фишера. Например, для и критические значения равны соответственно 2,98; 2,12; 1,84.

ПРОВЕРКА ГИПОТЕЗ О РАВЕНСТВЕ СРЕДНИХ

(МАТЕМАТИЧЕСКИХ ОЖИДАНИЙ)

Необходимость сравнения средних значений изучаемых свойств геологических объектов возникает при решении широкого круга задач во всех отраслях геологических наук. Так, например, согласно мнению многих петрологов, средний химический состав лав вулканов и интрузивных пород отражает в общих чертах особенности состава породивших их глубинных магматических очагов. Путем сравнения различных эффузивных и интрузивных пород по среднему содержанию в них химических элементов это позволяет судить о комагматичности (т. е. генетическом родстве) эффузивных и интрузивных образований, о принадлежности интрузивных образований к определенному магматическому комплексу или двух вулканических построек к одному глубинному магматическому очагу.

Известно, что метаморфические породы характеризуются устойчивыми парагенетическими ассоциациями с небольшим (2–4) числом породообразующих минералов. Различия в наборе и процентных соотношениях этих минералов отражают различия в химическом составе исходных пород, претерпевших метаморфизм. Статистические методы проверки гипотезы о равенстве средних содержаний породообразующих минералов используются для стратиграфического расчленения метаморфических комплексов и корреляции их разрезов при детальном геологическом картировании.

В палеонтологии статистические методы проверки гипотезы о равенстве средних способствуют объективному разделению семейств ископаемых организмов на виды. Для выделения нового вида необходимо доказать, что данная группа ископаемых организмов существенно отличается по среднему значению какого-либо морфологического признака, например, по степени сферичности (брахиоподы Pentremites calyx) или углу между линиями замкового шва и краем вентрального синуса (Spirifer pennatus).

В процессе разведки месторождения о надежности выбранного способа отбора проб обычно судят по контрольным пробам, которые отбираются другим, более надежным, способом, но, как правило, более трудоемким и дорогим. Проверка гипотезы о равенстве средних содержаний полезного компонента, рассчитанных по рядовым и контрольным пробам, позволяет объективно решить вопрос о наличии или отсутствии систематических ошибок в результатах рядового опробования. Число подобных примеров можно было бы увеличить. Общим во всех перечисленных случаях является невозможность уверенного решения задач такого типа путем визуального сравнения средних значений свойств, так как они характеризуются большой изменчивостью, а объем выборок часто бывает невелик. Как правило, выборочные оценки средних обладают значительными дисперсиями и могут заметно различаться даже для совершенно аналогичных объектов.

Для решения перечисленных задач используются параметрические и непараметрические критерии согласия, учитывающие свойства выборочных оценок.

Параметрические критерии согласия выводятся из свойств известных статистических законов распределения. Для их использования необходимо предварительно проверить гипотезу о соответствии выборочных данных теоретическому закону распределения. Непараметрические критерии могут использоваться даже в том случае, если закон распределения сравниваемых случайных величин неизвестен.

Наиболее часто в геологической практике употребляется параметрический критерий Стьюдента t. Его применение основано на том, что если из нормально распределенной совокупности отобраны выборки объемом в значений и выборки объемом в значений, то величина

(3.1)

подчиняется закону распределения Стьюдента с степенями свободы. В формуле (3.1) , - выборочные оценки среднего, а , - выборочные оценки дисперсий. Проверка гипотезы о равенстве двух выборочных средних заключается в подстановке в формулу (3.1) оценок и по первой и и по второй выборке и сравнении полученного значения критерия t с табличным для данного числа степеней свободы и заданной доверительной вероятности. Если расчетное значение критерия превышает табличное, то гипотеза о равенстве выборочных средних отвергается.

В случае соответствия выборочных данных логнормальной модели для проверки гипотезы о равенстве средних рекомендуется использовать критерий Д. А. Родионова. Д. А. Родионовым было установлено, что величина

(3.2)

распределена асимптотически нормально с математическим ожиданием 0 и дисперсией 1. Поэтому при проверке гипотезы о равенстве средних с помощью этого критерия теоретическое значение величины t находится не по таблице распределения Стьюдента, а по таблице значений интегральной функции Лапласа.

Непараметрические критерии: критерий Ван дер Вардена, Вилкоксона (Манна-Уитни) и других – используются обычно при малом объеме выборок или в тех случаях, когда средние значения рассчитаны по полуколичественным данным, например, по результатам полуколичественного спектрального анализа.

Проверка гипотезы о равенстве средних, определенных по двум выборкам (А и Б) с помощью критерия Ван дер Вардена, начинается с того, что все значения по обеим выборкам ранжируются, т. е. записываются в один ряд в порядке возрастания. критерий представляет собой величину

, (3.3)

где - общее количество значений по двум выборкам;

- число наблюдений в выборке Б;

- порядковый номер каждого значения выборки Б в общем ряду;

функция, обратная функции нормального распределения.

При величина распределена асимптотически нормально с математическим ожиданием 0 и дисперсией . Процедура проверки гипотезы сводится к расчету всех значений аргумента , нахождению по таблицам обратной функции нормального распределения значений функции для этих аргументов, суммированию значений функции и сравнению полученного значения критерия с табличным для заданного уровня значимости, общего числа наблюдений и разницы между объемами выборок А и Б. Если расчетное значение больше табличного, гипотеза о равенстве выборочных средних отвергается.

Другие параметрические критерии строятся аналогичным образом.