Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Одномерная математическая статистика и регрессионный анализ)

..pdf
Скачиваний:
5
Добавлен:
12.11.2023
Размер:
8.85 Mб
Скачать

Рис. 2.3. Графики плотности вероятностей и функции равномерного распределения

Непрерывная случайная величина «подчиняется равномерному закону распределения, если ее возможные значения лежат в пределах некоторого определенного интервала, кроме того, в пределах этого интервала все значения случайной величины обладают одной и той же плотностью вероятности (одинаково вероятны). С такими случайными величинами специалисты часто встречаются в измерительной практике при округлении отчетов измерительных приборов до целых делений шкал» [38], например при взятии отчётов в процессе измерения горизонтальных углов теодолитом [47]. В этом случае погрешность при округлении отсчета до ближайшего целого деления является случайной величиной, которая с постоянной плотностью вероятности принимает любое значение между соседними целыми делениями.

2.11.4. Распределение Пирсона 2 (хи-квадрат)

Распределение случайной величины можно представить в следующем виде:

X = x12 + x22 + x32 + … + xn2,

где случайные величины x1, x2, x3, xn независимы и имеют одно и то же распределение N (0, 1) (читается так: подчиняющееся нормальному закону распределения вероятностей с нулевым

61

средним и единичным стандартом). Число слагаемых, т.е. n, называется «числом степеней свободы» распределения 2 (хиквадрат). Распределение 2 с n степенями свободы – это распределение суммы квадратов n независимых стандартных нормальных случайных величин. При этом чем больше степеней свободы, тем сильнее данное распределение сходится к нормальному закону распределения [20]. Распределение 2 – используют при оценивании дисперсии (с помощью доверительного интервала), при проверке гипотез согласия, однородности, независимости, прежде всего для качественных (категоризованных) переменных, принимающих конечное число значений, и во многих других задачах статистического анализа данных.

2.11.5. Распределение t Стьюдента4

Распределение случайной величины:

T

U n

,

(2.26)

X

 

 

 

где случайные величины U и X независимы, называется распределением Стьюдента. При этом U имеет «стандартное нормальное распределение N (0, 1), а X – распределение 2 с n степенями свободы. В настоящее время распределение Стьюдента – одно из наиболее известных распределений среди используемых при анализе реальных данных. Его применяют при оценивании математического ожидания, прогнозного значения и других характери-

4 Распределение Стьюдента было введено в 1908 г. английским статистиком В. Госсетом, работавшем в то время на пивной фабрике. В те времена руководство этой компании, опасаясь конкуренции, запрещало своим сотрудникам любые публикации по технологии производства, в связи с чем В. Госсет был вынужден пользовался псевдонимом «Студент». История ГоссетаСтьюдента показывает, что уже более сотни лет назад менеджеры Великобритании верили в большую экономическую эффективность вероятностностатистических методов [38].

62

стик с помощью доверительных интервалов, по проверке гипотез о значениях математических ожиданий, коэффициентов регрессионной зависимости, гипотез однородности выборок» [38].

2.11.6. Распределение Фишера5

Распределение случайной величины:

F

X1 / k1

,

(2.27)

 

 

X 2 / k2

 

где случайные величины Х1 и Х2 независимы и «имеют распределения 2 с числом степеней свободы k1 и k2, соответственно, называется распределением Фишера. Распределение Фишера используют в процессе проверки гипотез об адекватности модели в регрессионном анализе, о равенстве дисперсий и в других задачах прикладной статистики [38].

5 Распределение случайной величины F названо в честь английского стати- стикаР.Фишера(1890–1962),активноиспользовавшегоеговсвоихработах.

63

3.СТАТИСТИЧЕСКИЕ ГИПОТЕЗЫ

3.1.Основные понятия

Вгорном деле, как и в других областях, в первую очередь инженерные службы определяют простейшие статистики – среднее значение, дисперсию, размах и некоторые другие [21; 54; 68]. Например, установить среднее значение полезного компонента по сильвинитовому пласту ВКМКС, разброс данных относительно среднего. Эти параметры определяются по ограниченному количеству проб участка пласта и при планировании горных работ распространяются на весь участок. Поэтому возникает вопрос, можно ли доверять таким данным. Ответ на этот вопрос можно получить на основании постулата математической статистики о том, как получить информацию о закономерностях изменения изучаемого геологического признака (к примеру, мощности пласта) для планируемой к отработке площади разведанного пласта по небольшому набору проб, отобранных в подготовительных выработках. По существующим канонам математической статистики ставится задача: необходимо сделать выводы об основных свойствах генеральной совокупности по имеющейся и, как правило, небольшой по размеру выборке [1; 12]. В классической математической постановке для решения таких задач выдвигается некоторое предположение об этих свойствах, именуемое статистической гипотезой. В этом разделе рассмотрим вопросы о том, что такое статистические гипотезы и какие существуют способы их проверки.

Как правило, в геологии и горном деле объёмы данных значительны, и чаще всего они подчиняются нормальному закону распределения. Но на небольших участках, планируемых

кразработке, проб может быть немного. А нам необходимо выполнить проверку на подчинение измерений мощности по выра-

64

боткам нормальному закону. У этого закона распределения (далее – распределения) два параметра – математическое ожидание

идисперсия.

Вдругих случаях исследователю требуется на основе тех или иных данных решить, справедливо ли некоторое суждение. Например, на поверхности рудника два выпускника-маркшей- дера, у которых выполнены проверки теодолитами одной точности, провели измерения горизонтальных углов в теодолитных ходах методом приёмов. Из двух полуприёмов по каждому ходу получены отклонения. Который из выпускников выполнил измерения углов качественнее или результаты измерений статистически не отличаются?

Всвязи с разнообразием решаемых задач статистические гипотезы можно разложить на несколько основных типов: гипотезы о подчинении выборки нормальному закону распределения вероятностей; гипотезы о числовых значениях параметров выборки; гипотезы об однородности средних или дисперсий двух или нескольких выборок или некоторых характеристик анализируемых совокупностей и др. [1].

Проверку гипотез об однородности выборок можно выполнить строгим способом с проверкой на подчинение нормальному закону распределения вероятностей. В этом случае проверяется гипотеза о том, что функции распределения выборок незначимо отличаются друг от друга. Но чаще проверяют однородность выборок упрощенно: выборки однородны, если незначимо отличаются их параметры, прежде всего среднее и дисперсия. Поскольку исходные данные для таких суждений в той или иной мере носят случайный характер, то и ответы можно выдать только с определенной степенью достоверности, поскольку имеется и некоторая вероятность ошибиться [12]. Причина тому – исследуется не вся генеральная совокупность, а ограниченная выборка. В рассмотренном примере среднее отклонение углов в минутах в по-

луприемах у первого выпускника Е1 = 0,0, а стандарт σ1 = 0,52. Соответственно, у второго выпускника Е2 = 1,0 и стандарт

65

σ2 = 0,58. Стандартные отклонения примерно одинаковы, а не равное нулю среднее значение разностей углов в полуприёмах, измеренных вторым выпускником, может свидетельствовать о наличии коллимационной ошибки у теодолита второго выпускника. Но при измерении двумя полуприёмами она взаимно исключается и не влияет на результаты при вычислении горизонтального угла. В этом случае придётся признать квалификацию второго выпускника ниже, чем у первого.

Ранее указывалось, что весь статистический анализ базируется на предположении случайного характера выборки. Мы принимаем постулат, что имеющиеся данные появились как результат случайного выбора из некоторой генеральной совокупности, нередко воображаемой. В решении различных задач горной промышленности мы полагаем, что этот случайный выбор произведен природой, но во многих задачах эта генеральная совокупность вполне реальна и выбор из нее произведен горным инженером – активным наблюдателем.

В разделе 2.3 отмечалось, что вероятность события есть численная мера появления возможности этого события. Принцип, заключающийся в том, что маловероятные события на практике рассматриваются как невозможные, носит название «принципа практической невозможности маловероятных событий» [20]. Его формулируют так: если вероятность события А в данном испытании очень мала, то при однократном выполнении испытания можно быть уверенным в том, что событие А не произойдет и в практической деятельности вести себя так, как будто событие А вообще невозможно.

Такой принцип предполагает однократное выполнение опыта. Если же произведено много опытов, в каждом из которых вероятность события очень мала, то вероятность того, что это событие произойдёт хотя бы один раз в массе испытаний, существенно повышается. И в этом случае при многократном повторении испытаний мы уже не можем считать маловероятное событие практически невозможным.

66

События, происходящие с вероятностями, весьма близкими к единице, считаются практически достоверными (принцип практической достоверности). Поскольку мы приняли вероятностную точку зрения на происхождение наших данных (т.е. считаем, что они получены путем случайного выбора), следовательно, и все дальнейшие суждения, основанные на этих данных, также должны иметь вероятностный характер. Всякое утверждение будет верным лишь с некоторой вероятностью, и с некоторой, вероятностью оно может оказаться неверным. В приведенном примере без каких-либо доказательств указано, что стандартные отклонения примерно одинаковы. Но справедливо ли это суждение? Для его подтверждения можно выдвинуть статистическую гипотезу о равенстве дисперсий и выполнить её проверку.

Выводы, полученные путём проверки статистических гипотез, также носят вероятностный характер, так как они принимаются с некоторой вероятностью. Насколько малой должна быть вероятность события, чтобы его можно было считать практически невозможным? На этот вопрос нельзя дать количественного ответа, пригодного во всех случаях. Ответ зависит от того, какой опасностью грозит нам ошибка. Довольно часто при проверке статистических гипотез используют малые вероятности начиная с 0,01…0,05. Такая вероятность предполагает, что из 100 сравнений ошибочными будут не более одного или не более пяти. В медицине и некоторых других отраслях, где проверяемая гипотеза будет связана с жизнью человека, вероятность её негативного проявления должна быть мала (0,001 или 0,01), а в горном деле она может составлять величины, равные 0,05–0,1.

3.2. Виды статистических гипотез

Итак, в разговорном языке слово «гипотеза» означает некоторое предположение или суждение. В таком же смысле оно употребляется и в научном языке, когда речь идёт в основном

67

о предположениях, вызывающих сомнения. В классической математической статистике термин «гипотеза» означает предположение, которое также вызывает сомнения и которое мы должны в данный момент проверить. С другой стороны, в ходе построения статистической модели нам приходиться делать много различных допущений и предположений, и далеко не все из них мы собираемся или можем проверить. Эти предположения относятся как к выборочному пространству, так и к распределению вероятностей на нем [1]. Для принятия выдвинутых предположений используется принцип практической уверенности (достоверности) (п. 3.1), лежащий в основе формирования выводов и рекомендаций с использованием теории вероятностей и математической статистики.

Статистические гипотезы подразделяются на нулевые и альтернативные, направленные и ненаправленные.

Нулевая гипотеза. Эта гипотеза формулируется как отсутствие различий, отсутствие влияния фактора, отсутствие различия значения выборочной характеристики от заданной величины (например, нуля) и т.п. Как правило, она не является для исследователя предметом и целью доказательства. Она обозначается как Н0 и называется нулевой потому, что содержит нуль (например, разность двух средних выборок: (x 1 x 2) = 0 или величину, близкую к нулю, где x 1, x 2 – сопоставляемые средние значения признаков. Иногда (например, при компьютерных расчётах) вместо нуля может стоять некоторая малая величина E – машинный нуль (числовое значение, меньше которого невозможно задавать относительную точность для используемого алгоритма, возвращающего вещественные числа).

Нулевая гипотеза – это то, что мы хотели бы опровергнуть, если перед нами стоит задача доказать значимость различий [20]. Например, выдвигаем гипотезу о равенстве стандартов в примере с измерением углов в теодолитных ходах, запишем её так: Н0: «σ1 не отличается от σ2»; против альтернативы Н1:

68

«σ1 отличается от σ2». Здесь первая часть выражения представляет нулевую гипотезу (Н01 неотличаетсяотσ2,илиσ1–σ2=0).

Альтернативная гипотеза – это гипотеза о значимости различий. Она обозначается как Н1. Альтернативная гипотеза (Н1: σ1 отличается отσ2) – это то, что мы хотим доказать, поэтому иногда ее называют экспериментальной, или рабочей, гипотезой. Обычно основной интерес исследователя сводится именно кподтверждению альтернативной гипотезы. Нулевая и альтернативная гипотезы представляют полную группу несовместных событий:отклонениеоднойвлечетпринятиедругой[1].

Иногда в задачах мы хотим доказать, как раз незначимость различий, т.е. должны подтвердить нулевую гипотезу. В науке принято считать, что различия незначимы, если не доказано обратное. Поэтому основной принцип проверки гипотезы – доказательство «от противного», т.е. опровергнуть гипотезу H0 и тем самым принять без доказательства гипотезу H16. В случае, когда мы не можем опровергнуть нулевую гипотезу, это значит, что мы должны её принять.

В рассмотренном примере дисперсии незначительно отличаются друг от друга, но нам нужно убедиться, что разные выпускники имеют одинаковую квалификацию, и в этом случае неравенство дисперсий не должно являться значимым. В некоторых других случаях нам все-таки требуется доказать значимость различий, поскольку они могут дать задел для нас в изыскании новых решений.

Первоначально всегда выдвигается нулевая гипотеза Н0. В процессе применения конкретного статистического метода перед исследователем стоит дилемма: принять нулевую гипотезу Н0 или отклонить её и тогда придётся принять альтернативную гипотезу Н1.

6 Целесообразностью такого подхода могут служить слова Альберта Эйнштейна (1879–1955): «Ни один эксперимент не говорит теории да. Он может сказать только может быть или нет ».

69

Нулевая и альтернативная гипотезы могут быть направленными и ненаправленными.

Направленные гипотезы. Н0: х1 не превышает х2; Н1: х1 пре-

вышает х2.

Ненаправленные гипотезы. Н0: х1 не отличается от х2;

Н1: х1 отличается от х2.

Направленные гипотезы часто используются в общественных науках, например социологии. В технических дисциплинах чаще применяются ненаправленные гипотезы.

Проверка гипотез осуществляется с помощью критериев статистической оценки различий [1]. Критерии могут быть параметрическими и непараметрическими. В разделе 2 приводятся общиесведенияопараметрическойинепараметрическойстатистике.

Параметрические критерии это критерии, включающие в формулу расчета параметры распределения (например, средние и дисперсии для t-критерия Стьюдента, критерия Фишера F и др.).

Непараметрические критерии это критерии, не вклю-

чающие в формулу расчета параметры распределения и основанные на оперировании частотами или рангами (Q-критерий Розенбаума, U-критерий Манна – Уитни, Критерий Колмогорова – Смирнова, Т-критерий Уилкоксона и др.) [60; 66].

При нормальном распределении признака параметрические критерии обладают большей мощностью, чем непараметрические критерии. Они способны отвергать нулевую гипотезу, если она неверна. Поэтому во всех случаях, когда сравниваемые выборки взяты из нормально распределяющихся совокупностей, следует отдавать предпочтение параметрическим критериям [32].

В случае очень больших отличий распределений признака от нормального вида следует применять непараметрические критерии, которые оказываются часто более мощными именно в этой ситуации. В задачах, когда варьирующие признаки выражаются не числами, а условными знаками или рангами, применение непараметрических критериев оказывается единственно возможным.

70

Соседние файлы в папке книги