6) Вроцлавская таксономия
Результатом работы программы, использующей метод максимального корреляционного пути, являются пары чисел, указывающие порядок «соединения» подлежащих классификации параметров или объектов, наиболее близких попарно. Получающийся кратчайший замкнутый путь можно отобразить графически в виде оптимального дерева (дендрита), как это описано в следующем разделе.
Классифицируемы могут быть параметры либо объекты. Метод похож на метод ближайшей связи, однако относится к алгоритмам типа разрезания графа и напоминает методы вроцлавской таксономии. Если в качестве меры сходства применяется коэффициент корреляции, получается метод максимального корреляционного пути.
Методы иерархической группировки (численной таксономии) исходных множеств получили название кластер-анализа, то есть анализа групп. Первоначально они применялись в биологии и палеонтологии, а в настоящее время широко используются в различных отраслях геолого-минералогических наук, в частности, при классификации парагенетических ассоциаций элементов земной коры.
Термин кластерный анализ (впервые ввел Tryon, 1939) в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, то есть развернуть таксономии. Например, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соответствии с современной системой, принятой в биологии, человек принадлежит к приматам, млекопитающим, амниотам, позвоночным и животным. Заметьте, что в этой классификации, чем выше уровень агрегации, тем меньше сходства между членами в соответствующем классе. Человек имеет больше сходства с другими приматами (то есть с обезьянами), чем с «отдаленными» членами семейства млекопитающих (например, собаками) и т.д. Фактически, кластерный анализ является не столько обычным статистическим методом, сколько «набором» различных алгоритмов «распределения объектов по кластерам». Существует точка зрения, что в отличие от многих других статистических процедур, методы кластерного анализа используются в большинстве случаев тогда, когда вы не имеете каких-либо априорных гипотез относительно классов, но все еще находитесь в описательной стадии исследования. Следует понимать, что кластерный анализ определяет «наиболее возможно значимое решение». Поэтому проверка статистической значимости в действительности здесь неприменима, даже в случаях, когда известны p-уровни (как, например, в методе K-средних).
Задача кластер-анализа сводится к разбиению множества элементов корреляционной матрицы признаков [R] на группы таким образом, чтобы в них объединялись объекты с наивысшими значениями характеристик сходства, а разобщенные группы оставались бы при этом максимально изолированными по данному признаку. В качестве меры сходства могут использоваться непосредственно парные коэффициенты корреляции, m-мерное эвклидово расстояние или другие дистанционные коэффициенты.
МЕТРИКИ
Мера сходства между элементами множеств (типа расстояния) называется метрикой, если она удовлетворяет определенным условиям: симметрии, неравенству треугольника, различимости нетождественных объектов и неразличимости тождественных объектов.
Метрика Минковского
Наиболее общей метрикой является метрика Минковского. Степень разности значений можно выбрать в пределах от 1 до 4. Если эту степень взять равной 2, то получим евклидово расстояние. Расстояние Минковского равно корню r-ой степени из суммы абсолютных разностей пар значений взятых в r-ой степени:
distance(x,y) = {i (xi - yi)r }1/r
Евклидова метрика
Это наиболее часто выбираемый тип расстояния. Это просто геометрическое расстояние в многомерном пространстве. Евклидова дистанция между двумя точками х и у – это наименьшее расстояние между ними. В двух- или трёхмерном случае – это прямая, соединяющая данные точки. Если в метрике Минковского положить r=2, мы получим стандартное евклидово расстояние (евклидову метрику)
distance(x,y) = {i (xi - yi)2 }½
Квадратная евклидова метрика (квадрат евклидова расстояния)
Дает больший по сравнению с евклидовой метрикой вес объектов, которые размещаются более обособленно. Благодаря возведению в квадрат при расчёте лучше учитываются большие разности
distance(x,y) = i (xi - yi)2
Манхеттенское расстояние
Это расстояние просто среднее различие поперечных измерений. При r=1 метрика Минковского дает манхеттенское расстояние (метрику города, city block, Manhattan distance). Эта дистанционная мера, называемая также дистанцией Манхэттена или в шутку – дистанцией таксиста, определяется суммой абсолютных разностей пар значений. Для двумерного пространства это не прямолинейное евклидова расстояние между двумя точками, а путь, который должен преодолеть Манхэттенский таксист, чтобы проехать от одного дома к другому по улицам, пересекающимся под прямым углом
distance(x,y) = i |xi - yi|
Чебышевское расстояние
Эта мера расстояния может быть соответствующая в случаях, когда каждый хочет определить два объекта как «различные», если они различны на любом из измерений. Разностью двух наблюдений является абсолютное значение максимальной разности последовательных пар переменных, соответствующих этим наблюдениям.
distance(x,y) = Maximum|xi - yi|
Пользовательская метрика (степенное расстояние)
Это обобщенный вариант расстояния Минковского. Это расстояние, называемое также степенным расстоянием, равно корню r-ой степени из суммы абсолютных разностей пар значений взятой в р-ой степени:
distance(x,y) = (i |xi - yi|p)1/r,
где r и p - определяемые пользователем параметры. Здесь как для корня, так и для степени суммы можно выбирать значения от 1 до 4. Параметр p ответственен за постепенное взвешивание разностей по отдельным координатам, параметр r ответственен за прогрессивное взвешивание больших расстояний между объектами. Если r и p равны 2, то это расстояние равно евклидовому расстоянию.
Процент различия (несогласия)
Эта мера используется в тех случаях, когда данные являются категориальными. Это расстояние вычисляется как:
distance(x,y) = (Number of xi yi)/i
ПРАВИЛА ОБЪЕДИНЕНИЯ ИЛИ СВЯЗИ
На первом шаге, когда каждый объект представляет собой отдельный кластер, расстояния между этими объектами определяются выбранной мерой. Однако когда связываются вместе несколько объектов, возникает вопрос, как следует определить расстояния между кластерами? Другими словами, необходимо правило объединения или связи для двух кластеров. Здесь имеются различные возможности: например, вы можете связать два кластера вместе, когда любые два объекта в двух кластерах ближе друг к другу, чем соответствующее расстояние связи. Другими словами, вы используете «правило ближайшего соседа» для определения расстояния между кластерами; этот метод называется методом одиночной связи. Это правило строит «волокнистые» кластеры, то есть кластеры, «сцепленные вместе» только отдельными элементами, случайно оказавшимися ближе остальных друг к другу. Как альтернативу вы можете использовать соседей в кластерах, которые находятся дальше всех остальных пар объектов друг от друга. Этот метод называется метод полной связи. Существует также множество других методов объединения кластеров, подобных тем, что были рассмотрены.
Одиночная связь (метод ближайшего соседа). Как было описано выше, в этом методе расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах. Это правило должно, в известном смысле, нанизывать объекты вместе для формирования кластеров, и результирующие кластеры имеют тенденцию быть представленными длинными «цепочками».
Полная связь (метод наиболее удаленных соседей). В этом методе расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (то есть «наиболее удаленными соседями»). Этот метод обычно работает очень хорошо, когда объекты происходят на самом деле из реально различных «рощ». Если же кластеры имеют в некотором роде удлиненную форму или их естественный тип является «цепочечным», то этот метод непригоден.
Невзвешенное попарное среднее. В этом методе расстояние между двумя различными кластерами вычисляется как среднее расстояние между всеми парами объектов в них. Метод эффективен, когда объекты в действительности формируют различные «рощи», однако он работает одинаково хорошо и в случаях протяженных («цепочного» типа) кластеров. Отметим, что в своей книге Снит и Сокэл (Sneath, Sokal, 1973) вводят аббревиатуру UPGMA для ссылки на этот метод, как на метод невзвешенного попарного арифметического среднего - unweighted pair-group method using arithmetic averages.
Взвешенное попарное среднее. Метод идентичен методу невзвешенного попарного среднего, за исключением того, что при вычислениях размер соответствующих кластеров (то есть число объектов, содержащихся в них) используется в качестве весового коэффициента. Поэтому предлагаемый метод должен быть использован (скорее даже, чем предыдущий), когда предполагаются неравные размеры кластеров. В книге Снита и Сокэла (Sneath, Sokal, 1973) вводится аббревиатура WPGMA для ссылки на этот метод, как на метод взвешенного попарного арифметического среднего - weighted pair-group method using arithmetic averages.
Невзвешенный центроидный метод. В этом методе расстояние между двумя кластерами определяется как расстояние между их центрами тяжести. Снит и Сокэл (Sneath and Sokal (1973)) используют аббревиатуру UPGMC для ссылки на этот метод, как на метод невзвешенного попарного центроидного усреднения - unweighted pair-group method using the centroid average.
Взвешенный центроидный метод (медиана). Этот метод идентичен предыдущему, за исключением того, что при вычислениях используются веса для учёта разницы между размерами кластеров (то есть числами объектов в них). Поэтому, если имеются (или подозреваются) значительные отличия в размерах кластеров, этот метод оказывается предпочтительнее предыдущего. Снит и Сокэл (Sneath, Sokal 1973) использовали аббревиатуру WPGMC для ссылок на него, как на метод невзвешенного попарного центроидного усреднения - weighted pair-group method using the centroid average.
Метод Варда. Этот метод отличается от всех других методов, поскольку он использует методы дисперсионного анализа для оценки расстояний между кластерами. Метод минимизирует сумму квадратов (SS) для любых двух (гипотетических) кластеров, которые могут быть сформированы на каждом шаге. Подробности можно найти в работе Варда (Ward, 1963). В целом метод представляется очень эффективным, однако он стремится создавать кластеры малого размера.
ВИЗУАЛИЗАЦИЯ РЕЗУЛЬТАТОВ КЛАСТЕРНОГО АНАЛИЗА
После проведения классификации рекомендуется визуализировать результаты кластеризации путем построения дендрограммы (дендограммы). Для большого числа объектов такая визуализация является единственным способом получить представление об общей конфигурации объектов.
Хотя от графического представления данных во многих методах можно отказаться, иерархические методы кластерного анализа становятся более наглядными, если результаты расчета представить в виде специального графика, называемого дендрограммой (дендограммой).
Предположим, после применения одного из иерархических методов получены результаты классификации в виде величин связи для пар объектов. Идея построения дендрограммы очевидна – пары объектов соединяются в соответствии с уровнем связи, отложенным по оси ординат (рис. VII.1).
Рис. VII.1. Дендрограмма иерархического метода
Диаграмма начинается с каждого объекта в классе (в нижней части диаграммы). Теперь представим себе, что постепенно (очень малыми шагами) вы «ослабляете» ваш критерий о том, какие объекты являются уникальными, а какие нет. Другими словами, вы понижаете порог, относящийся к решению об объединении двух или более объектов в один кластер. В результате, вы связываете вместе всё большее и большее число объектов и агрегируете (объединяете) все больше и больше кластеров, состоящих из все сильнее различающихся элементов. Окончательно, на последнем шаге все объекты объединяются вместе. На этих диаграммах вертикальные оси представляют расстояние объединения (в горизонтальных древовидных диаграммах горизонтальные оси представляют расстояние объединения). Так, для каждого узла в графе (там, где формируется новый кластер) вы можете видеть величину расстояния, для которого соответствующие элементы связываются в новый единственный кластер. Когда данные имеют ясную «структуру» в терминах кластеров объектов, сходных между собой, тогда эта структура, скорее всего, должна быть отражена в иерархическом дереве различными ветвями. В результате успешного анализа методом объединения появляется возможность обнаружить кластеры (ветви) и интерпретировать их.
По оси абсцисс располагаются символические обозначения объектов исследования (векторов матрицы), а по оси ординат – минимальные значения дистанционных коэффициентов, соответствующих каждому шагу классифицирующей процедуры. Таким образом, ось ординат используется для масштабного представления иерархических уровней группирования.
Наглядность и содержательная ценность древовидных графов существенно повышаются, если в них отражена информация не только о тесноте внутригрупповых связей, но и о межгрупповых расстояниях h. Такой дендровидный граф, учитывающий не только внутригрупповые расстояния, но и средние расстояния между группами, называется дендрографом.
Рудные тела редкометалльного месторождения приурочены к зонам натровых метасоматитов (альбититов). В результате детального изучения минерального состава метасоматитов было установлено, что на месторождении развиты альбититы двух типов. Причем редкометалльное оруденение характерно лишь для одного из них. По химическому составу рудные и безрудные альбититы весьма близки, поэтому различить их по содержанию отдельных химических элементов не удается. Однако некоторые различия в минеральном составе проявляются в особенностях корреляционных связей между элементами. Наглядно эти различия отражаются на графах (рис. VII.2, а, б) и дендрограммах (рис. VII.2, в, г). В качестве меры близости элементов при построении дендрограмм в данном случае используются непосредственно парные коэффициенты корреляции, рассчитанные по 50 пробам, отобранным из рудных и безрудных альбититов, тип которых однозначно определен минералогическими исследованиями. Предельное значение коэффициента корреляции для доверительной вероятности 0,95 при объеме выборок в 50 проб равен 0,28. Поэтому для целей классификации целесообразно сравнивать лишь те группы, для которых коэффициенты корреляции, отражающие тесноту внутригрупповой связи, превышают эту величину.
Для обеих дендрограмм характерна группа, объединяющая фосфор и редкоземельные элементы, что, по-видимому, обусловлено присутствием в альбититах обоих типов апатита, в составе которого отмечены повышенные концентрации этих элементов.
Основной отличительной особенностью безрудных альбититов является тесная ассоциация сидерофильных элементов (Ni—Cr—Ti—Со), которая в рудных альбититах распадается.
Для рудных альбититов характерна ассоциация халькофильных элементов (Pb—Zn), в то время как в безрудных альбититах корреляционная связь между этими элементами отрицательная. Таким образом кластер-анализ позволяет оперативно и достаточно надежно определить тип альбититов по результатам спектральных анализов, не прибегая к детальному изучению шлифов.
Рис VII.2. Характеристики корреляционных связей между содержаниями химических элементов в альбититах:
а—граф по безрудным альбититам; б—граф по рудным альбититам; в—дендрограмма по безрудным альбититам; г—дендрограмма по рудным альбититам
МЕТОД K-СРЕДНИХ
Этот метод кластеризации существенно отличается от таких агломеративных методов, как древовидная кластеризация. Предположим, вы уже имеете гипотезы относительно числа кластеров (по наблюдениям или по переменным). Вы можете указать системе образовать ровно три кластера так, чтобы они были настолько различны, насколько это возможно. Это именно тот тип задач, которые решает алгоритм метода K-средних. В общем случае метод K-средних строит ровно K различных кластеров, расположенных на возможно больших расстояниях друг от друга.
С вычислительной точки зрения вы можете рассматривать этот метод, как дисперсионный анализ «наоборот». Программа начинает с K случайно выбранных кластеров, а затем изменяет принадлежность объектов к ним, чтобы: (1) - минимизировать изменчивость внутри кластеров, и (2) - максимизировать изменчивость между кластерами. Данный способ аналогичен методу «дисперсионный анализ наоборот» в том смысле, что критерий значимости в дисперсионном анализе сравнивает межгрупповую изменчивость с внутригрупповой при проверке гипотезы о том, что средние в группах отличаются друг от друга. В кластеризации методом K-средних программа перемещает объекты (то есть наблюдения) из одних групп (кластеров) в другие для того, чтобы получить наиболее значимый результат при проведении дисперсионного анализа
Обычно, когда результаты кластерного анализа методом K-средних получены, можно рассчитать средние для каждого кластера по каждому измерению, чтобы оценить, насколько кластеры различаются друг от друга. В идеале вы должны получить сильно различающиеся средние для большинства, если не для всех измерений, используемых в анализе. Значения F-статистики, полученные для каждого измерения, являются другим индикатором того, насколько хорошо соответствующее измерение дискриминирует кластеры.
ФАКТОРНЫЙ АНАЛИЗ
Основным объектом исследования методами факторного анализа является корреляционная матрица, построенная с использованием коэффициента корреляционного отношения Пирсона (для количественных признаков). Предлагается также использование других коэффициентов типа корреляции, предназначенных для порядковых, качественных и смешанных признаков, но опыта в этой области пока недостаточно. Основным требованием к построенной матрице является ее положительная полуопределенность. Эрмитова матрица называется положительно полуопределенной, если все ее главные миноры неотрицательны. Из данного свойства как раз и следует неотрицательность всех собственных значений.
Методами факторного анализа решаются три основных вида задач:
отыскание скрытых, но предполагаемых закономерностей, которые определяются воздействием внутренних или внешних причин на изучаемый процесс;
выявление и изучение статистической связи признаков с факторами или главными компонентами;
сжатие информации путем описания процесса при помощи общих факторов или главных компонент, число которых меньше количества первоначально взятых признаков (параметров), однако с той или иной степенью точности обеспечивающих воспроизведение корреляционной матрицы.
Следует пояснить, что в факторном анализе понимается под сжатием информации. Дело в том, что корреляционная матрица получается путем обработки исходного массива данных. Предполагался, что та же самая корреляционная матрица может быть получена с использованием тех же объектов, но описанных меньшим числом параметров. Таким образом, якобы происходит уменьшение размерности задачи, хотя на самом деле это не так. Это не сжатие информации и в общепринятом смысле – восстановить исходные данные по корреляционной матрице нельзя.
Коэффициенты корреляции, составляющие корреляционную матрицу, по умолчанию вычисляются между параметрами (признаками, тестами), а не между объектами (индивидуумами, лицами), поэтому размерность корреляционной матрицы равна числу параметров. Это так называемая техника R. Однако может быть, например, изучена корреляция между объектами (точнее, их состояниями, описываемыми векторами параметров). Эта методика называется техникой Q. Проведение факторного анализа техникой Q обосновано тем, что состояния объектов могут иметь общую побудительную причину (причины), которая (которые) как раз и может быть выявлена с помощью факторного анализа. Существует также техника Р, предполагающая анализ исследований, выполненных на одном и том же индивидууме в различные промежутки времени («объекты» – один и тот же индивидуум в различные промежутки времени), причем изучаются корреляции между состояниями индивидуума. Аналог техники Q для последнего случая составляет предмет исследования техники O.
В основе всех методов факторного анализа лежит предположение, что изучаемая зависимость носит линейный характер. Основное требование к исходным данным – это то, что они должны подчиняться многомерному нормальному распределению. По крайней мере, должно быть сделано допущение о многомерном нормальном распределении совокупности.
Редуцированием корреляционной матрицы называется процесс замены единиц на главной диагонали корреляционной матрицы некоторыми величинами, называемыми общностями. Общность – сумма квадратов факторных нагрузок. Общность данной переменной – та часть ее дисперсии, которая обусловлена общими факторами. Это вытекает из предположения что полная дисперсия складывается из общей дисперсии, обусловленной общими для всех переменных факторами, а также специфичной дисперсии, обусловленной факторами, специфичными только для данной переменной, и дисперсии, обусловленной ошибкой.
Получение матрицы факторного отображения в принципе является целью факторного анализа. Ее строки представляют собой координаты концов векторов, соответствующих т переменным в r-мерном факторном пространстве. Близость концов этих векторов дает представление о взаимной зависимости переменных. Каждый вектор в сжатой, концентрированной форме несет информацию о процессе. Близость этих векторов дает представление о взаимной зависимости переменных. Дополнительно, если число выделенных факторов больше единицы, обычно производится вращение матрицы факторного отображения с целью получения так называемой простой структуры.
Для наглядности результаты можно изобразить графически, что, однако, проблематично для трех и более выделенных факторов. Поэтому обычно дают изображение r -мерного факторного пространства в двумерных срезах.
В процессе решения задачи факторного анализа нужно быть готовы к тому, что иногда решение получить не удается. Это вызвано сложностью решаемой проблемы собственных значений корреляционной матрицы. Например, корреляционная матрица может оказаться вырожденной, что может быть вызвано совпадением или полной линейной корреляцией параметров. Для матриц высоко порядка может произойти потеря значимости в процессе вычислений. Поэтому теоретически нельзя исключить ситуацию, когда методы факторного анализа, к сожалению, окажутся неприменимы, по крайней мере до тех пор, пока исходные данные не удастся «исправить». Исправлены данные могут быть следующим образом. Выявите линейно зависимые параметры с помощью, например, метода и корреляционных плеяд (возможно применение и других методов) и оставьте в исходных данных только один из группы линейно зависимых параметров.
МЕТОД ГЛАВНЫХ КОМПОНЕНТ
С увеличением размерности признакового пространства возрастают трудности изучения геологических объектов, и возникает проблема замены многочисленных наблюдаемых признаков меньшим их числом, без существенной потери полезной информации. Одним из наиболее распространенных методов решения этой задачи является метод главных компонент.
Основой метода главных компонент является линейное преобразование т исходных переменных (признаков) в т новых переменных, где каждая новая переменная представляет собой линейное сочетание исходных. В процессе преобразования векторы наблюдаемых переменных заменяются новыми векторами (главными компонентами), которые вносят резко различные вклады в суммарную дисперсию многомерных признаков. Сокращение пространства признаков достигается путем отбора нескольких наиболее информативных компонент, обеспечивающих основную долю суммарной дисперсии, что приводит к заметному уменьшению их общего числа за счет наименее информативных компонент, отражающих малые доли суммарной дисперсии.
Главные компоненты – это собственные векторы ковариационных матриц исходных признаков. Число собственных векторов ковариационной матрицы определяется числом изучаемых признаков, то есть равно числу ее столбцов (или строк). Каждый собственный вектор (главная компонента) характеризуется собственным значением и координатами.
Собственные значения ковариационной матрицы (λj) – это длины ее собственных векторов, то есть их дисперсии. Суммы собственных значений ковариационной матрицы равны ее следу, то есть сумме ее диагональных элементов.
Координаты собственного вектора ковариационной матрицы (ωij) – это числовые коэффициенты, характеризующие его положение в т мерном признаковом пространстве. Число точечных координат каждого собственного вектора (ωij) – ω1, ω2, ..., ωm определяется размерностью пространства, а их численные значения – это коэффициенты линейных уравнений данного собственного вектора.
Собственные значения ковариационной матрицы находятся как характеристические корни полиномиальных уравнений путем их решения. Однако осуществить это для больших значений т очень сложно. Поэтому в вычислительной практике их определяют методами матричных преобразований (путем последовательных приближений к собственным значениям), которые могут быть реализованы только с помощью ЭВМ. Методы отыскания координат собственных векторов симметричных матриц также сложны и требуют применения ЭВМ.
Поскольку ковариационные матрицы исходных признаков симметричны, их собственные векторы всегда ортогональны, а составляющие их переменные взаимонезависимы, то есть не коррелированы между собой.
В методе главных компонент координаты собственных векторов рассматриваются как нагрузки соответствующих переменных на тот или иной фактор. Они используются для расчета матриц нового (множества совокупностей путем проектирования векторов исходных данных (признаков х1, х2, …, хm) на оси собственных векторов (γ1, γ2, …, γm):
, (VII.1)
где – нагрузки j-й компоненты в i-й переменной признака. С помощью формулы (VII.1) исходная матрица наблюденных признаков размерности п x т пересчитывается в матрицу новых переменных (той же размерности), учитывающих собственные значения каждой из компонент. Если статистические (корреляционные) связи между наблюденными признаками многомерного пространства проявляются достаточно отчетливо, то разложение исходной матрицы наблюдений на т новых компонент приводит к заметному возрастанию контрастности распределения дисперсий по новым компонентам, в сравнении с исходными векторами. Как правило, дисперсия одной из главных компонент достигает половины и более от суммарной дисперсии признаков, а в совокупности с дисперсиями еще одной-двух последующих компонент, их общий вклад в суммарную дисперсию превышает 90%.
Таким образом, без существенной потери информации об изменчивости наблюденных признаков можно заметно сократить размерность пространства наблюденных признаков (до p≤m), ограничившись данными по двум-трем наиболее информативным главным компонентам. Это позволяет считать, что вместо исходной матрицы размерностью п x m, для целей геологического анализа может использоваться матрица главных компонент размерностью п x p (где p, как правило не превышает 2 – 3). Поскольку новые переменные в этой матрице представлены некоррелированными величинами, метод главных компонент может рассматриваться как мощное средство определения истинного числа линейно независимых векторов, содержащихся в исходной матрице.
Рассмотрим подробнее метод главных компонент – вариант метода главных факторов. Основная модель метода главных компонент записывается в матричном виде следующим образом:
Z = A P,
где Z – матрица стандартизованных исходных данных,
A – факторное отображение,
P – матрица значений факторов.
Матрица Z имеет размер т х п, матрица A имеет размер т х r, матрица P имеет размер r х п,
где т – количество переменных (векторов данных),
n – количество индивидуумов (элементов одного вектора),
r – количество выделенных факторов.
Как видно из приведенного выше выражения, модель компонентного анализа содержит только общие для имеющихся векторов факторы.
Матрица стандартизованных исходных данных определяется из матрицы исходных данных Y (ее размер т х п) по формуле
, i = 1, 2, …, m, j = 1, 2, …, n,
где – элемент матрицы исходных данных,
– среднее значение,
– стандартное отклонение.
Для вычисления корреляционной матрицы – основного элемента факторного анализа – имеет место простое соотношение
,
где R – корреляционная матрица; она имеет размер т х т,
' – символ транспонирования.
На главной диагонали матрицы R стоят значения, равные 1. Эти значения называются общностями и обозначаются как , являясь мерой полной дисперсии переменной.
Неизвестными являются матрицы A и P. Матрица A может быть найдена из основной теоремы факторного анализа
R = A C A'
где C – корреляционная матрица, отражающая связь между факторами.
Если C = I, то говорят об ортогональных факторах, если С ≠ I, говорят о косоугольных факторах. Здесь I – единичная матрица. Для матрицы C справедливо соотношение
.
Нами рассматривается только случай ортогональных факторов, для которых
R = A A'
Модель классического факторного анализа содержит ряд общих факторов и по одному характерному фактору на каждую переменную.
Первая из приведенных в разделе формул является основной моделью факторного анализа для метода главных компонент. Число главных компонент всегда меньше либо равно числу переменных.
ПРОБЛЕМА ВРАЩЕНИЯ
Оси координат, соответствующие выделенным факторам, ортогональны, и их направления устанавливаются последовательно, по максимуму оставшейся дисперсии. Но полученные таким образом координатные оси большей частью содержательно не интерпретируются. Поэтому получают более предпочтительное положение системы координат путем вращения этой системы вокруг ее начала. Пространственная конфигурация векторов в результате применения этой процедуры остается неизменной. Целью вращения является нахождение одной из возможных систем координат для получения так называемой простой факторной структуры. Применяется популярный метод вращения VARIMAX.
КРИТЕРИИ МАКСИМАЛЬНОГО ЧИСЛА ФАКТОРОВ
Существует несколько критериев оценки максимального числа удерживаемых факторов. Критерии, основанные на анализе определителей (детерминантов) исходной и воспроизведенной корреляционной матриц, не показывают стабильности. Критерии, основанные на величине собственных значений корреляционной матрицы, в конечном счете приводят к анализу процента дисперсии, выделенной факторами. Все общие факторы, число которых равно числу параметров, выделяют 100% дисперсии. Если сумма процентов дисперсии превышает величину 100%, то это означает: при вычислении собственных значений корреляционной матрицы были получены отрицательные собственные значения и, как следствие, комплексные собственные вектора, что может означать некорректную редукцию исходной корреляционной матрицы.
ВИЗУАЛИЗАЦИЯ РЕЗУЛЬТАТОВ ФАКТОРНОГО АНАЛИЗА
Пусть в эксперименте получены некоторые опытные данные, представляющие собой измерения трех параметров, обозначенных цифрами 1, 2 и 3. В результате проведенных расчетов были выделены два фактора (две главные компоненты), обозначенные буквами A и B.
Из рис. VII.3 видно, что вектора данных четко распадаются на две группы: одну группу, включающую в себя параметр 1 и параметр 2 и другую группу, включающую в себя параметр 3. Таким образом, по результатам расчета можно выдвинуть гипотезы:
Параметр 1 и параметр 2 имеют сильную взаимную линейную корреляцию.
Параметр 3 слабо зависит от параметров 1 и 2 в рассматриваемых сериях эксперимента.
Указание
В эксперименте достаточно измерять не три параметра, а только два: параметр 1 (или 2) и параметр 3. Это послужит снижению стоимости эксперимента практически без потери точности выводов.
Рис. VII.3. Изученные параметры 1, 2 и 3 в пространстве главных компонент, которым соответствуют фактор A и фактор B
ПРИМЕР VII.1
В одном из районов выявлено месторождение золота, приуроченное к зоне развития калиевых метасоматитов, а также ряд непромышленных по масштабу проявлений золоторудной и полиметаллической минерализации.
В рудах месторождения и окружающих их ореолах рассеяния золото ассоциирует с оловом и мышьяком, а на верхних горизонтах также с серебром, свинцом и сурьмой. Для окружающих неизмененных пород характерна положительная корреляционная связь между калием, ураном и торием. Непосредственно вблизи рудных тел в результате калиевого метасоматоза эта связь нарушается.
Данные особенности месторождения могут быть использованы для разбраковки многочисленных геохимических аномалий, выявленных в этом районе при проведении металлометрической съемки.
К перспективным объектам должны быть отнесены в первую очередь комплексные аномалии с характерными для месторождения ассоциациями элементов, пространственно совпадающие с участками проявления калиевого метасоматоза.
В табл. VII.1 приведены содержания химических элементов в пробах метасоматитов по одному из аномальных участков района.
Таблица VII.1. Содержание типоморфных элементов в метасоматитах
№ проб |
Ag |
Pb |
Sn |
As |
Sb |
Au |
K |
U |
Th |
1 |
0,1 |
0,8 |
1 |
5 |
3 |
0,01 |
20 |
30 |
5 |
2 |
13 |
17 |
2 |
1 |
0,2 |
2 |
120 |
35 |
15 |
3 |
0,2 |
0,8 |
10 |
0,5 |
2 |
0,1 |
43 |
55 |
10 |
4 |
0,5 |
1 |
45 |
25 |
0,1 |
3 |
320 |
77 |
35 |
5 |
0,6 |
0,5 |
40 |
40 |
0,1 |
4 |
175 |
85 |
42 |
6 |
3,5 |
4,8 |
1 |
0,3 |
0,4 |
0,1 |
55 |
65 |
17 |
7 |
0,5 |
0,2 |
0,8 |
2 |
0,3 |
0,2 |
66 |
60 |
21 |
8 |
25 |
53 |
0,1 |
0,5 |
14 |
6 |
350 |
13 |
6 |
9 |
0,3 |
1 |
0,5 |
0,1 |
0,5 |
0,1 |
82 |
64 |
26 |
10 |
0,2 |
5 |
0,1 |
0,3 |
0,1 |
0,01 |
48 |
45 |
16 |
11 |
3 |
6 |
110 |
60 |
0,2 |
10 |
270 |
100 |
35 |
12 |
0,1 |
0,5 |
5 |
0,5 |
0,8 |
0,2 |
35 |
30 |
11 |
13 |
1 |
3 |
0,1 |
0,7 |
1 |
0,1 |
92 |
75 |
28 |
14 |
21 |
45 |
3 |
2 |
15 |
4 |
225 |
80 |
38 |
15 |
47 |
65 |
0,5 |
0,1 |
23 |
10 |
280 |
15 |
5 |
16 |
0,5 |
3 |
0,5 |
0,2 |
1 |
0,1 |
83 |
63 |
25 |
17 |
2 |
4 |
145 |
90 |
0,1 |
12 |
280 |
50 |
25 |
18 |
0,7 |
1 |
0,3 |
0,1 |
0,2 |
0,01 |
45 |
40 |
15 |
19 |
0,4 |
2 |
0,5 |
0,1 |
0,1 |
0,1 |
63 |
55 |
19 |
20 |
0,1 |
0,5 |
3 |
1 |
0,5 |
0,3 |
15 |
21 |
3 |
21 |
5 |
12 |
0,5 |
0,1 |
0,1 |
1 |
58 |
75 |
27 |
22 |
0,2 |
0,1 |
0,8 |
0,2 |
0,4 |
0,01 |
36 |
45 |
12 |
23 |
0,1 |
0,3 |
0,6 |
0,3 |
0,02 |
0,03 |
53 |
40 |
15 |
24 |
5 |
10 |
63 |
45 |
0,1 |
5 |
80 |
25 |
17 |
25 |
0,1 |
0,5 |
0,5 |
2 |
0,01 |
0,01 |
60 |
53 |
18 |
26 |
0,2 |
0,3 |
0,1 |
0,5 |
0,1 |
0,1 |
45 |
30 |
10 |
27 |
0,1 |
0,6 |
0,1 |
0,6 |
0,02 |
0,02 |
38 |
25 |
12 |
28 |
4 |
5 |
0,3 |
0,1 |
0,2 |
1 |
125 |
10 |
3 |
29 |
0,2 |
0,1 |
3 |
0,1 |
1 |
1 |
52 |
45 |
15 |
30 |
0,6 |
0,1 |
1 |
0,2 |
0,2 |
0,5 |
30 |
25 |
8 |
31 |
0,3 |
1 |
4 |
1 |
0,1 |
0,01 |
42 |
35 |
13 |
32 |
0,1 |
0,1 |
2 |
3 |
0,3 |
0,1 |
60 |
53 |
16 |
33 |
4 |
7 |
15 |
5 |
0,1 |
1 |
160 |
10 |
15 |
34 |
0,6 |
0,2 |
1 |
3 |
0,5 |
0,5 |
70 |
62 |
20 |
35 |
0,2 |
1 |
3 |
0,5 |
0,2 |
0,1 |
55 |
43 |
18 |
36 |
10 |
20 |
5 |
3 |
0,7 |
3 |
180 |
50 |
25 |
Требуется
1) выявить геохимические ассоциации элементов;
2) определить, относятся ли данные метасоматиты к рудоносным;
3) оценить уровень эрозионного среза рудной зоны;
4) на поисковом профиле определить наиболее перспективные участки для первоочередного бурения.
Решение
1. Для выполнения корреляционного анализа введите в диапазон A1:I37 рабочей книги Excel названия столбцов и исходные данные из табл. VII.1 по столбцам: A – Ag, B – Pb, C – Sn, D – As, E – Sb, F – Au, G – K, H – U, I – Th.
Затем в меню Сервис выберите пункт Анализ данных и далее укажите строку Корреляция. В появившемся диалоговом окне укажите Входной интервал A1:I37. Укажите, что данные рассматриваются по столбцам. Установите флажок в поле Метки в первой строке. Укажите выходной диапазон. Для этого поставьте флажок в левое поле Выходной интервал и в правое поле ввода Выходной интервал введите K2. Нажмите кнопку OK.
Результаты анализа. В выходном диапазоне получаем корреляционную матрицу. Подразумевается, что в пустых клетках в правой верхней половине таблицы находятся те же коэффициенты корреляции, что и в нижней левой (симметрично расположенные относительно диагонали).
Интерпретация результатов. По данным расчета матрицы видно, что максимальная корреляция между содержанием Sn и As – 0.9837, то есть существует практически линейная связь между их содержанием. Для более удобной интерпретации корреляционной матрицы скопируйте из каждого столбца данные друг за другом в столбец O, начиная с O14, в столбец N поместите соответствующие обозначения элементов из крайнего левого столбца матрицы, а в столбец M поместите обозначение соответствующего элемента из верхней строки матрицы. Отсортируйте диапазон M14:O58 по столбцу O в порядке убывания. Коэффициенты корреляции с 0,983719 по 0,754787 – высокие, с 0,640942 по 0,501725 – средние, с 0,485918 по 0,381287 – низкие, с 0,298283 и ниже – незначимые (см. табл. VII.2).
Таблица VII.2. Коэффициенты корреляции между элементами месторождения золота в порядке убывания
-
Ag
Ag
1
Pb
Pb
1
Sn
Sn
1
As
As
1
Sb
Sb
1
Au
Au
1
K
K
1
U
U
1
Th
Th
1
Sn
As
0,983719
Высокие
Ag
Pb
0,970995
Pb
Sb
0,932534
Ag
Sb
0,928558
U
Th
0,873059
Au
K
0,815275
Sn
Au
0,764751
As
Au
0,754787
Pb
K
0,640942
Средние
Ag
K
0,602096
Ag
Au
0,571473
Pb
Au
0,558501
Sb
K
0,54045
Sn
K
0,520355
As
K
0,501725
Sb
Au
0,485918
Низкие
As
Th
0,444563
Sn
Th
0,41351
K
Th
0,381287
As
U
0,298283
Незначимые
Sn
U
0,291818
Au
Th
0,26272
K
U
0,161386
Au
U
0,102603
Pb
Th
-0,05304
Pb
Sn
-0,06861
Ag
Sn
-0,07128
Pb
As
-0,07188
Ag
As
-0,07419
Sb
Th
-0,11928
Ag
Th
-0,11955
Sn
Sb
-0,1316
As
Sb
-0,13211
Sb
U
-0,18041
Pb
U
-0,18825
Ag
U
-0,23653
Связь между золотом (Au) и оловом (Sn) – 0,7647 – высокий коэффициент корреляции, связь между золотом (Au) и мышьяком (As) – 0,7547 – высокий коэффициент корреляции; связь между золотом (Au) и серебром (Ag) – 0,5714 – средний коэффициент корреляции, связь между золотом (Au) и свинцом (Pb) – 0,5585 – средний коэффициент корреляции, связь между золотом (Au) и сурьмой (Sb) – 0,4859 – низкий коэффициент корреляции. Связь между калием (K) и ураном (U) – 0,1613 – незначимый коэффициент корреляции, между калием (K) и торием (Th) – 0,3812 – низкий коэффициент корреляции, между ураном (U) и торием (Th) – 0,8730 – высокий коэффициент корреляции.
Таким образом, можно заключить, что месторождение является рудоносным и рассматриваемый срез относится к верхним горизонтам; для определения на поисковом профиле наиболее перспективных участков для первоочередного бурения следует рассмотреть связь между калием, ураном и торием, так как к перспективным объектам должны быть отнесены в первую очередь комплексные аномалии с характерными для месторождения ассоциациями элементов, пространственно совпадающие с участками проявления калиевого метасоматоза.
2. Скопируйте диапазон A1:B37 в диапазон A41:B77. В столбце C рассчитайте квадраты разностей для значений в столбцах A и B по формуле =(A42-B42)^2 для строки 42. Скопируйте эту формулу методом автозаполнения в диапазон С42:С77. В ячейке С78 найдите через автосумму для диапазона С42:С77 общую сумму. В ячейке С79 найдите квадратный корень из этой суммы по формуле =КОРЕНЬ(C78). Это евклидова метрика для пары Ag–Pb. Аналогично можно рассчитать евклидовы метрики для всех остальных пар и расположить их в общую матрицу наподобие корреляционной – матрицу евклидовых метрик. На основании этой матрицы евклидовых метрик можно позднее вручную построить дендрограмму по результатам расчета, а также выделить заданное число кластеров по построенной дендрограмме. Эту процедуру удобнее осуществить в пакете STATISTICA.
3. Создать в программе Statistica файл данных, используя табл. VII.1.
4. Провести корреляционный анализ всей выборки. Для этого в меню с основными процедурами Statistics выбрать Basic Statistics/Tables, а в появившемся его меню – Correlation matrices.
В появившемся диалоговом окне Product-Moment and Partial Correlations: нажать на вкладке Quick кнопку Summary: Correlation Matrix и в диалоговом окне Select one or two variable lists указать для First variable list: 1–9. Далее нажать OK. Результатом будет расчет коэффициентов корреляции – рис. VII.4. Коэффициенты, указывающие на наличие связи между элементами – выделены красным цветом.
Рис. VII.4. Расчет коэффициентов корреляции
5. Провести кластерный анализ для выделения ассоциаций химических элементов, используя графическую и табличную формы. Для этого в меню с основными процедурами Statistics выбрать Multivariate Exploratory Techniques, а в появившемся его меню – Cluster Analysis.
В появившемся диалоговом окне Clustering Method (см. рис. VII.5) выбрать Joining (tree clustering).
Рис. VII.5. Выбор метода кластеризации
В появившемся диалоговом окне Cluster Analysis: Joining (Tree Clustering): на вкладке Quick нажать кнопку Variables (рис. VII.6) и появившемся диалоговом окне Select variables for the analysis нажать кнопку Select All (рис. VII.7). Вернуться в диалоговое окно Cluster Analysis: Joining (Tree Clustering): и на вкладке Advanced, используя установленные по умолчанию Variables (columns) из раздела Cluster, Complete Linkage (одиночная связь (метод ближайшего соседа)) в разделе Amalgamation (linkage) rule и Euclidean distance (евклидова метрика) в разделе Distance measures, далее нажать кнопку OK (рис. VII.8). В появившемся диалоговом окне Joining Results: установлен по умолчанию флажок Rectangular branches (прямоугольные ветви), нажать кнопку Vertical icicle plot (рис. VII.9). На рис. VII.10 представлена получившаяся в результате дендрограмма. При очищенном переключателе Rectangular branches результатом будет дендрограмма, представленная на рис. VII.11.
Рис. VII.6. Диалоговое окно Cluster Analysis: Joining (Tree Clustering):
Рис. VII.7. Выбор переменных для кластерного анализа
Рис. VII.8. Выбор метода объединения и метрики
Рис. VII.9. Диалоговое окно Joining Results:
Рис. VII.10. Прямоугольная дендрограмма ассоциаций элементов
Рис. VII.11. Дендрограмма ассоциаций элементов
Вы можете масштабировать дендрограмму к стандартизированному масштабу dlink/dmax*100 переключателем. Когда выбираете этот переключатель, горизонтальная ось (или вертикальная ось для вертикальных графиков) будет масштабироваться в процентах, определенных, как dlink/dmax*100. Таким образом, это процент от диапазона от максимального до минимального расстояния в данных. Если этот переключатель очищен, то масштаб будет основан на предварительно выбранной мере расстояния.
Полученная дендрограмма позволяет выделить следующие ассоциации элементов: Au–Sb, Au–Sb–Ag, As–Sn, Au–Sb–Ag–As–Sn, Au–Sb–Ag–As–Sn–Th, Au–Sb–Ag–As–Sn–Th–U, Au–Sb–Ag–As–Sn–Th–U–K.
Вернуться в диалоговое окно Joining Results:, нажать кнопку Amalgamation schedule на вкладке Advanced. На рис. VII.12 представлена получившаяся в результате электронная таблица результатов. Amalgamation schedule перечисляет по строкам объекты (элементы), которые соединены вместе на соответствующих расстояниях (в крайнем левом столбце электронной таблицы).
Рис. VII.12. Результат выполнения Amalgamation schedule
Вернуться в диалоговое окно Joining Results:, нажать кнопку Graph of amalgamation schedule. На рис. VII.13 представлен получившийся в результате график. Этот график может быть очень полезен, предлагая сокращение дендрограммы. В дендрограмме все большие и большие кластеры формируются из большего и большего разнообразия в пределах кластера. Этот же график показывает ровное плато, и это означает, что кластеры были сформированы по существу на одном и том же расстоянии. Это расстояние может быть оптимально сокращено при решении вопроса о том, сколько оставить кластеров, чтобы интерпретировать результаты.
Рис. VII.13. Результат выполнения Graph of amalgamation schedule.
В диалоговом окне Joining Results: нажать кнопку Distance matrix. На рис. VII.14 представлена матрица дистанционных расстояний, рассчитанная на основе евклидовой метрики. Кнопка Descriptive Statistic диалогового окна Joining Results: выводит дескриптивную статистику – средние и стандартные отклонения для изменений (рис. VII.15). Кнопка Matrix диалогового окна Joining Results: выводит дистанционную матрицу и дескриптивную статистику (рис. VII.16). Сравните результат расчета коэффициентов дистанционной матрицы с получившимися в электронных таблицах Excel евклидовыми метриками для соответствующих пар элементов.
Рис. VII.14. Матрица дистанционных расстояний
Рис. VII.15. Дескриптивная статистика
Рис. VII.16. Результат выполнения Matrix
Итак, имеем 3 кластера: (Au–Sb–Ag–Pb), (As–Sn–Th–U) и (K).
6. Провести кластерный анализ для выделения ассоциаций химических элементов методом K-средних. Для этого в меню с основными процедурами Statistics выбрать Multivariate Exploratory Techniques, а в появившемся его меню – Cluster Analysis.
В появившемся диалоговом окне Clustering Method (см. рис. VII.17) выбрать K-means clustering.
Рис. VII.17. Выбор метода кластеризации
В появившемся диалоговом окне Cluster Analysis: K-means clustering: на вкладке Quick нажать кнопку Variables и появившемся диалоговом окне Select variables for the analysis нажать кнопку Select All. Вернуться в диалоговое окно Cluster Analysis: K-means clustering: и на вкладке Advanced, используя установленную по умолчанию в списке Cluster: строку Variables (columns), установить в разделе Number of clusters количество кластеров – 3 (рис. VII.18).
Рис. VII.18. Установка параметров Cluster Analysis: K-means clustering:
Раздел Initial cluster centers – выборы в этой группе управляют способом, которым вычисляются начальные центры кластера. По умолчанию в этом разделе установлен переключатель Sort distances and take observations at constant intervals. Если Вы выбираете этот переключатель, расстояния между всеми объектами будут сначала сортироваться и затем, выраженные в постоянных величинах, будет выбраны как начальные центры кластера.
Переключатель Choose observations to maximize initial between-cluster distances. Если Вы выбираете этот переключатель, наблюдения или объекты будут установлены как начальные центры кластера. (1) программа выберет первые номера кластеров случаев, чтобы быть соответствующими центрами кластера; (2) последующие случаи заменят предыдущие центры кластера, если их самое маленькое расстояние к любому из центров кластера больше, чем самое маленькое расстояние между кластерами; если дело обстоит не так, то (3) последующие случаи заменят начальные центры кластера, если их самое маленькое расстояние от центра кластера большее расстояние того центра кластера от любого другого центра кластера. Эффект этой процедуры выбора должен развернуть начальные расстояния между кластерами. Обратите внимание, что эта процедура может выдавать кластеры с единственными (отдельными) наблюдениями, если есть ясный outliers в данных.
Переключатель Choose the first N (Number of clusters) observations. Если Вы выбираете этот переключатель, первые номера кластеров наблюдений будут начальными центрами кластера. Таким образом, эта опция обеспечивает Вас полным контролем над выбором начальной конфигурации. Это часто полезно, если Вы приносите априорные ожидания относительно характера (природы) кластеров к анализу. В этом случае, переместите случаи, которые Вы хотите выбрать как начальные центры кластера, к началу файла.
Переключатели Casewise deletion of missing data или Mean substitution в разделе MD deletion, первый следует использовать, если в анализ следует включать только случаи, которые имеют для всех переменных все данные, второй следует использовать, когда отсутствующие данные будут заменены средствами для соответствующих переменных (для этого анализа только, но не для файла данных). По умолчанию стоит переключатель Casewise deletion of missing data.
Оставить установленные по умолчанию переключатели и далее, в диалоговом окне Cluster Analysis: K-means clustering: следует нажать кнопку OK.
В появившемся диалоговом окне K-Means clustering Results: нажать кнопку Summary: Clusters means & Euclidean distances (рис. VII.19). В результате расчета получим матрицу дистанционных коэффициентов между кластерами рассчитанных по евклидовым метрикам (см. рис. VII.20). Здесь же рассчитываются средние по всем измерениям для каждого кластера.
Рис. VII.19. Анализ в K-Means clustering Results:
Рис. VII.20. Матрица евклидовых метрик между кластерами
Вернуться в диалоговое окно K-Means clustering Results: и нажать кнопку Analysis of variance. Анализ вариант следует использовать, если следует сравнивать изменчивость в пределах группы (within) (малая, если классификация хорошая) с изменчивостью между группами (between) (большая, если классификация хорошая), то есть выполнить дисперсионный анализ между группами для каждого измерения (рис. VII.21). Можно просмотреть результаты дисперсионного анализа, сравнивая для каждого измерения результаты между группами.
Рис. VII.21. Результат дисперсионного анализа Analysis of variance
Вернуться в диалоговое окно K-Means clustering Results: и нажать кнопку Graph of means. Результатом будет график средних по кластерам (рис. VII.22).
Рис. VII.22. График средних по кластерам
Вернуться в диалоговое окно K-Means clustering Results: и нажать кнопку Descriptive statistics for each cluster на вкладке Advanced. Результатом будет вывод крупноформатных таблиц описательной статистики для каждого измерения по кластерам (рис. VII.23).
Рис. VII.23. Дескриптивная статистика для третьего кластера
Вернуться в диалоговое окно K-Means clustering Results: и нажать кнопку Members of each cluster & distances. Результатом будет расчет евклидовых расстояний от центров кластеров для каждого элемента входящего в кластер (рис. VII.24). Это позволяет идентифицировать потенциальных «плохих» членов кластера.
Рис. VII.24. Евклидовы расстояния для каждого кластера
Вернуться в диалоговое окно K-Means clustering Results: и нажать кнопку Save classifications and distances. Результатом будет краткая электронная таблица содержащая: порядковые номера элементов (1 столбец), номер кластера, в который входит элемент (2 столбец) и евклидовы метрики для каждого элемента от соответствующего центра кластера (3 столбец) – рис. VII.25.
Рис. VII.25. Результат выполнения Save classifications and distances
7. Провести факторный анализ для выделения ассоциаций химических элементов. Для этого в меню с основными процедурами Statistics выбрать Multivariate Exploratory Techniques, а в появившемся его меню – Factor Analysis.
В появившемся диалоговом окне Factor Analysis: (см. рис. VII.26) на вкладке Quick нажать кнопку Variables и появившемся диалоговом окне Select the variables for the factor analysis нажать кнопку Select All (рис. VII.27). Вернуться в диалоговое окно Factor Analysis: и нажать кнопку OK (рис. VII.28).
Рис. VII.26. Диалоговое окно Factor Analysis:
Рис. VII.27. Выбор переменных для факторного анализа
Рис. VII.28. Диалоговое окно Factor Analysis: с выбранными переменными
Появится окно Define Method of Factor Extraction:, где выбираем на вкладке Descriptives (рис. VII.29) кнопку Review correlations, means, standard deviations. В диалоговом окне Review descriptive statistics (рис. VII.30) нажимаем кнопку Correlations. Результатом расчета будет корреляционная матрица (рис. VII.31). Она аналогична матрице, полученной в разделе корреляционного анализа и представленной на рис. VII.4.
Рис. VII.29. Диалоговое окно Define Method of Factor Extraction:
Рис. VII.30. Диалоговое окно Review descriptive statistics
Рис. VII.31. Корреляционная матрица
В диалоговом окне Review descriptive statistics нажимаем кнопку Cancel и возвращаемся в диалоговое окно Define Method of Factor Extraction:, где выбираем на вкладке Advanced в разделе Extraction method установленный по умолчанию метод Principal Components (метод главных компонент или факторов). В разделе Max no. of factors установить число 9 – максимальное число факторов в нашем случае, в разделе Mini. eigenvalue: 0 – минимальное значение для этой опции (рис. VII.32). Нажать кнопку OK. Открывается диалоговое окно Factor Analysis Results:, в котором выбирается вкладка Quick, где нажимается кнопка Eigenvalues (собственные значения) (рис. VII.33). Результатом расчета будет таблица Eigenvalues (частей от общего числа факторов, в данном случае – части от девяти), которая содержит следующие столбцы: собственные значения (Eigenvalues), проценты от полной величины (% Total variance), кумулятивных собственных значений (Cumulative Eigenvalues), и кумулятивного процента (Cumulative %) (рис. VII.34). Первые три фактора дают наибольший вклад в процентном отношении. Основываясь на таблице Eigenvalues, можно предложить рассматривать только эти три фактора.
Рис. VII.32. Выбор параметров в диалоговом окне Define Method of Factor Extraction:
Рис. VII.33. Расчет Explained variance в диалоговом окне Factor Analysis Results:
Рис. VII.34. Расчетная таблица Eigenvalues
В диалоговом окне Factor Analysis Results: выбрать вкладку Explained variance, где нажать кнопку Scree plot. Результатом будет график, основанный на тесте Каттелла (рис. VII.35), иллюстрирующий первый столбец таблицы Eigenvalues. Основанный на методе Монте-Карло, Cattell's scree test предлагает, что в точке, где непрерывное падение Eigenvalues выравнивается, предлагается сокращение остальных дополнительных факторов, так как только случайный «шум» добавляется дополнительными факторами. В нашем примере, эта точка может быть для фактора 3 или фактора 4. Поэтому нужно попробовать оба решения и рассмотреть тот, который выдаст наиболее поддающееся толкованию решение.
Теперь исследуем факторные нагрузки. Сначала следует рассмотреть невращаемые факторные нагрузки для всех 9 факторов. В диалоговом окне Factor Analysis Results: выбрать вкладку Loadings и в разделе Factor rotation: выбрать установленное по умолчанию – Unrotated. Обратите внимание, что считается, что факторы со значением нагрузки более 0,70 – факторы с высокой нагрузкой. Затем нажать на кнопку Summary (рис. VII.36). Результатом расчета будет таблица факторных нагрузок отсортированных так, чтобы последующие факторы составляли все меньшее и меньшее количество разницы (рис. VII.37). Не удивительно видеть, что первый фактор показывает большинство самых высоких нагрузок.
Рис. VII.35. График Scree plot
Рис. VII.36. Выбор Unrotated в диалоговом окне Factor Analysis Results: на вкладке Loadings в разделе Factor rotation:
Рис. VII.37. Таблица факторных нагрузок по методу Unrotated для 10 факторов
Фактическая ориентация факторов в пространстве факториала произвольна и все вращения факторов в пространстве воспроизведут корреляции одинаково хорошо. Поэтому предложено вращать факторы таким образом, чтобы выдать такую структуру фактора, что ее проще интерпретировать. Такая простая структура и была определена Thurstone (1947), чтобы в основном описать состояние, когда факторы отмечены высокими нагрузками для некоторых переменных, низкими нагрузками для других, и когда есть немного высоких перекрестных нагрузок, то есть немного переменных с существенными нагрузками на больше, чем один фактор. Популярный стандартный вычислительный метода вращения, чтобы получить простую структуру – VARIMAX вращение (Kaiser, 1958); Другие, которые были предложены - QUARTIMAX, BIQUARTIMAX, и EQUAMAX (см. Harman, 1967) – все они осуществлены в STATISTICA.
Сначала рассмотрим число факторов, которое хотим вращать. Было предварительно решено, что три фактора являются наиболее влиятельными, но по результатам рассмотрения графика на рис. VII.35 было решено рассматривать четыре фактора. Нажать кнопку Cancel, чтобы возвратиться в окно Define Method of Factor Extraction:, где выбрать вкладку Quick. Установить в разделе Max no. of factors число 4 – число факторов в рассматриваемом случае, в разделе Mini. eigenvalue: 0 – минимальное значение для этой опции (рис. VII.38).
Рис. VII.38. Установка нового числа факторов в Max no. of factors
Нажать кнопку OK. Открывается диалоговое окно Factor Analysis Results:, в котором выбрать вкладку Loadings, и в списке Factor rotation: выбрать Varimax raw (рис. VII.39). Затем нажать на кнопку Summary. Результатом расчета будет таблица Factor Loadings (факторных нагрузок) – см. рис. VII.40. Получится вращаемое решение с четырьмя факторами. Четвертый фактор не дает больших нагрузок. Повторить решение для трех факторов. Результатом расчета будет таблица Factor Loadings (факторных нагрузок) – см. рис. VII.41. Первый фактор показывает большинство самых высоких нагрузок. Для золота (Au) большую нагрузку показывает второй фактор – около 0,82 и достаточно большую – первый фактор – около 0,55. Фактор 1 связан с Ag, Pb и Sb, фактор 2 – с Sn, As и Au, фактор 3 – с U и Th. С K, кажется, связан и фактор 1 и фактор 2: фактор 1 – нагрузка 0,66, фактор 2 – 0,57.
Рис. VII.39. Выбор Varimax raw в диалоговом окне Factor Analysis Results: на вкладке Loadings в разделе Factor rotation:
Рис. VII.40. Таблица факторных нагрузок по методу Varimax для 4 факторов
Рис. VII.41. Таблица факторных нагрузок по методу Varimax для 3 факторов
Щелкнуть в диалоговом окне Factor Analysis Results: на вкладке Loadings кнопкой Plot of loadings, 2D. Откроется диалоговое окно Select two factors for the plot, в котором выберем Factor 1 и Factor 2 (рис. VII.42). Нажать OK. Результатом будет плоский график нагрузок (рис. VII.43). Аналогично построить график нагрузок для Factor 1 и Factor 3 (рис. VII.44). В диалоговом окне Factor Analysis Results: на вкладке Loadings щелкнем кнопкой Plot of loadings, 3D. Результатом будет трехмерный график нагрузок (рис. VII.45).
Рис. VII.42. Диалоговое окно Select two factors for the plot
Рис. VII.43. График нагрузок Plot of loadings, 2D для факторов 1 и 2
Рис. VII.44. График нагрузок Plot of loadings, 2D для факторов 1 и 3
Рис. VII.45. График нагрузок Plot of loadings, 3D для факторов 1, 2 и 3
Графики (рис. VII.43 – VII.45) просто показывают нагрузки для каждой переменной и хорошо иллюстрируют корреляционную матрицу, например, по рис. VII.43 видно, что ассоциированы мышьяк (As) и олово (Sn); серебро (Ag), сурьма (Sb) и свинец (Pb); уран (U) и торий (Th). Фактор 2 – фактор с высокими нагрузками на Au – «рудный» и фактор 3 связан с околорудным метасоматозом. Обратите внимание на нагрузки факторов, для того, чтобы определить, в какой мере данная закономерность характеризует изучаемый объект.
Щелкнуть в диалоговом окне Factor Analysis Results: на вкладке Explained variance кнопкой Reproduced/residual corrs. (рис. VII.46), чтобы получить две матрицы – корреляции и остаточной корреляции (рис. VII.47).
Рис. VII.46. Диалоговое окно Factor Analysis Results: вкладке Explained
Таблица остаточных корреляций может интерпретироваться как «количество» корреляции, которое не может быть объяснено решением с тремя факторами. Диагональные элементы в матрице содержат стандартное отклонение, которое является равным квадратному корню из единицы минус соответствующие общности для двух факторов (общности переменной – разница, которую можно объяснять соответствующим числом факторов). Если рассмотреть тщательно эту матрицу, можно видеть, что нет фактически никаких остаточных корреляций, которые являются большими, чем 0,1, или меньше чем –0,1. Добавить к этому факт, что первые три фактора объясняли почти 95 % полной разницы (см. совокупный % Eigenvalues показанный в таблице Eigenvalues на рис. VII.34). Очень низкие общности для одной или двух переменных (из всех в анализе) могут указывать, что эти переменные плохо объясняются соответствующей моделью фактора.
Рис. VII.47. Таблица остаточных корреляций
Щелкнуть в диалоговом окне Factor Analysis Results: на вкладке Explained variance кнопкой Communalities (рис. VII.46), чтобы получить таблицу общностей для текущего решения, то есть текущего числа факторов (рис. VII.48).
Рис. VII.48. Таблица общностей
Щелкнуть в диалогом окне Factor Analysis Results: на вкладке Scores кнопкой Factor scores coefficients, чтобы получить таблицу со значениями каждого фактора элементов (рис. VII.49). Эти коэффициенты представляют веса, которые используются когда вычисляется зависимость фактора от переменных.
Щелкнуть в диалогом окне Factor Analysis Results: на вкладке Scores кнопкой Factor scores, чтобы получить таблицу со значениями каждого фактора в точках наблюдения (рис. VII.50). Обратите внимание, в каких точках наблюдения значения рудного фактора наибольшие: 4 – 6, 11, 17, 19, 21, 24. Фактор околорудного метасоматоза – 1, 4, 8, 13 – 15, 20, 21, 24, 26 – 28, 31, 33 – 34, 36. Общие: 4, 21, 24.
Рис. VII.49. Таблица Factor scores coefficients
Рис. VII.50. Таблица Factor scores
В таблице Factor scores выделить «рудный» фактор» – 2 и фактор околорудного метасоматоза – 3. Затем выбрать процедуру графического анализа в контекстном меню Graphs of Block Data\Line Plots: Entire Columns. На полученном графике указать места, где максимально проявлены факторы рудного метасоматоза (рис. VII.51).
Рис. VII.51. Результат выполнения процедуры в контекстном меню Graphs of Block Data\Line Plots: Entire Columns.
8. Сделать окончательные выводы о геохимических ассоциациях элементов и прогнозной значимости объекта.
Сравнить результаты корреляционного, кластерного и факторного анализов, их отличия, связанные с возможностями каждого анализа, и общие черты, позволяющие дать взвешенное заключение о закономерных связях между изучаемыми признаками.
ОБЛАСТЬ ПРИМЕНЕНИЯ МНОГОМЕРНЫХ СТАТИСТИЧЕСКИХ МОДЕЛЕЙ В ГЕОЛОГИИ
Возможности применения многомерных статистических моделей для изучения взаимозависимостей комплексов самых различных геологических признаков практически не ограничены для любой отрасли геологии. В палеонтологии они используются для статистического описания морфологических признаков ископаемых форм организмов и сопоставления их групп с литолого-фациальными разрезами осадочных пород, с целью оценки достоверности их стратиграфического положения (или установления групп руководящих ископаемых). Корреляционные методы парагенетического анализа химических элементов и минералов находят широкое применение в геохимии и минералогии. Различные методы многомерного описания самых различных физических свойств, химического и минерального состава осадочных и магматических пород используются в литологии и петрографии для разделения их по фациальным или формационным признакам или для оценок их перспектив на выявление самых различных полезных ископаемых. С каждым годом все шире используются методы «распознавания образов» рудоносных территорий или месторождении полезных ископаемых, основанные на статистических описаниях сочетаний благоприятных элементов геологического строения, влияющих на концентрации полезных ископаемых. В настоящее время алгоритмы «распознавания образов», использующие самые различные статистические, логические и эвристические многомерные модели, реализуются в человеко-машинных информационно-прогнозирующих системах, на шедших широкое применение в геологоразведочной отрасли.
Многомерные статистические описания связей геологических переменных с последующими оценками степени их взаимозависимостей используются в геологической практике с целью идентификации (отождествления), дискриминации (разделения), классификации (группирования) изучаемых объектов или в поисках наиболее информативных комбинаций признаков для решения прогнозных задач.
Задачи идентификации геологических объектов, например, оценки коллекторских свойств или газоносности пород по совокупности скважинно-геофизических характеристик, обычно выполняются с помощью моделей множественной регрессии.
В целях дискриминации геологических объектов на два заранее заданных класса, например, разделение кимберлитовых пород на алмазоносный и неалмазоносный типы, по данным их силикатных анализов может быть использована модель линейной дискриминантной функции.
Классификация геологических объектов, например, иерархическое группирование парагенетических ассоциаций элементов метасоматически измененных пород или руд по данным их полных химических анализов производится с помощью кластер-анализа, других методов многомерного корреляционного анализа или метода факторного анализа.
Конечной целью большинства многомерных статистических методов является предсказание (прогнозирование) тех или иных свойств изучаемых геологических объектов.
Прогнозирование свойств геологических объектов, чаще всего выявление перспектив их рудоносности или оценка вероятных масштабов оруденения проводится с помощью алгоритмов «распознавания образов».
В зависимости от характера исходных данных и целей геологических исследований для составления этих алгоритмов используются самые различные многомерные модели. При этом, как правило, возникает проблема поиска наиболее информативных сочетаний признаков и сокращения размерности их пространства, что достигается с помощью метода главных компонент, R-метода факторного анализа или других логических и эвристических методов.
Возможности использования многомерных статистических моделей для целей решения геологических задач изучены в настоящее время далеко не полностью и несомненно имеют большое будущее.
ЛАБОРАТОРНАЯ РАБОТА № VIII. МНОГОМЕРНЫЕ СТАТИСТИЧЕСКИЕ МОДЕЛИ. ЗАДАЧИ РАСПОЗНАВАНИЯ ОБРАЗОВ В ГЕОЛОГИИ
Многие прогнозные и интерпретационные задачи решаются в практической геологии путем сопоставления комплекса признаков изучаемого объекта с комплексом тех же признаков эталонного объекта. Совокупность подобных методов, основанных на принципе аналогии, получила название методов распознавания образов.
Модели распознавания образов геологических объектов весьма разнообразны. При решении конкретных геологических задач их выбор зависит от природы геологических объектов, числа, полноты описания эталонных объектов, типов и информативности их признаков. В зависимости от типов исходных признаков выделяют две группы моделей: дискретные и непрерывные.
Дискретные модели применяются в тех случаях, когда измеряемые признаки рассматриваются как независимые или частично зависимые детерминированные величины.
Непрерывные модели используются для распознавания образов таких объектов, измеряемые признаки которых могут рассматриваться как случайные величины и поддаются статистическому описанию многомерными функциями плотностей вероятности.
В качестве критериев оптимальности распознавания используются решающие правила, определяющие пороговые значения решающих функций. Они могут определяться статистическими, логическими или эвристическими * методами.
При использовании любых алгоритмов распознавания следует стремиться к построениям решающих функций как можно более простых видов, поскольку они легче поддаются реализации и обеспечивают более устойчивые решения, особенно при малых выборках обучения.
Линейная дискриминантная функция для трех переменных имеет вид
. (VIII.1)
Коэффициенты a1, a2 и a3 находятся из системы уравнений
(VIII.2)
Величины d1, d2 и d3 представляют собой разности оценок средних значений признаков по выборкам A и B.
(VIII.3)
Если обозначить номер строки как i, а столбца как j, то величины sij можно записать в форме матрицы:
. (VIII.4)
Значения sij соответствуют элементам ковариационной матрицы признаков X, Y, Z и вычисляются, как суммы квадратов отклонений или суммы смешанных произведений отклонений:
Приведенные выше выражения для удобства расчетов могут быть заменены на эквивалентные выражения для сумм квадратов вида
, (VIII.5)
и для сумм смешанных произведения вида
, (VIII.6)
где nA и nB – объем выборки для объекта A и B.
После вычисления коэффициентов a1, a2 и a3, необходимо вычислить значение функции D0, относительно которого можно сделать вывод о принадлежности нового неизвестного объекта к тому или иному классу (свите)
. (VIII.6)
В Excel для вычисления ковариации используется процедура Ковариация. Процедура позволяет получить ковариационную матрицу, содержащую коэффициенты ковариации между различными параметрами.
Для реализации процедуры необходимо:
выполнить команду Сервис/Анализ данных;
в появившемся списке Инструменты анализа выбрать строку Ковариация и нажать кнопку OK;
в появившемся диалоговом окне указать Входной интервал, то есть ввести ссылку на ячейки, содержащие анализируемые данные. Для этого следует навести указатель мыши на левую верхнюю ячейку данных, нажать левую кнопку мыши и, не отпуская ее, протянуть указатель мыши к правой нижней ячейке, содержащей анализируемые данные, затем отпустить левую кнопку мыши. Входной интервал должен содержать не менее двух столбцов.
в разделе Группировка переключатель установить в соответствии с введенными данными;
указать выходной диапазон, то есть ввести ссылку на ячейки, в которые будут выведены результаты анализа. Для этого следует поставить флажок в левое поле Выходной интервал (навести указатель мыши и щелкнуть левой кнопкой), далее навести указатель мыши на правое поле ввода Выходной интервал и щелкнуть левой кнопкой мыши, затем указатель мыши навести на левую верхнюю ячейку выходного диапазона и щелкнуть левой кнопкой мыши. Размер выходного диапазона будет определен автоматически, и на экран будет выведено сообщение в случае возможного наложения выходного диапазона на исходные данные.
нажать кнопку OK.
Результаты анализа. В выходной диапазон будет выведена ковариационная матрица, в которой на пересечении каждых строки и столбца находится коэффициент ковариации между соответствующими параметрами.
Отметим, что хотя в результате будет получена треугольная матрица, ковариационная матрица симметрична, и коэффициенты ковариации sij = sji.
ПРИМЕР VIII.1
При геологическом картировании района, в строении которого принимают участие вулканогенно-осадочные породы, выделены две свиты близкого петрографического состава, но занимающие различное стратиграфическое положение. Взаимоотношение свит надежно устанавливается в отдельных «ключевых» участках; в остальной части района обнаружение пород данного состава и облика не позволяет однозначно отнести их к той или иной свите.
Предполагается, что, несмотря на свое визуальное сходство, породы данных свит несколько различаются по содержаниям отдельных породообразующих оксидов и характеру их взаимосвязи. Для установления этих отличий в ключевых участках проведено определение концентраций оксидов в отдельных пробах. В табл. VIII.1 данные опробования верхней свиты обозначены индексом A, а данные нижней свиты – индексом B.
Кроме ключевых участков определение содержаний породообразующих оксидов в сходных породах выполнено по отдельным искусственным обнажениям и скальным выходам в различных частях района, отделенных друг от друга тектоническими нарушениями, площадями с мощным покровом рыхлых отложений, в связи с чем определение их стратиграфического положения затруднено. Данные их изучения приведены в табл. VIII.2.
Требуется
На основе данных о составе свит вычислить уравнение дискриминантной функции и определить принадлежность к каждой из свит пород аналогичного состава.
Указание
Дискриминантную функцию предлагается рассчитать по сочетанию трех признаков из табл. VIII.1 (Na2O, K2O, TiO2), используя данные первых пятнадцати строк. Содержание породообразующих оксидов в сходных породах из табл. VIII.2 предлагается взять также для сочетания трех признаков (Na2O, K2O, TiO2), используя данные первой строки.
Решение
В ячейках A1, B1, C1, F1, G1 и H1 следует разместить обозначения породообразующих оксидов Na2O, K2O, TiO2 так как это показано на рис. VIII.1. Соответственно в столбцах A, B, C, F, G и H – разместить данные первых пятнадцати строк табл. VIII.1 для этих породообразующих оксидов Na2O, K2O, TiO2. В ячейках A17, B17, C17, F17, G17 и H17 следует рассчитать средние значения по каждому породообразующему оксиду. В ячейку A18 ввести формулу =СЧЁТ(A2:A16), а в ячейку F18 – формулу =СЧЁТ(F2:F16) для определения числа измерений концентраций по каждой из свит.
Таблица VIII.1 Данные анализов вулканогенно-осадочных пород верхней (А) и нижней (В) свит – содержания (в %) породообразующих оксидов
№ |
Na2O |
K2O |
TiO2 |
MgO |
CaO |
FeO |
Na2O |
K2O |
TiO2 |
MgO |
CaO |
FeO |
A |
B |
|||||||||||
1 |
2,37 |
3,39 |
1,45 |
3,72 |
5,82 |
4,18 |
4,49 |
3,72 |
1,68 |
3,95 |
6,68 |
5,22 |
2 |
4,44 |
2,64 |
1,10 |
3,14 |
4,68 |
3,56 |
4,13 |
3,55 |
1,56 |
4,38 |
6,20 |
5,60 |
3 |
3,20 |
2,50 |
1,14 |
2,83 |
4,83 |
3,50 |
4,00 |
3,21 |
1,37 |
3,34 |
5,55 |
4,52 |
4 |
3,71 |
3,68 |
1,22 |
4,15 |
5,62 |
3,59 |
3,48 |
2,93 |
1,22 |
3,94 |
4,72 |
3,81 |
5 |
5,02 |
3,00 |
0,98 |
3,32 |
4,75 |
2,97 |
3,15 |
2,32 |
0,87 |
3,87 |
3,20 |
3,31 |
6 |
4,40 |
3,47 |
0,83 |
4,06 |
4,83 |
3,00 |
2,79 |
2,28 |
0,92 |
4,18 |
3,81 |
2,62 |
7 |
4,72 |
2,81 |
1,15 |
3,22 |
4,55 |
3,60 |
3,08 |
2,47 |
1,10 |
5,17 |
4,82 |
3,95 |
8 |
3,81 |
3,07 |
1,09 |
3,45 |
5,31 |
3,21 |
3,37 |
2,96 |
1,15 |
4,21 |
4,31 |
3,37 |
9 |
2,22 |
3,42 |
1,22 |
3,97 |
5,86 |
3,62 |
3,65 |
2,79 |
1,03 |
3,20 |
4,01 |
3,00 |
10 |
3,58 |
3,05 |
1,38 |
3,49 |
5,49 |
4,02 |
3,84 |
3,34 |
1,32 |
3,92 |
5,02 |
4,51 |
11 |
3,75 |
2,73 |
1,33 |
3,04 |
5,12 |
4,38 |
3,61 |
2,52 |
1,17 |
3,81 |
4,95 |
4,04 |
12 |
3,84 |
3,14 |
1,48 |
3,32 |
5,30 |
4,31 |
3,96 |
2,24 |
1,45 |
4,09 |
5,92 |
5,07 |
13 |
3,80 |
3,80 |
1,11 |
4,95 |
5,92 |
3,60 |
3,78 |
3,07 |
1,31 |
3,23 |
4,45 |
3,32 |
14 |
3,80 |
3,15 |
1,22 |
3,73 |
5,32 |
4,00 |
3,36 |
2,49 |
0,73 |
3,80 |
3,14 |
2,27 |
15 |
3,48 |
3,09 |
1,34 |
3,58 |
5,58 |
4,11 |
4,01 |
2,52 |
1,53 |
3,84 |
5,82 |
4,78 |
16 |
3,42 |
3,13 |
1,45 |
3,48 |
5,43 |
4,40 |
4,40 |
4,14 |
1,82 |
2,38 |
6,92 |
4,90 |
17 |
3,38 |
3,58 |
1,63 |
4,22 |
5,80 |
5,35 |
4,82 |
3,87 |
1,55 |
3,27 |
6,40 |
5,51 |
18 |
3,56 |
2,67 |
1,72 |
3,12 |
5,13 |
4,50 |
4,21 |
3,42 |
1,48 |
4,00 |
6,08 |
4,63 |
19 |
4,12 |
4,12 |
1,22 |
4,31 |
5,75 |
3,91 |
4,16 |
3,18 |
1,30 |
3,50 |
5,01 |
4,12 |
20 |
4,58 |
3,27 |
0,75 |
3,52 |
5,40 |
3,10 |
3,17 |
3,41 |
1,52 |
4,08 |
6,12 |
4,72 |
21 |
4,20 |
3,11 |
0,72 |
3,58 |
5,03 |
2,62 |
3,56 |
2,75 |
1,12 |
3,79 |
4,20 |
3,00 |
22 |
4,38 |
2,16 |
0,81 |
2,38 |
4,48 |
3,30 |
2,97 |
2,16 |
0,64 |
3,38 |
2,92 |
2,93 |
23 |
3,87 |
2,70 |
1,06 |
3,52 |
5,02 |
3,57 |
2,62 |
2,33 |
0,68 |
4,89 |
2,70 |
1,65 |
24 |
3,28 |
3,20 |
1,10 |
3,66 |
5,61 |
3,65 |
2,37 |
1,75 |
0,85 |
4,22 |
3,10 |
3,40 |
25 |
2,87 |
3,21 |
1,55 |
3,83 |
5,72 |
4,73 |
2,90 |
2,04 |
0,93 |
4,17 |
4,05 |
3,12 |
26 |
2,84 |
3,39 |
1,22 |
3,72 |
5,79 |
4,21 |
3,00 |
2,61 |
1,25 |
3,52 |
5,40 |
4,65 |
27 |
3,23 |
2,86 |
1,77 |
3,02 |
5,22 |
5,54 |
3,61 |
2,97 |
1,34 |
3,98 |
4,70 |
3,30 |
28 |
3,72 |
3,35 |
1,14 |
4,21 |
5,39 |
4,18 |
4,12 |
3,31 |
1,50 |
3,40 |
6,03 |
5,10 |
29 |
4,39 |
3,76 |
0,63 |
3,98 |
5,90 |
3,32 |
4,88 |
3,82 |
1,72 |
3,06 |
6,52 |
4,50 |
30 |
3,71 |
2,92 |
0,58 |
3,01 |
5,24 |
3,38 |
4,31 |
3,22 |
1,41 |
3,38 |
5,90 |
5,30 |
Таблица VIII.2 Содержания (в %) породообразующих оксидов
№ |
Na2O |
K2O |
TiO2 |
MgO |
CaO |
FeO |
1 |
3,60 |
2,92 |
1,26 |
4,51 |
5,15 |
4,26 |
2 |
3,62 |
3,10 |
1,20 |
3,12 |
4,83 |
3,75 |
3 |
3,20 |
3,51 |
1,46 |
3,75 |
5,66 |
4,31 |
4 |
3,98 |
3,16 |
1,38 |
3,56 |
5,60 |
4,30 |
5 |
3,54 |
2,95 |
1,32 |
4,40 |
5,03 |
4,10 |
6 |
3,00 |
3,71 |
1,52 |
4,21 |
6,02 |
4,72 |
7 |
4,31 |
3,00 |
0,87 |
3,36 |
5,16 |
3,56 |
8 |
4,43 |
3,30 |
0,73 |
3,72 |
5,21 |
3,52 |
9 |
3,31 |
2,42 |
1,01 |
3,85 |
4,12 |
3,20 |
10 |
3,09 |
2,27 |
0,96 |
4,53 |
3,61 |
2,01 |
Для построения ковариационной матрицы верхней свиты A в меню Сервис выберите пункт Анализ данных и далее укажите строку Ковариация. В появившемся диалоговом окне укажите Входной интервал A1:C16. Укажите, что данные рассматриваются по столбцам. Установите флажок в поле Метки в первой строке. Укажите выходной диапазон. Для этого поставьте флажок в левое поле Выходной интервал и в правое поле ввода Выходной интервал введите А20. Нажмите кнопку OK.
Для построения ковариационной матрицы верхней свиты B в меню Сервис выберите пункт Анализ данных и далее укажите строку Ковариация. В появившемся диалоговом окне укажите Входной интервал F1:H16. Укажите, что данные рассматриваются по столбцам. Установите флажок в поле Метки в первой строке. Укажите выходной диапазон. Для этого поставьте флажок в левое поле Выходной интервал и в правое поле ввода Выходной интервал введите F20. Нажмите кнопку OK.
В выходных диапазонах получаем ковариационные матрицы. Подразумевается, что в пустых клетках в правой верхней половине таблицы находятся те же коэффициенты ковариации, что и в нижней левой (симметрично расположенные относительно диагонали). Заполните пустые ячейки верхних половин таблицы так, как показано на рис. VIII.1.
Рис. VIII.1. Расчет дискриминантной функции в документе Excel
В диапазон B25:D27 введите табличную формулу {=B21:D23*A18+G21:I23*F18} для расчета выборочной матрицы.
В ячейку F25 введите формулу =A17-F17, в ячейку F26 – формулу =B17-G17, в ячейку F27 – формулу =C17-H17 для вычисления разностей оценок средних d1, d2 и d3 каждого признака по форм. (VIII.3)
В диапазон I25:I27 введите табличную формулу {=МУМНОЖ(МОБР(B25:D27);F25:F27)} для расчета значений коэффициентов a1, a2 и a3 по форм. (VIII.2)
Таким образом, уравнение линейной дискриминантной функции в этом случае будет иметь вид D = 0,005 x + 0,074 y – 0,073 z – по форм. (VIII.1)
Далее необходимо вычислить по форм. (VIII.6) значение функции D0, относительно которого можно сделать вывод о принадлежности нового неизвестного объекта к тому или иному классу (свите).
В ячейку I28 введите формулу =1/2*(I25*(A17+F17)+I26*(B17+G17)+I27*(C17+H17)), результат равен 0,149.
Породы сходного облика, данные опробования которых приведены в табл. VIII.2, могут быть отнесены к верхней свите (объект класса A), если вычисленное для них значение дискриминантной функции D больше D0, в противном случае они должны относиться к нижней свите.
В диапазоне B30:D30 (рис. VIII.1) следует разместить данные первой строки табл. VIII.2 для сочетания трех признаков (Na2O, K2O, TiO2). В ячейке I30 – ввести формулу =I25*B30+I26*C30+I27*D30. Результат равен 0,141 и, следовательно, он может быть отнесен к нижней свите (объект класса В).
ЗАДАЧА VIII.1
Требуется
Используя условия предыдущего ПРИМЕРА VIII.1, рассчитать по форм. (VIII.5) и (VIII.6) элементы матрицы (VIII.4).
Указание
Сначала вычислите следующие данные:
Затем по форм. (VIII.5) и (VIII.6) вычислите элементы матрицы:
;
;
;
;
;
.
В результате получите выборочную матрицу
.
ЗАДАЧА VIII.2
Дискриминантную функцию предлагается рассчитывать по сочетанию любых трех признаков из табл. VIII.1. Расчеты могут проводиться по выборкам сокращенного объема (15 – 20 значений).
ЛАБОРАТОРНАЯ РАБОТА № IX. МОДЕЛИРОВАНИЕ ПРОСТРАНСТВЕННЫХ ПЕРЕМЕННЫХ. АППРОКСИМАЦИЯ ПОВЕРХНОСТЕЙ ТРЕНДА ПОЛИНОМАМИ
При изучении строения земной коры геолога интересуют не только средние характеристики изменчивости и взаимосвязи наблюдаемых значений свойств горных пород, минеральных ассоциаций или полезных ископаемых, но также закономерности их пространственных изменений в исследуемых объемах недр. Статистические модели для этих целей непригодны, поскольку любой статистический показатель отражает лишь средний уровень изменчивости изучаемого свойства, независимо от пространственного размещения точек наблюдений, в то время, как закономерности их пространственного размещения могут оказаться принципиально различными.
К тому же, статистические характеристики обеспечивают объективные оценки уровня наблюдаемой изменчивости признака только в тех случаях, когда выборочные данные представляют собой совокупность независимых случайных величин. Для оценок реальных погрешностей изменчивости корреляционно связанных исходных данных требуется введение поправок за связь.
Для целей математического моделирования закономерностей пространственного размещения изучаемых свойств геологических образований их признаки рассматриваются не как случайные величины, а как пространственные переменные, обладающие рядом специфических характеристик: мерностью, областями существования и воздействия (определения).
Их совокупности образуют поля пространственных переменных, в пределах которых положение каждой переменной определяется координатами пространства.
Геометрические и аналитические методы моделирования геологических, геохимических, геофизических и других полей пространственных переменных способствуют объективному выделению и количественному описанию тенденций, наблюдаемых в изменении свойств исследуемых объектов, а в ряде случаев позволяют выявлять новые, ранее неизвестные закономерности. Для целей моделирования при этом используются результаты геологического картирования, геохимических и шлиховых съемок, геофизических наблюдений, геологоразведочных работ и т.д.
Пространственные закономерности изменения гранулометрического и минерального составов терригенных отложений позволяют yстановить направление сноса обломочного материала и восстановить палеогеографическую обстановку периода формирования толщ осадочных пород. По изменениям концентрации различных минералов выявляется зональность интрузивных массивов и месторождений полезных ископаемых. Пространственные закономерности изменения геофизических полей широко используются при геологическом картировании и поисках полезных ископаемых. Выявление закономерностей в изменении параметров рудных тел на ранних стадиях изучения позволяет более обоснованно оценивать не затронутые геологической разведкой фланги и глубокие горизонты месторождений, а также способствует правильному выбору размеров сети наблюдений при продолжении геологоразведочных работ. Математическое моделировавшие геохимических и геофизических полей позволяет более надежно выявлять аномалии, перспективные на обнаружение месторождений полезных ископаемых.
С помощью моделирования дискретных геологических полей устанавливаются закономерности расположения месторождений и рудопроявлений определенного генетического типа относительно интрузий, тектонических нарушений или других элементов геологического строения.
ГЕОЛОГИЧЕСКИЕ ОБЪЕКТЫ, КАК ПОЛЯ ПРОСТРАНСТВЕННЫХ ПЕРЕМЕННЫХ
Полем пространственной переменной называется область пространства, каждой точке которого поставлено в соответствие некоторое значение изучаемой переменной. В качестве геологического поля может рассматриваться область пространства, при этом каждому элементу последнего соответствует определенное значение изучаемого геологического признака.
В зависимости от природы моделируемых признаков различают геофизические, геохимические, минералогические, морфометрические и другие геологические поля, которые по размерности изучаемого пространства подразделяются на одномерные, двумерные, трехмерные и многомерные.
Непрерывные и дискретные геологические пространственные переменные. По характеру распространения (областям существования) и земной коре геологические пространственные переменные разделяются на непрерывные и дискретные.
Непрерывные пространственные переменные выражают свойства горных пород, минеральных ассоциаций или полезных ископаемых, проявленные в любой точке поля, то есть на всей площади (во всем объеме) исследуемого блока земной коры или геологического тела. К числу этих переменных относятся концентрации химических элементов в горных породах, их физические свойства, мощность изучаемых геологических тел и многие другие свойства пород и руд.
К числу дискретных пространственных переменных относятся пространственно ограниченные геологические образования, области существования (размеры) которых пренебрежимо малы по сравнению с исследуемыми площадями или объемами недр. Они представлены геологическими телами специфического состава (например, отдельными разновидностями пород), месторождениями полезных ископаемых, вкрапленниками отдельных минералов или минеральных агрегатов в породах и др.
Скалярные и векторные поля. По признакам мерности пространственных переменных различают скалярные и векторные геологические поля. Большинство обычно изучаемых геологических переменных относится к скалярным величинам, для задания которых достаточно знать их модуль и знак. Совокупности этих переменных образуют скалярные геологические поля.
Реже в геологической практике используются векторные пространственные переменные, для задания которых в каждой точке пространства необходимо знать не только модуль, но и направление переменной. Векторные случайные поля могут моделироваться как векторы, ориентированные в реальном дву- или трехмерном пространстве (например, магнитные поля) или как комплексы различных скалярных переменных (например, по содержанию нескольких химических элементов в каждой точке). Многие скалярные поля могут быть преобразованы в векторные, если изучать не исходные величины, а их производные, то есть градиенты геологических полей.
ФОН, АНОМАЛИИ И ПОВЕРХНОСТЬ ТРЕНДА
Наиболее распространенной моделью непрерывного скалярного геологического поля является модель аддитивного случайного поля, когда на плоскости с координатами x и y задаются значения непрерывной скалярной переменной , значения которой используются для описания аддитивного скалярного поля , где – функция координат; ε – случайная переменная.
В задачу моделирования поля входит оценка функции f(x,y) в известных предположениях относительно ε и описание случайной части ε при некоторых предположениях относительно f(x,y). Главной задачей изучения пространственных закономерностей является описание неслучайной (закономерной) компоненты поля, отражающей уровень его значений, характерный для отдельных частей изучаемой территории.
Неслучайная компонента, характеризующая основную часть моделируемого геологического поля, называется его фоном. Фоновая часть поля выявляет область относительно повышенных или пониженных значений изучаемого признака и несет в себе полезную геологическую информацию о природе изучаемого геологического объекта. Для выделения фона необходима генерализация основных свойств поля с подавлением более или менее существенных частных отклонений. В каждом конкретном случае отклонения от фона рассматриваются как аномальные.
Методы выделения фоновой части геологического поля с разделением неслучайной и случайной составляющих изучаемых признаков по эмпирическим данным получили название анализа поверхностей тренда.
В геологической практике для целей тренд-анализа используют два разных методических подхода: 1) сглаживание исходных данных скользящими статистическими окнами; 2) аппроксимация полей единой функцией пространственных координат (ортогональными полиномами и др.). Методы скользящих средних более универсальны и обеспечивают лучшие оценки средних параметров пространственно ограниченных участков геологических полей по сравнению с методам полиномиального тренд-анализа исходных данных, которые используются преимущественно для выявления региональных геологических закономерностей.
Относительный характер закономерной и случайной составляющих наблюдаемой изменчивости признаков оказывает заметное влияние на результаты тренд-анализа геологических полей. В связи с этим в зависимости от масштабов, целей, задач и условий исследований под их фонами могут подразумеваться поверхности тренда различной степени плавности, а под аномалиями – любые отклонения от фона, превышающие заданный условный уровень.
Выделение региональных закономерностей путем аппроксимации эмпирических данных функцией координат пространства связано с довольно сложными вычислениями, обычно требующими применения ЭВМ. В качестве аппроксимирующих функций используются ортогональные полиномы различных степеней, уравнение Лапласа, тригонометрические полиномы и др.
Ортогональные полиномы обычно применяются в случае равномерной прямоугольной сети наблюдений. При этом тренд определяется как линейная функция географических координат, построенная по совокупности наблюдений таким образом, что сумма квадратов отклонений значений признака от плоскости тренда минимальна. Такая модель представляет собой вариант статистического метода множественной регрессии, в котором функция , описывающая поверхность тренда, рассматривается как (где x и y – координаты пространства; β0, β1 и β2 – полиномиальные коэффициенты). Для оценки трех указанных коэффициентов используются уравнения
;
; (IX.1)
;
где п – число точек наблюдения; u – значения признака в точках наблюдений; x и y – координаты точек наблюдений.
Для решения уравнений они записываются в матричной форме:
(IX.2)
и решаются относительно β0, β1 и β2. Такой метод нахождения оценок биномодальных коэффициентов называется методом наименьших квадратов.
ПРИМЕР IX.1
В качестве примера рассмотрим определение плоскости тренда отметок подошвы меловых отложений, экранирующих нефтяную толщу (по Дж. Дэвису). Условные координаты площади и абсолютные отметки подошвы меловых отложений приведены в табл. IX.1.
Требуется
Произвести аппроксимацию поверхностей тренда полиномами и анализ остатков.
Таблица IX.1. Координаты скважин, абсолютные отметки подошвы меловых отложений
-
№ п/п
Координаты
Абс. отметка u, м
x, км
y, км
1
10
17
–665
2
21
89
–613
3
33
38
–586
4
35
20
–440
5
47
58
–544
6
60
18
–343
7
65
74
–455
8
82
93
–437
9
89
60
–354
10
97
15
–142
Решение
В ячейку A1 ввести обозначение x, в ячейку B1 ввести обозначение x^2, в ячейку C1 – обозначение y, в ячейку D1 – обозначение y^2, в ячейку E1 – обозначение x*y, в ячейку F1 – обозначение u, в ячейку G1 – обозначение x*u, в ячейку H1 – обозначение y*u. Диапазон A2:A11 заполнить значениями координат скважин x из табл. IX.1, диапазон C2:C11 заполнить значениями координат скважин y из табл. IX.1, диапазон F2:F11 заполнить значениями абсолютных отметок подошвы меловых отложений u из табл. IX.1. В диапазоне B2:B11 рассчитать соответствующие квадраты координат скважин x, в диапазоне D2:D11 рассчитать соответствующие квадраты координат скважин y, в диапазоне E2:E11 рассчитать соответствующие произведения координат x и y, в диапазоне G2:G11 рассчитать соответствующие произведения координаты x и значения абсолютных отметок подошвы меловых отложений u, в диапазоне H2:H11 рассчитать соответствующие произведения координаты y и значения абсолютных отметок подошвы меловых отложений u. В строке 12, используя кнопку Автосумма на панели инструментов Стандартная, рассчитать суммы по столбцам =СУММ(A2:A11) – Σx, =СУММ(B2:B11) – Σx2, =СУММ(C2:C11) – Σy, =СУММ(D2:D11) – Σy2, =СУММ(E2:E11) – Σ(x*y), =СУММ(F2:F11) – Σu, =СУММ(G2:G11) – Σ(x*u), =СУММ(H2:H11) – Σ(y*u). В ячейке A13 рассчитать по формуле =СЧЁТ(A2:A11) число точек наблюдения n. Таким образом, для построения плоскости тренда вычисляются:
В диапазоне B16:D18 составить матрицу системы уравнений (IX.1): в ячейку B16 записать формулу =A13, в ячейку C16 – формулу =A12, в ячейку D16 – формулу =C12, в ячейку B17 – формулу =A12, в ячейку C17 – формулу =B12, в ячейку D17 – формулу =E12, в ячейку B18 – формулу =C12, в ячейку C18 – формулу =E12, в ячейку D18 – формулу =D12. В диапазоне F16:F18 составить вектор свободных членов системы уравнений (IX.1): в ячейку F16 записать формулу =F12, в ячейку F17 – формулу =G12, в ячейку F18 – формулу =H12.
Эти значения записывают систему уравнений (IX.1) в матричной форме (IX.2):
,
Для матричных операций в Excel предусмотрены функции, входящие в категорию «Математические»:
МОПРЕД – вычисление определителя матрицы;
МОБР – вычисление обратной матрицы;
МУМНОЖ – перемножение матриц.
Первая из этих функций возвращает число, поэтому вводится как обычная формула. Остальные функции возвращают блок ячеек, поэтому они должны вводиться как табличные формулы. Первая буква «М» в названии трех функций – сокращение от слова «матрица».
В ячейке A17 вычисляется определитель матрицы системы =МОПРЕД(B16:D18), который отличен от нуля и равен 656509376.
В блок B20:D22 ввести формулу для вычисления обратной матрицы. Для этого выделить блок B20:D22 (он имеет три строки и три столбца, как и исходная матрица). Ввести формулу {=МОБР(B16:D18)}. Даже если Вы используете Мастер функций, нужно завершить ввод нажатием комбинации клавиш Ctrl+Shift+Enter (вместо щелчка по кнопке OK). Если Вы забыли предварительно выделить блок B16:D18, а ввели формулу в ячейку B20 как обычную формулу Excel (закончив ввод нажатием Enter), то не нужно вводить ее заново: выделите B16:D18, нажмите клавишу F2 (редактирование), но не изменяйте формулу, просто нажмите Ctrl+Shift+Enter.
В блок F20:F22 ввести для вычисления коэффициентов β0, β1 и β2 формулу {=МУМНОЖ(B20:D22;F16:F18)}, то есть после решения матричного уравнения получить: β0= –621,04; β1 = 4,78; β2 = –1,96. Подставляя эти значения в уравнение , можно вычислить значения отметок плоскости тренда ( ) для каждой скважины и разности , характеризующие составляющие случайной изменчивости гипсометрической поверхности.
Уравнение функция от двух координат (условных координат площади) описывает поверхность отметки подошвы меловых отложений. Пусть необходимо построить эту поверхность, лежащую в диапазонах: [0; 100], [0; 100] с шагом Δ = 10 для обеих переменных.
Ввести значения переменной х в столбец A. Для этого в ячейку А26 ввести символ х. В ячейку А27 вводится первое значение аргумента – левая граница диапазона (0). В ячейку A28 вводится второе значение аргумента – левая граница диапазона плюс шаг построения (10). Затем, выделив блок ячеек А27:А28, автозаполнением получить все значения аргумента (за правый нижний угол блока протянуть до ячейки А37).
Значения переменной y вводим в строку 26. Для этого в ячейку В26 вводится первое значение переменной – левая граница диапазона (0). В ячейку С26 вводится второе значение переменной – левая граница диапазона плюс шаг построения (10). Затем, выделив блок ячеек В26:С26, автозаполнением получить все значения аргумента (за правый нижний угол блока протягиваем до ячейки L26).
Далее ввести значения переменной . Для этого табличный курсор необходимо поместить в ячейку В27 и записать формулу =$F$20+$F$21*$A27+$F$22*B$26. Обращаем внимание, что символы $ предназначены для фиксации адреса столбца А – переменной х и строки 26 – переменной у. Кроме того, символы $ предназначены для фиксации адресов коэффициентов β0 – $F$20, β1 – $F$21 и β2 – $F$22. Нажать кнопку ОK. Теперь необходимо скопировать функцию из ячейки В27. Для этого автозаполнением (протягиванием вправо) эту формула копируется вначале в диапазон B27:L27, после чего (протягиванием вниз) – в диапазон B28:L37.
Для построения диаграммы необходимо выделить диапазон A26:L37 и на панели инструментов Стандартная необходимо нажать кнопку Мастер диаграмм. В появившемся диалоговом окне Мастер диаграмм (шаг 1 из 4): тип диаграммы указать тип диаграммы – Поверхность, и вид – Контурная диаграмма (левую нижнюю диаграмму в правом окне). После чего нажимаем кнопку Далее в диалоговом окне.
В появившемся диалоговом окне Мастер диаграмм (шаг 2 из 4): источник данных диаграммы необходимо выбрать вкладку Диапазон данных и убедиться, что в поле Диапазон указан правильно интервал данных $A$26:$L$37.
Далее необходимо указать в строках или столбцах расположены ряды данных. Это определит ориентацию осей х и у. В примере переключатель Ряды в с помощью указателя мыши установить положение в столбцах.
Выбрать вкладку Ряд и в поле Подписи оси Х проверить диапазон подписей оси х – $A$27:$A$37.
Проверить также значения подписей оси у. Для этого в рабочем поле Ряд указать первую запись 0 и в рабочее поле Имя, активизировав его указателем мыши, проверить первое значение переменной у – $B$26. Затем в поле Ряд указать вторую запись 10 и в рабочем поле Имя увидим второе значение переменной у – $С$26, в поле Подписи оси Х проверить диапазон подписей оси х – $A$27:$A$37 Повторить, таким образом, до последней записи – 100. После необходимо нажать кнопку Далее.
В третьем окне требуется ввести заголовок диаграммы и названия осей. Для этого необходимо выбрать вкладку Заголовки, щелкнув на ней указателем мыши. Щелкнув в рабочем поле Название диаграммы указателем мыши, ввести с клавиатуры в поле название: Карта отметок подошвы меловых отложений. Затем аналогичным образом ввести в рабочие поля Ось Х (категорий), Ось Y (рядов данных) и Ось Z (значений) соответствующие названия X, км, Y, км, Абсолютные отметки, м. Далее следует нажать кнопку Готово, и после небольшого редактирования будет получена диаграмма (см. рис. IX.1) изолиний плоскости тренда.
Оценка степени приближения плотности тренда к наблюденным результатам, то есть средняя изменчивость их отклонений может быть охарактеризована величиной SSDD = SST – SSR,
где .
Процент учета общей изменчивости плоскостью тренда осуществляется по формуле .
В ячейку I1 ввести обозначение u', в ячейку J1 ввести обозначение u^2, в ячейку K1 – обозначение u'^2. Диапазон I2:I11 заполнить значениями отметок подошвы меловых отложений, рассчитанными по формуле тренда: в ячейку I2 ввести формулу =$F$20+$F$21*A2+$F$22*C2, которую скопировать во весь диапазон I2:I11. В ячейку J2 ввести формулу =F2^2, которую скопировать во весь диапазон J2:J11. В ячейку K2 ввести формулу =I2^2, которую скопировать во весь диапазон K2:K11. В ячейках диапазона I12:K12 рассчитать с помощью кнопки Автосумма панели инструментов Стандартная соответствующие суммы по столбцам. В ячейку J14 ввести обозначение SST, в ячейку J15 ввести обозначение SSR, ячейку J16 ввести обозначение SSDD, ячейку J17 ввести обозначение K^2. В ячейку K14 ввести формулу =J12-(F12^2/A13), в ячейку K15 ввести формулу =K12-(I12^2/A13), в ячейку K16 ввести формулу =K14-K15, в ячейку K17 ввести формулу =K15/K14 и установить формат числа в процентах (кнопка Процентный формат на панели инструментов Форматирование).
Таким образом, плоскость тренда учитывает 90% общей изменчивости:
.
Рис. IX.1. Карта отметок подошвы меловых отложений в северо-восточной Африке: поверхность тренда первого порядка
Примечание
В приведенном ПРИМЕРЕ IX.1 задача аппроксимации поверхности тренда удовлетворительно решается с применением ортогональных полиномов первой степени. В случаях, когда доля случайной изменчивости остается все же достаточно большей после аппроксимации линейными функциями, для выявления закономерной изменчивости более высокого порядка применяются полиномы второй, третьей и реже – более высоких степеней.
Поверхность тренда второго порядка будет описываться уравнением , а число неизвестных полиномиальных коэффициентов увеличится до пяти. Для перехода к уравнению следующего более высокого порядка каждая географическая координата возводится в заданную степень и добавляются соответствующие смешанные произведения.
Выбор степени аппроксимирующего полинома и оценка значимости выявленных закономерностей могут осуществляться с помощью дисперсионного анализа. Для этого подсчитываются средние квадраты отклонений эмпирических значений исследуемого признака в точках замера от среднего арифметического и от аппроксимирующих поверхностей разного порядка, а также средние квадраты отклонений от среднего арифметического самих аппроксимирующих поверхностей. Значимость закономерностей, описываемых полиномами определенного порядка, проверяется с помощью критерия Фишера.
В геологической практике региональные закономерности обычно удовлетворительно описываются полиномами не выше третьей степени.
Аппроксимация тригонометрическими полиномами позволяет описывать закономерные периодические колебания свойств геологических объектов.
Из всех возможных аппроксимирующих функций выбирается та, которая точнее описывает имеющиеся данные и содержит наименьшее число параметров. Однако вид такой функции нельзя предсказать заранее, что существенно затрудняет практическое использование данных моделей. Аппроксимирующие функции координат пространства как модели геологических объектов имеют и некоторые другие недостатки:
допускают существование нереальных значений изучаемых переменных, например, отрицательных значений содержания химических элементов в породах или мощностей рудных тел;
не учитывают резких, скачкообразных изменений значений изучаемого свойства по геологическим границам, вследствие чего при моделировании рудных тел высокие содержания полезного компонента иногда распространяются на заведомо безрудные породы, например, на пострудные дайки;
непригодны при использовании их для описания прерывистых объектов (например, рудных тел с прерывистым характером оруденения), так как происходит сглаживание исходных данных и искажается представление о степени прерывистости (увеличивается коэффициент рудоносности).
Выделение аномальных значений изучаемого свойства имеет в геологии большое практическое значение, так как с «аномалиями» часто связаны тела полезных ископаемых и другие наиболее интересные геологические объекты.
ЗАДАЧА IX.1
Требуется
Построить схему расположения пробуренных скважин – рис. VIII.2.
Указание
Использовать кнопку Мастер диаграмм панели инструментов Стандартная, выбрав тип диаграммы – Точечная.
Рис. IX.2. Карта отметок подошвы меловых отложений в северо-восточной Африке: расположение скважин с замерами абсолютных отметок подошвы меловых отложений
ПРИМЕР IX.2
Требуется
По исходным данным ПРИМЕРА IX.1 и табл. IX.1. произвести аппроксимацию поверхностей тренда полиномом в пакете Excel с помощью функции ЛИНЕЙН или с помощью процедуры Регрессия из пакета анализа данных.
Решение
Задача нахождения полиномиальных коэффициентов функции , описывающей поверхность тренда, может быть решена проще с помощью функции Excel ЛИНЕЙН или с помощью процедуры Регрессия из пакета анализа данных.
В ячейку A1 ввести обозначение x, в ячейку B1 ввести обозначение y, в ячейку C1 – обозначение u. Диапазон A2:A11 заполнить значениями координат скважин x, диапазон B2:B11 заполнить значениями координат скважин y, диапазон C2:C11 заполнить значениями абсолютных отметок подошвы меловых отложений u из табл. IX.1.
При использовании функции ЛИНЕЙН в свободный диапазон G2:I6 ввести табличную формулу {=ЛИНЕЙН(C2:C11;A2:B11;1;1)}. Первая строка полученного массива данных – это и есть соответствующие полиномиальные коэффициенты: в ячейке I2 – β0, в ячейке H2 – β1 и в ячейке G2 – β2. Ячейка G4 полученного массива данных содержит коэффициент детерминации R2, который равен 0,900. Следовательно, модель в целом адекватна описываемому явлению.
Построение диаграммы поверхности тренда можно осуществить аналогично тому, как это сделано в ПРИМЕРЕ IX.1.
При использовании процедуры Регрессия из пакета анализа данных в пункте меню Сервис выберите строку Анализ данных и далее укажите курсором мыши на строку Регрессия.
В появившемся диалоговом окне задайте Входной интервал Y. Для этого наведите указатель мыши на верхнюю ячейку столбца зависимых данных (C1), нажмите левую кнопку мыши и, не отпуская ее, протяните указатель мыши к нижней ячейке (C11), затем отпустите левую кнопку мыши. (Обратите внимание, что зависимые данные – это те данные, которые предполагается вычислять). Так же укажите Входной интервал X, то есть введите ссылку на диапазон независимых данных A1:B11. (Независимые данные – это те данные, которые будут измеряться или наблюдаться).
Установите флажок в поле Метки в первой строке. Установите флажок в поле График подбора. Далее укажите выходной диапазон. Для этого поставьте переключатель в положение Выходной интервал (наведите указатель мыши и щелкните левой кнопкой), затем наведите указатель мыши на правое поле ввода Выходной интервал и, щелкнув левой кнопкой мыши, указатель мыши наведите на левую верхнюю ячейку выходного диапазона (A31). Щелкните левой кнопкой мыши. Нажмите кнопку OK.
Результаты анализа. В выходном диапазоне появятся результаты и графики подбора и остатков.
Интерпретация результатов. В таблице Дисперсионный анализ оценивается общее качество полученной модели ее достоверность по уровню значимости критерия Фишера – р, который должен быть меньше, чем 0,05 (строка Регрессия, столбец Значимость F, в примере 0,0003, то есть p =0,0003 – модель значима, и степень точности описания моделью процесса – R-квадрат (вторая строка сверху в таблице Регрессионная статистика, в примере R-квадрат = 0,900. Следовательно, модель в целом адекватна описываемому явлению.
Далее необходимо определить значения коэффициентов модели. Они определяются из таблицы в столбце Коэффициенты – в строке Y-пересечение приводится свободный член, в строках соответствующих переменных приводятся значения коэффициентов при этих переменных. В столбце p-значение приводится достоверность отличия соответствующих коэффициентов от нуля. В случаях, когда р > 0,05, коэффициент может считаться нулевым. Это означает, что соответствующая независимая переменная практически не влияет на зависимую переменную и коэффициент может быть убран из уравнения. Все рассчитанные коэффициенты значимы.
Таким образом, функция , описывающая поверхность тренда, может быть записана как .
ЗАДАЧА IX.2
Требуется
По исходным данным ПРИМЕРА IX.1 и табл. IX.1. произвести аппроксимацию поверхностей тренда полиномом в пакете Excel с помощью функции ЛИНЕЙН или с помощью процедуры Регрессия из пакета анализа данных.
Указание
Поверхность тренда второго порядка будет описываться уравнением , а число неизвестных полиномиальных коэффициентов увеличится до пяти.
Диапазон A2:A11 заполнить значениями координат скважин x, диапазон B2:B11 заполнить значениями квадратов координат скважин x2, диапазон C2:C11 заполнить значениями координат скважин y, диапазон D2:D11 заполнить значениями координат скважин y2, диапазон E2:E11 заполнить произведениями значений координат скважин xy, диапазон F2:F11 заполнить значениями абсолютных отметок подошвы меловых отложений u из табл. IX.1.
Диаграмма изолиний плоскости тренда второго порядка – см. рис. IX.3.
Исходные данные для построения этой диаграммы можно разместить следующим образом – рис. IX.4.
Рис. IX.3. Карта отметок подошвы меловых отложений в северо-восточной Африке: поверхность тренда второго порядка
Рис. IX.4. Размещение исходных на рабочем листе для построения диаграммы рисунка IX.3
ОБЛАСТИ ПРИМЕНЕНИЯ ГОРНО-ГЕОМЕТРИЧЕСКИХ В МОДЕЛЕЙ И ТРЕНД-АНАЛИЗА В ГЕОЛОГИИ
Большинство геологических задач относится к числу пространственных исследований и имеет цель выявить особенности размещения изучаемых геологических объектов в структурах земной коры или элементов ее строения. Поэтому методы количественного описания и математического моделирования пространственных геологических закономерностей являются ведущими во всех отраслях геологических наук.
В геологической практике издавна исключительно широко распространены методы горно-геометрического моделирования геологических тел и свойств горных пород и полезных ископаемых.
Графические модели различных свойств природных геологических тел широко используются в структурной геологии, геологии полезных ископаемых, рудничной геологии и методике поисков и разведки полезных ископаемых. Методы горно-геометрического моделирования изучаются в курсе геометризации недр. На принципах П.К. Соболевского были разработаны различные аналитические методы описания изменчивости, использующие для этих целей первые или вторые последовательные разности значений показателей изменчивости по смежным пунктам наблюдений.
С помощью горно-геометрических моделей можно выразить особенности пространственной изменчивости свойств геологических образований, установить значение изучаемого свойства в любой точке исследуемого объекта, получить представление об его морфологии и внутреннем строении.
Гипсометрические планы поверхностей контактов, не выходящих на поверхность интрузивных тел и рудных залежей, графики изолиний содержаний полезных компонентов в рудных телах, карты геохимических и геофизических полей широко используются в геологической практике, так как они обеспечивают наглядность изображения и улучшают пространственное восприятие изучаемых закономерностей. Однако требование непрерывности и плавности изменения изучаемого свойства ограничивает область их практического применения объектами с весьма выдержанными в пространстве свойствами. К таким объектам относятся пласты осадочных пород, границы интрузивных образований, рудные тела с простой морфологией и относительно равномерным характером оруденения и т.п.
ЛАБОРАТОРНАЯ РАБОТА № X. ОПТИМИЗАЦИЯ
ОСНОВНЫЕ ПОНЯТИЯ
Под оптимизацией понимают процесс выбора наилучшего варианта из всех возможных. С точки зрения инженерных расчетов методы оптимизации позволяют выбрать наилучший вариант конструкции, наилучшее распределение ресурсов и т.п.
В процессе решения задачи оптимизации обычно необходимо найти оптимальные значения некоторых параметров, определяющих данную задачу. При решении инженерных задач их принято называть проектными параметрами, а в экономических задачах их обычно называют параметрами плана. В качестве проектных параметров могут быть, в частности, значения линейных размеров объекта, массы, температуры и т.п. Число п проектных параметров x1, x2, ..., xn характеризует размерность (и степень сложности) задачи оптимизации.
Выбор оптимального решения или сравнение двух альтернативных решений проводится с помощью некоторой зависимой величины (функции), определяемой проектными параметрами. Эта величина называется целевой функцией (или критерием качества). В процессе решения задачи оптимизации должны быть найдены такие значения проектных параметров, при которых целевая функция имеет минимум (или максимум). Таким образом, целевая функция – это глобальный критерий оптимальности в математических моделях, с помощью которых описываются инженерные или экономические задачи.
Целевую функцию можно записать в виде
u = f(x1, x2, ..., xn). (X.1)
Примерами целевой функции, встречающимися в инженерных и экономических расчетах, являются прочность или масса конструкции, мощность установки, объем выпуска продукции, стоимость перевозок грузов, прибыль и т.п.
В случае одного проектною параметра (n = 1) целевая, функция (X.1) является функцией одной переменной, и ее график – некоторая кривая на плоскости. При п = 2 целевая функция является функцией двух переменных, и ее графиком является поверхность.
Следует отметить, что целевая функция не всегда может быть представлена в виде формулы. Иногда она может принимать только некоторые дискретные значения, задаваться в виде таблицы и т.п. Во всех случаях она должна быть однозначной функцией проектных параметров.
Целевых функций может быть несколько. Например, при проектировании изделий машиностроения одновременно требуется обеспечить максимальную надежность, минимальную материалоемкость, максимальный полезный объем (пли грузоподъемность). Некоторые целевые функции могут оказаться несовместимыми. В таких случаях необходимо вводить приоритет той или иной целевой функции.
ЗАДАЧИ ОПТИМИЗАЦИИ
Можно выделить два типа задач оптимизации – безусловные и условные. Безусловная задача оптимизации состоит в отыскании максимума или минимума действительной функции (X.1) от п действительных переменных и определении соответствующих значений аргументов на некотором множестве σ n-мерного пространства. Обычно рассматриваются задачи минимизации; к ним легко сводятся и задачи на поиск максимума путем замены знака целевой функции на противоположный.
Условные задачи оптимизации, или задачи с ограничениями, – это такие, при формулировке которых задаются некоторые условия (ограничения) на множестве σ. Эти ограничения задаются совокупностью некоторых функций, удовлетворяющих уравнениям или неравенствам.
Ограничения-равенства выражают зависимость между проектными параметрами, которая должна учитываться при нахождении решения. Эти ограничения отражают законы природы, наличие ресурсов, финансовые требования и т.п.
В результате ограничений область проектирования σ, определяемая всеми п проектными параметрами, может быть существенно уменьшена в соответствии с физической сущностью задачи. Число m ограничений-равенств может быть произвольным. Их можно записать в виде
g1(x1, x2, ..., xn) = 0,
g2(x1, x2, ..., xn) = 0, (X.2)
……………………
gm(x1, x2, ..., xn) = 0.
В ряде случаев из этих соотношений можно выразить одни проектные параметры через другие. Это позволяет исключить некоторые параметры из процесса оптимизации, что приводит к уменьшению размерности задачи и облегчает ее решение. Аналогично могут вводиться также ограничения-неравенства имеющие вид
a1 ≤ φ1(x1, x2, ..., xn) ≤ b1,
a2 ≤ φ2(x1, x2, ..., xn) ≤ b2, (X.3)
…………………………
ak ≤ φk(x1, x2, ..., xn) ≤ bk.
Следует отметить особенность в отыскании решения при наличии ограничений. Оптимальное решение здесь может соответствовать либо локальному экстремуму (максимуму или минимуму) внутри области проектирования, либо значению целевой функции на границе области. Если же ограничения отсутствуют, то ищется оптимальное решение на всей области проектирования, то есть глобальный экстремум.
Теория и методы решения задач оптимизации при наличии ограничений составляют предмет исследования одного из важных разделов прикладной математики — математического программирования.
ОДНОМЕРНАЯ ОПТИМИЗАЦИЯ. ЗАДАЧИ НА ЭКСТРЕМУМ
Одномерная задача оптимизации в общем случае формулируется следующим образом. Найти наименьшее (пли наибольшее) значение целевой функции y = f(x), заданной на множестве σ, и определить значение проектного параметра , при котором целевая функция принимает экстремальное значение. Существование решения поставленной задачи вытекает из следующей теоремы.
Теорема Вейерштрасса. Всякая функция f(x), непрерывная на отрезке [a, b], принимает на этом отрезке наименьшее и наибольшее значения, то есть на отрезке [a, b] существуют такие точки x1 и x2, что для любого имеют место неравенства
f(x1) ≤ f(x) ≤ f(x2).
Эта теорема не доказывает единственности решения. Не исключена возможность, когда равные экстремальные значения достигаются сразу в нескольких точках данного отрезка. В частности, такая ситуация имеет место для периодической функции, рассматриваемой на отрезке, содержащем несколько периодов.
Будем рассматривать методы оптимизации для разных классов целевых функций. Простейшим из них является случай дифференцируемой функции f(x) на отрезке [a, b], причем функция задана в виде аналитической зависимости y=f(x), и может быть найдено явное выражение для ее производной f'(x). Нахождение экстремумов таких функций можно проводить известными из курса высшей математики методами дифференциального исчисления. Напомним вкратце этот путь.
Функция f(x) может достигать своего наименьшего и наибольшего значений либо в граничных точках отрезка [a, b], либо в точках минимума и максимума. Последние точки обязательно должны быть критическими, то есть производная f'(x) в этих точках обращается в нуль, — это необходимое условие экстремума. Следовательно, для определения наименьшего или наибольшего значений функции f(x) на отрезке [a, b] нужно вычислить ее значения во всех критических точках данного отрезка и в его граничных точках и сравнить полученные значения; наименьшее или наибольшее из них и будет искомым значением.
МНОГОМЕРНЫЕ ЗАДАЧИ ОПТИМИЗАЦИИ
Выше мы рассмотрели одномерные задачи оптимизации, в которых целевая функция зависит лишь от одного аргумента. Однако в большинстве реальных задач оптимизации, представляющих практический интерес, целевая функция зависит от многих проектных параметров. Например, минимум дифференцируемой функции многих переменных u = f(x1, x2, ..., xn) можно найти, исследуя ее значения в критических точках, которые определяются из решения системы дифференциальных уравнений
ЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ
В случае, когда оптимизируемая целевая функция и ограничения линейны, задача оптимизации решается методами линейного программирования и обычно называется задачей линейного программирования.
Процесс решения задачи линейного программирования обычно состоит из ряда этапов:
1-й этап: осмысление задачи, выделение наиболее важных качеств, свойств, величин, параметров. Это можно делать, составляя схемы, таблицы, графики и т.п.;
2-й этап: введение обозначений (неизвестных). Желательно ограничиваться как можно меньшим количеством неизвестных, выражая по возможности одни величины через другие;
3-й этап: создание целевой функции. Обычно в качестве цели могут выступать максимальная стоимость всего объема продукции, максимальная прибыль, минимальные затраты и т.п. Целевая функция записывается в виде(X.1);
4-й этап: составление системы ограничений, которым должны удовлетворять введенные величины (X.2) или (X.3);
5-й этап: решение задачи на компьютере.
Инструментом для поиска решений задач оптимизации в Excel служит процедура Поиск решения (Сервис/Поиск решения). При этом открывается диалоговое окно Поиск решения. Оно содержит следующие рабочие поля:
Установить целевую ячейку – служит для указания целевой ячейки, значение которой необходимо максимизировать, минимизировать или установить равным заданному числу. Эта ячейка должна содержать формулу;
Равной – служит для выбора варианта оптимизации значения целевой ячейки (максимизация, минимизация или подбор заданного числа). Чтобы установить число, необходимо ввести его в поле;
Изменяя ячейки – служит для указания ячеек, значения которых изменяются в процессе поиска решения до тех пор, пока не будут выполнены наложенные ограничения и условие оптимизации значения ячейки, указанной в поле Установить целевую ячейку;
Предположить – используется для автоматического поиска ячеек, влияющих на формулу, ссылка на которую дана в поле Установить целевую ячейку. Результат поиска отображается в поле Изменяя ячейки;
Ограничения – служит для отображения списка граничных условий поставленной задачи;
Добавить – используется для отображения диалогового окна Добавить ограничение;
Изменить – применяется для отображения диалогового окна Изменить ограничение;
Удалить – служит для снятия указанного ограничения;
Выполнить – используется для запуска поиска решения поставленной задачи;
Закрыть – служит для выхода из окна диалога без запуска поиска решения поставленной задачи. При этом сохраняются установки, сделанные в окнах диалога, появлявшихся после нажатий на кнопки Параметры, Добавить, Изменить или Удалить;
Параметры – применяется для отображения диалогового окна Параметры поиска решения, в котором можно загрузить или сохранить оптимизируемую модель и указать предусмотренные варианты поиска решения;
Восстановить – служит для очистки полей окна диалога и восстановления значений параметров поиска решения, используемых по умолчанию.
ПРИМЕР X.1
Требуется
На нефтяных месторождениях 1 и 2 поисково-разведочными работами готовятся запасы промышленных категорий X1 и X2 (в млн. т.). Необходимо отыскать значения запасов, приводящие к максимуму стоимости сырья (в тыс. долларов), которое возможно получить на двух месторождениях. В математическом виде – найти максимум прикладной линейной функции Z
при ограничениях:
– объемы работ по экологической реабилитации площади работ;
– стоимость геофизических работ;
– стоимость геохимических работ;
.
Указание
Обозначим: X1 – запасы месторождения 1, X2 – запасы месторождения 2. Значения запасов, приводящие к максимуму стоимости сырья (в тыс. долларов), которое возможно получить на двух месторождениях значения запасов, приводящие к максимуму стоимость сырья (в тыс. долларов), которое возможно получить на двух месторождениях . Функция, для которой ищется экстремум (максимум или минимум), носит название целевой функции. Беспредельному увеличению запасов препятствуют ограничения: – объемы работ по экологической реабилитации площади работ; – стоимость геофизических работ; – стоимость геохимических работ. Кроме того, запасы – неотрицательное число, поэтому .
Формально задача оптимизации записывается так:
Решение
Решим эту задачу в Excel.
Введите в ячейки A1, A2, A4:A8 рабочего листа текст. В ячейки B1, B2, A4:A8 введите нули (рис. X.1).
Рис. X.1. Размещение исходных данных задачи в документе Excel
В ячейку B4 введите формулу =50*B1+40*B2. Это целевая функция. В ячейку B6 введите формулу =2*B1+5*B2. В ячейку B7 введите формулу =8*B1+5*B2. В ячейку B8 введите формулу =5*B1+6*B2. Это ограничения.
Выделим ячейку B4, в которой вычисляется целевая функция, и вызовем Решатель (Сервис/Поиск решения). В диалоговом окне в поле ввода Установить целевую ячейку: уже содержится адрес ячейки с целевой функцией $B$4. Установим переключатель: Равной максимальному значению. Перейдем к полю ввода Изменяя ячейки:. В нашем случае достаточно щелкнуть кнопку Предположить и в поле ввода появится адрес блока $B$1:$B$2.
Перейдем к вводу ограничений. Щелкнем кнопку Добавить. Появится диалоговое окно Добавление ограничения. В поле ввода Ссылка на ячейку: укажите $B$6. Правее расположен выпадающий список с условными операторами (раскройте его и посмотрите). Выберем условие <=. В поле ввода Ограничение: введите число 20. У нас есть еще два ограничения, поэтому, не выходя из этого диалогового окна, щелкните кнопку Добавить и введите ограничение $B$7<=40. Аналогично добавить ограничение $B$8<=30. Ввод ограничений закончен, поэтому нажмите OK. Вы вновь окажитесь в диалоговом окне Поиск решения. Вы увидите введенные ограничения $B$6<=20, $B$7<=40 и $B$8<=30. Справа имеются кнопки Изменить и Удалить. С их помощью Вы можете изменить ограничение или стереть его. (Если Вы используете Excel 5.0/7.0, то Вы должны ввести еще одно ограничение $B$1:$B$2>=0).
Щелкните кнопку Параметры. Вы окажитесь в диалоговом окне Параметры поиска решения. Чтобы узнать назначение полей ввода этого окна, щелкните кнопку Справка. Менять ничего не будем, только установим два флажка: Линейная модель (так как наши ограничения и целевая функция являются линейными по переменным X1 и X2) и Неотрицательные значения (для переменных X1 и X2). В Excel 5.0/7.0 этот последний флажок отсутствует, поэтому и нужно было вводить ограничение $B$1:$B$2>=0. Щелкнем OK и окажемся в исходном окне.
Задача оптимизации полностью подготовлена. Нажимаем кнопку Выполнить. Появляется диалоговое окно Результаты поиска решения. В нем мы читаем сообщение: Решение найдено. Все ограничения и условия оптимальности выполнены. На выбор предлагаются варианты: Сохранить найденное решение или Восстановить исходные значения. Выбираем первое. Можно также вывести отчеты: по результатам, по устойчивости, по пределам.
После нажатия OK вид таблицы меняется: в ячейках X1 и X2 появляются оптимальные значения: X1 – 3,913043 и X2 – 1,73913. Соответственно пересчитываются все формулы. Целевая функция достигает значения 265,2174.
КОНТРОЛЬНЫЕ ВОПРОСЫ
Геологические образования и процессы как объекты изучения. Системы расположения точек наблюдений в геологии.
Погрешности измерений и погрешности аналогий. Шкалы измерений в геологии. «Выборочная», «геологическая» и «опробуемая» совокупности.
Виды моделирования в геологии. Этапы процесса решения геологических задач математическими методами.
Одномерные статистические модели. Числовые диаграммы «стебель с листьями» и «ящик с усами».
Статистические характеристики. Решение геологических задач с помощью гистограмм и кумулят.
Статистические законы распределения, используемые в геологии.
Специфика случайных угловых величин. Круговое среднее направление, круговая мода и круговая медиана.
Точечные и интервальные оценки свойств геологических объектов. Свойства точечных оценок.
Построение доверительных интервалов оценок средних значений.
Статистическая проверка гипотез. Ошибки первого и второго рода при статистической проверке гипотез.
Параметрические и непараметрические критерии согласия.
Проверка гипотезы о типе статистического распределения.
Решение геологических задач путем проверки гипотез о равенстве средних.
Решение геологических задач путем проверки гипотез о равенстве дисперсий.
Решение геологических задач путем проверки гипотезы об однородности выборки.
Решение геологических задач с помощью однофакторного и двухфакторного дисперсионного анализа.
Геологические объекты как двумерная статистическая совокупность. Описание двумерной статистической совокупности с помощью корреляционного поля точек.
Решение геологических задач путем проверки гипотезы о наличии корреляционной связи.
Оценка силы корреляционной связи.
Применение в геологии регрессионного анализа.
Описание характера корреляционной связи свойств геологических объектов уравнениями.
Проверка гипотезы о линейном характере корреляционной связи.
Применение многомерных статистических моделей в геологии.
Понятия парного, частного и множественного коэффициентов корреляции.
Методы выделения ассоциаций. Метод графов.
Принципы и области применения кластер-анализа.
Множественные регрессионные модели и их применение.
Распознавание образов в геологии.
Факторный анализ и метод главных компонент при решении геологических задач.
Моделирование пространственных переменных.
Непрерывные и дискретные геологические пространственные переменные, скалярные и векторные поля.
Фон и аномалия. Решение геологических задач с помощью тренд-анализа.
Способы «сглаживания» случайных полей.
Статистические методы проверки гипотез о наличии тренда.
Метод аппроксимации поверхностей тренда полиномами в геологии.
Моделирование дискретных случайных полей.
Понятие о моделировании с помощью случайных функций.
ЛИТЕРАТУРА
Аветисов А.Г., Булатов А.И., Шаманов Методы прикладной математики в инженерном деле при строительстве нефтяных и газовых скважин. – М.: ООО «Недра-Бизнесцентр», 2003. – 239 с.
Андронов А.М., Копытов Е.А., Гринглаз Л.Я. Теория вероятностей и математическая статистика: Учебник для вузов. – СПб.: Питер, 2004. – 461 с.
Вуколов Э.А. Основы статистического анализа. Практикум по статистическим методам и исследованию операций с использованием пакетов STATISTICA и EXCEL: Учебное пособие. – М.: ФОРУМ: ИНФРА-М, 2004. – 464 с.
Гайдышев И. Анализ и обработка данных: специальный справочник. – СПб.: Питер, 2001. – 752 с.
Гельман В.Я. Решение математических задач средствами Excel: Практикум – СПб: Питер, 2003. – 240 с.
Гмурман В.Е. Теория вероятностей и математическая статистика: Учеб. пособие для вузов. – 10-е изд., стер. – М.: Высш. шк. , 2004. – 479 с.
Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике: Учеб. пособие для студентов вузов. – 9-е изд. стер. – М.: Высш. шк., 2004. – 404 с.
Горелова Г.В., Кацко И.А. Теория вероятностей и математическая статистика в примерах и задачах с применением EXCEL. – Ростов н/Д: Феникс, 2005. – 480 с.
Грановская Н.В., Наставкин А.В. Сборник задач для лабораторных и самостоятельных занятий по дисциплине «Математические методы моделирования в геологии». Для студентов геологических специальностей геолого-географического факультета. – Ростов н/Дону: 2002. – 40 с.
Гуськов О.И., Кушнарев П. И. Таранов С.М.. Математические методы в геологии. Сборник задач. М.: Недра,1991.
Каждан А.Б., Гуськов О.И. Математические методы в геологии. Учебник для вузов. – М.: Недра, 1990.
Лавренов С.М. Excel: Сборник примеров и задач. – М.: Финансы и статистика, 2002. – 336 с.
Мартьянова А.Е. Сборник примеров и задач. Лабораторный практикум по дисциплине «Статистическое моделирование на ЭВМ». /Учебно-методическое пособие для студентов специальности 250400 «Химическая технология природных энергоносителей и углеродных материалов». – Астрахань, 2007, 136 с.
Мартьянова А.Е. Сборник примеров и задач. Лабораторный практикум по дисциплине «Математические методы моделирования в геологии». /Учебное пособие для студентов направления 650100 «Прикладная геология» (электронный вариант). – Астрахань, 2005, 263 с.
Мартьянова А.Е. Математические методы моделирования в геологии. Сборник примеров и задач: Учебное пособие для студентов направления 650100 «Прикладная геология». – Астрахань, 2005, 268 с.
Минько А.А. Статистический анализ в MS EXCEL. – М.: Издательский дом «Вильямс», 2004. – 448 с.
Прозорова Г.Н. Методические указания к выполнению лабораторных работ по курсу «Методы математического моделирования в геологии» (для студентов очной и заочной форм обучения по специальности 08.05.00) – Ростов-на-Дону: Ростовский госуниверситет, 2004. – с. 34.
Теория вероятностей и математическая статистика: Учеб. пособие /Под ред. В.И. Ермакова – М.: ИНФРА-М, 2004. – 287 с.
Турчак Л. И. Основы численных методов: Учеб. пособие. – М.: Наука, 1987. – 320 с.
Microsoft Excel 2000: справочник /Под ред. Ю.В. Колесникова – СПб: Изд-во «Питер», 1999. – 480 с.
www.exponenta.ru
www.statsoft.com
ПРИЛОЖЕНИЯ
Приложение I. Значения функции нормального распределения с параметрами 0 и 1 (для отрицательных значений Z)
Z |
0,00 |
0,01 |
0,02 |
0,03 |
0,04 |
0,05 |
0,06 |
0,07 |
0,08 |
0,09 |
-0,0 |
0,5000 |
0,4920 |
0,4929 |
0,4880 |
0,4840 |
0,4801 |
0,4761 |
0,4721 |
0,4681 |
0,4641 |
-0,1 |
0,4602 |
0,4562 |
0,4522 |
0,4483 |
0,4443 |
0,4404 |
0,4364 |
0,4325 |
0,4286 |
0,4247 |
-0,2 |
0,4207 |
0,4168 |
0,4129 |
0,4090 |
0,4052 |
0,4013 |
0,3974 |
0,3936 |
0,3897 |
0,3859 |
-0,3 |
0,3821 |
0,3783 |
0,3745 |
0,3707 |
0,3669 |
0,3632 |
0,3594 |
0,3557 |
0,3520 |
0,3483 |
-0,4 |
0,3446 |
0,3409 |
0,3372 |
0,3336 |
0,3300 |
0,3264 |
0,3228 |
0,3192 |
0,3156 |
0,3121 |
-0,5 |
0,3085 |
0,3050 |
0,3015 |
0,2981 |
0,2946 |
0,2912 |
0,2877 |
0,2843 |
0,2810 |
0,2776 |
-0,6 |
0,2743 |
0,2709 |
0,2676 |
0,2643 |
0,2611 |
0,2578 |
0,2546 |
0,2514 |
0,2483 |
0,2451 |
-0,7 |
0,2420 |
0,2398 |
0,2358 |
0,2327 |
0,2297 |
0,2266 |
0,2236 |
0,2206 |
0,2177 |
0,2148 |
-0,8 |
0,2119 |
0,2090 |
0,2061 |
0,2033 |
0,2005 |
0,1977 |
0,1949 |
0,1922 |
0,1894 |
0,1867 |
-0,9 |
0,1841 |
0,1814 |
0,1788 |
0,1762 |
0,1736 |
0,1711 |
0,1685 |
0,1660 |
0,1635 |
0,1611 |
-1,0 |
0,1587 |
0,1562 |
0,1539 |
0,1515 |
0,1492 |
0,1469 |
0,1446 |
0,1423 |
0,1401 |
0,1379 |
-1,1 |
0,1357 |
0,1335 |
0,1314 |
0,1292 |
0,1271 |
0,1251 |
0,1230 |
0,1210 |
0,1190 |
0,1170 |
-1,2 |
0,1151 |
0,1131 |
0,1112 |
0,1093 |
0,1075 |
0,1056 |
0,1038 |
0,1020 |
0,1003 |
0,0985 |
-1,3 |
0,0968 |
0,0951 |
0,0934 |
0,0918 |
0,0901 |
0,0885 |
0,0869 |
0,0853 |
0,0838 |
0,0823 |
-1,4 |
0,0808 |
0,0793 |
0,0778 |
0,0764 |
0,0749 |
0,0735 |
0,0721 |
0,0708 |
0,0694 |
0,0681 |
-1,5 |
0,0668 |
0,0655 |
0,0643 |
0,0630 |
0,0618 |
0,0606 |
0,594 |
0,0582 |
0,0570 |
0,0559 |
-1,6 |
0,0548 |
0,0537 |
0,0526 |
0,0515 |
0,0505 |
0,0495 |
0,0485 |
0,0475 |
0,0465 |
0,0455 |
-1,7 |
0,04046 |
0,0436 |
0,0427 |
0,0418 |
0,0409 |
0,0401 |
0,0392 |
0,0384 |
0,0375 |
0,0367 |
-1,8 |
0,0359 |
0,0351 |
0,0344 |
0,0336 |
0,0329 |
0,0322 |
0,0314 |
0,0307 |
0,0300 |
0,0294 |
-1,9 |
0,0287 |
0,0281 |
0,0274 |
0,0268 |
0,0262 |
0,0256 |
0,0250 |
0,0244 |
0,0238 |
0,0233 |
-2,0 |
0,0227 |
0,0222 |
0,0217 |
0,0212 |
0,0207 |
0,0202 |
0,0197 |
0,0192 |
0,0188 |
0,0183 |
-2,1 |
0,0179 |
0,0174 |
0,0170 |
0,0166 |
0,0162 |
0,0158 |
0,0154 |
0,0150 |
0,0146 |
0,0143 |
-2,2 |
0,0139 |
0,0135 |
0,0132 |
0,0219 |
0,0125 |
0,0122 |
0,0119 |
0,0116 |
0,0113 |
0,0110 |
-2,3 |
0,0107 |
0,104 |
0,0102 |
0,0099 |
0,0096 |
0,0094 |
0,0091 |
0,0089 |
0,0087 |
0,0084 |
-2,4 |
0,0082 |
0,0080 |
0,0078 |
0,0075 |
0,0073 |
0,0071 |
0,0069 |
0,0068 |
0,0066 |
0,0064 |
-2,5 |
0,0062 |
0,0060 |
0,0059 |
0,0057 |
0,0055 |
0,0054 |
0,0052 |
0,0051 |
0,0049 |
0,0047 |
-2,6 |
0,0047 |
0,0045 |
0,0044 |
0,0043 |
0,0041 |
0,0040 |
0,0039 |
0,0038 |
0,0037 |
0,0036 |
-2,7 |
0,0035 |
0,0034 |
0,0033 |
0,0032 |
0,0030 |
0,0030 |
0,0029 |
0,0028 |
0,0027 |
0,0026 |
-2,8 |
0,0026 |
0,0025 |
0,0024 |
0,0023 |
0,0023 |
0,0022 |
0,0021 |
0,0020 |
0,0020 |
0,0019 |
-2,9 |
0,0019 |
0,0018 |
0,0017 |
0,0017 |
0,0016 |
0,0016 |
0,0015 |
0,0015 |
0,0014 |
0,0014 |
-3,0 |
0,0013 |
0,0013 |
0012 |
0012 |
0012 |
0011 |
0,0011 |
0,0011 |
0,0010 |
0,0010 |
-3,1 |
0,0010 |
0,0009 |
0,0009 |
0,0009 |
0,0008 |
0,0008 |
0,0008 |
0,0008 |
0,0007 |
0,0007 |
-3,3 |
0,0005 |
0,0005 |
0,0004 |
0,0004 |
0,0004 |
0,0004 |
0,0004 |
0,0004 |
0,0004 |
0,0003 |
-3,4 |
0,0003 |
0,0003 |
0,0003 |
0,0003 |
0,0003 |
0,0003 |
0,0003 |
0,0003 |
0,0002 |
0,0002 |
-3,5 |
0,0002 |
0,0002 |
0,0002 |
0,0002 |
0,0002 |
0,0002 |
0,0002 |
0,0002 |
0,0002 |
0,0002 |
-3,6 |
0,0002 |
0,0002 |
0,0001 |
0,0001 |
0,0001 |
0,0001 |
0,0001 |
0,0001 |
0,0001 |
0,0001 |
-3,7 |
0,0001 |
0,0001 |
0,0001 |
0,0001 |
0,0001 |
0,0001 |
0,0001 |
0,0001 |
0,0001 |
0,0001 |
-3,8 |
0,0001 |
0,0001 |
0,0001 |
0,0001 |
0,0001 |
0,0001 |
0,0001 |
0,0001 |
0,0000 |
0,0000 |
Примечание
Значения функции для положительных Z находятся вычитанием из 1 значений функции для (-Z). Пример: для Z = 0,72 P= 1-0,2358 =0,7642.
Приложение II. Допустимые значения критерия Стьюдента при данном объеме выборки N и уровне значимости α
N |
Двусторонняя критическая область |
N |
Двусторонняя критическая область |
||||||||
α = 0,1 |
α = 0,05 |
α = 0,02 |
α = 0,01 |
α = 0,001 |
α = 0,1 |
α = 0,05 |
α = 0,02 |
α = 0,01 |
α = 0,001 |
||
1 |
6,31 |
12,71 |
31,82 |
63,66 |
636,62 |
18 |
1,73 |
2,10 |
2,55 |
2,88 |
3,92 |
2 |
2,92 |
4,30 |
6,97 |
9,93 |
31,60 |
19 |
1,73 |
2,09 |
2,54 |
2,86 |
3,88 |
3 |
2,35 |
3,18 |
4,54 |
5,84 |
12,94 |
20 |
1,73 |
2,09 |
2,53 |
2,85 |
3,85 |
4 |
2,13 |
2,78 |
3,75 |
4,60 |
8,61 |
21 |
1,72 |
2,08 |
2,52 |
2,83 |
3,82 |
5 |
2,02 |
2,57 |
3,37 |
4,03 |
6,86 |
22 |
1,72 |
2,07 |
2,51 |
2,82 |
3,79 |
6 |
1,94 |
2,45 |
3,14 |
3,71 |
5,96 |
23 |
1,71 |
2,07 |
2,50 |
2,81 |
3,77 |
7 |
1,90 |
2,37 |
3,00 |
3,50 |
5,41 |
24 |
1,71 |
2,06 |
2,49 |
2,80 |
3,75 |
8 |
1,86 |
2,31 |
2,90 |
3,36 |
5,04 |
25 |
1,71 |
2,06 |
2,49 |
2,79 |
3,73 |
9 |
1,83 |
2,26 |
2,82 |
3,25 |
4,78 |
26 |
1,71 |
2,06 |
2,48 |
2,78 |
3,71 |
10 |
1,81 |
2,23 |
2,76 |
3,17 |
4,59 |
27 |
1,70 |
2,05 |
2,47 |
2,77 |
3,69 |
11 |
1,80 |
2,20 |
2,72 |
3,11 |
4,44 |
28 |
1,70 |
2,05 |
2,47 |
2,76 |
3,67 |
12 |
1,78 |
2,18 |
2,68 |
3,06 |
4,32 |
29 |
1,70 |
2,05 |
2,46 |
2,76 |
3,66 |
13 |
1,77 |
2,16 |
2,65 |
3,01 |
4,22 |
30 |
1,70 |
2,04 |
2,46 |
2,75 |
3,65 |
14 |
1,76 |
2,15 |
2,62 |
2,98 |
4,14 |
40 |
1,68 |
2,02 |
2,42 |
2,70 |
3,55 |
15 |
1,75 |
2,13 |
2,60 |
2,95 |
4,07 |
60 |
1,67 |
2,00 |
2,39 |
2,66 |
3,46 |
16 |
1,75 |
2,12 |
2,58 |
2,92 |
4,02 |
120 |
1,66 |
1,98 |
2,36 |
2,62 |
3,37 |
17 |
1,74 |
2,11 |
2,57 |
2,90 |
3,97 |
∞ |
1,65 |
1,96 |
2,33 |
2,58 |
3,29 |
N |
α = 0,05 |
α = 0,025 |
α = 0,01 |
α = 0,005 |
α = 0,0005 |
N |
α = 0,05 |
α = 0,025 |
α = 0,01 |
α = 0,005 |
α = 0,0005 |
Односторонняя критическая область |
Односторонняя критическая область |
Приложение III. Критические точки распределения χ2
Число степеней свободы |
α |
|||||
0,01 |
0,025 |
0,05 |
0,95 |
0,975 |
0,99 |
|
1 |
6,6 |
5,0 |
3,8 |
0,0039 |
0,00098 |
0,00016 |
2 |
9,2 |
7,4 |
6,0 |
0,103 |
0,051 |
0,020 |
3 |
11,3 |
9,4 |
7,8 |
0,352 |
0,216 |
0,115 |
4 |
13,3 |
11,1 |
9,5 |
0,711 |
0,484 |
0,297 |
5 |
15,1 |
12,8 |
11,1 |
1,15 |
0,831 |
0,554 |
6 |
16,8 |
14,4 |
12,6 |
1,64 |
1,24 |
0,872 |
7 |
18,5 |
16,0 |
14,1 |
2,17 |
1,69 |
1,24 |
8 |
20,1 |
17,5 |
15,5 |
2,73 |
2,18 |
1,65 |
9 |
21,7 |
19,0 |
16,9 |
3,33 |
2,70 |
2,09 |
10 |
23,2 |
20,5 |
18,3 |
3,94 |
3,25 |
2,56 |
11 |
24,7 |
21,9 |
19,7 |
4,57 |
3,82 |
3,05 |
12 |
26,2 |
23,3 |
21,0 |
5,23 |
4,40 |
3,57 |
13 |
27,7 |
24,7 |
22,4 |
5,89 |
5,01 |
4,11 |
14 |
29,1 |
26,1 |
23,7 |
6,57 |
5,63 |
4,66 |
15 |
30,6 |
27,5 |
25,0 |
7,26 |
6,26 |
5,23 |
16 |
32,0 |
28,8 |
26,3 |
7,96 |
6,91 |
5,81 |
17 |
33,4 |
30,2 |
27,6 |
8,67 |
7,56 |
6,41 |
18 |
34,8 |
31,5 |
28,9 |
9,39 |
8,23 |
7,01 |
19 |
36,2 |
32,9 |
30,1 |
10,1 |
8,91 |
7,63 |
20 |
37,6 |
34,2 |
31,4 |
10,9 |
9,59 |
8,26 |
21 |
38,9 |
35,5 |
32,7 |
11,6 |
10,3 |
8,90 |
22 |
40,3 |
36,8 |
33,9 |
12,3 |
11,0 |
9,54 |
23 |
41,6 |
38,1 |
35,2 |
13,1 |
11,7 |
10,2 |
24 |
43,0 |
39,4 |
36,4 |
13,8 |
12,4 |
10,9 |
25 |
44,3 |
40,6 |
37,7 |
14,6 |
13,1 |
11,5 |
26 |
45,6 |
41,9 |
38,9 |
15,4 |
13,8 |
12,2 |
27 |
47,0 |
43,2 |
40,1 |
16,2 |
14,6 |
12,9 |
28 |
48,3 |
44,5 |
41,3 |
16,9 |
15,3 |
13,6 |
29 |
49,6 |
45,7 |
42,6 |
17,7 |
16,0 |
14,3 |
30 |
50,9 |
47,0 |
43,8 |
18,5 |
16,8 |
15,0 |
Приложение IV. Критические значения статистики критерия равномерности Релея
n |
α |
||||
0,1 |
0,05 |
0,025 |
0,01 |
0,001 |
|
5 |
0,677 |
0,754 |
0,816 |
0,879 |
0,991 |
6 |
0,618 |
0,69 |
0,753 |
0,825 |
0,94 |
7 |
0,572 |
0,642 |
0,702 |
0,771 |
0,891 |
8 |
0,535 |
0,602 |
0,66 |
0,725 |
0,847 |
9 |
0,504 |
0,569 |
0,624 |
0,687 |
0,808 |
10 |
0,478 |
0,54 |
0,594 |
0,655 |
0,775 |
11 |
0,456 |
0,516 |
0,567 |
0,627 |
0,743 |
12 |
0,437 |
0,494 |
0,544 |
0,602 |
0,716 |
13 |
0,42 |
0,475 |
0,524 |
0,58 |
0,692 |
14 |
0,405 |
0,458 |
0,505 |
0,56 |
0,669 |
15 |
0,391 |
0,443 |
0,489 |
0,542 |
0,649 |
16 |
0,379 |
0,429 |
0,474 |
0,525 |
0,63 |
17 |
0,367 |
0,417 |
0,46 |
0,51 |
0,613 |
18 |
0,357 |
0,405 |
0,447 |
0,496 |
0,597 |
19 |
0,348 |
0,394 |
0,436 |
0,484 |
0,583 |
20 |
0,339 |
0,385 |
0,425 |
0,472 |
0,569 |
21 |
0,331 |
0,375 |
0,415 |
0,461 |
0,556 |
22 |
0,323 |
0,367 |
0,405 |
0,451 |
0,544 |
23 |
0,316 |
0,359 |
0,397 |
0,441 |
0,533 |
24 |
0,309 |
0,351 |
0,389 |
0,432 |
0,522 |
25 |
0,303 |
0,344 |
0,381 |
0,423 |
0,512 |
30 |
0,277 |
0,315 |
0,348 |
0,387 |
0,47 |
35 |
0,256 |
0,292 |
0,323 |
0,359 |
0,436 |
40 |
0,24 |
0,273 |
0,302 |
0,336 |
0,409 |
45 |
0,226 |
0,257 |
0,285 |
0,318 |
0,386 |
50 |
0,214 |
0,244 |
0,27 |
0,301 |
0,367 |
100 |
0,15 |
0,17 |
0,19 |
0,21 |
0,26 |
|
4,605 |
5,991 |
7,378 |
9,21 |
13,816 |
Приложение V. Параметр концентрации k распределения Мизеса
|
|
|
|
|
|
|
|
0,00 |
0,00000 |
0,25 |
0,51649 |
0,50 |
1,15932 |
0,76 |
2,45490 |
0,01 |
0,02000 |
0,26 |
0,53863 |
0,51 |
1,19105 |
0,77 |
2,54686 |
0,02 |
0,04001 |
0,27 |
0,56097 |
0,52 |
1,22350 |
0,78 |
2,64613 |
0,03 |
0,06003 |
0,28 |
0,58350 |
0,53 |
1,25672 |
0,79 |
2,75382 |
0,04 |
0,08006 |
0,29 |
0,60625 |
0,54 |
1,29077 |
0,80 |
2,87129 |
0,05 |
0,10013 |
0,30 |
0,62922 |
0,55 |
1,32570 |
0,81 |
3,00020 |
0,06 |
0,12022 |
0,31 |
0,65242 |
0,56 |
1,36156 |
0,82 |
3,14262 |
0,07 |
0,14034 |
0,32 |
0,67587 |
0,57 |
1,39842 |
0,83 |
3,30114 |
0,08 |
0,16051 |
0,33 |
0,69958 |
0,58 |
1,43635 |
0,84 |
3,47901 |
0,09 |
0,18073 |
0,34 |
0,72356 |
0,59 |
1,47543 |
0,85 |
3,68041 |
0,10 |
0,20101 |
0,35 |
0,74783 |
0,60 |
1,51574 |
0,86 |
3,91072 |
0,11 |
0,22134 |
0,36 |
0,77241 |
0,61 |
1,55738 |
0,87 |
4,17703 |
0,12 |
0,24175 |
0,37 |
0,79730 |
0,62 |
1,60044 |
0,88 |
4,48876 |
0,13 |
0,26223 |
0,38 |
0,82253 |
0,63 |
1,64506 |
0,89 |
4,85871 |
0,14 |
0,28279 |
0,39 |
0,84812 |
0,64 |
1,69134 |
0,90 |
5,3047 |
0,15 |
0,30344 |
0,40 |
0,87408 |
0,65 |
1,73945 |
0,91 |
5,8522 |
0,16 |
0,32419 |
0,41 |
0,90043 |
0,66 |
1,78953 |
0,92 |
6,5394 |
0,17 |
0,34503 |
0,42 |
0,92720 |
0,67 |
1,84177 |
0,93 |
7,4257 |
0,18 |
0,36599 |
0,43 |
0,95440 |
0,68 |
1,89637 |
0,94 |
8,6104 |
0,19 |
0,38707 |
0,44 |
0,98207 |
0,69 |
1,95357 |
0,95 |
10,2716 |
0,20 |
0,40828 |
0,45 |
1,01022 |
0,70 |
2,01363 |
0,96 |
12,7661 |
0,21 |
0,42962 |
0,46 |
1,03889 |
0,71 |
2,07685 |
0,97 |
16,9266 |
0,22 |
0,45110 |
0,47 |
1,06810 |
0,72 |
2,14359 |
0,98 |
25,2522 |
0,23 |
0,47273 |
0,48 |
1,09788 |
0,73 |
2,21425 |
0,99 |
50,2421 |
0,24 |
0,49453 |
0,49 |
1,12828 |
0,74 |
2,28930 |
1,00 |
∞ |
Приложение VI. Функция распределения Мизеса F (θ/180°, k) с круговым средним направлением μ=180°
θ |
F (θ) |
|||||||
k = 0 |
k = 0,2 |
k = 0,4 |
k = 0,6 |
k = 0,8 |
k = 1,0 |
k = 1,2 |
k = 1,4 |
|
0 |
0,00000 |
0,00000 |
0,00000 |
0,00000 |
0,00000 |
0,00000 |
0,00000 |
0,00000 |
5 |
0,01389 |
0,01126 |
0,00895 |
0,00699 |
0,00536 |
0,00404 |
0,00301 |
0,00221 |
10 |
0,02778 |
0,02254 |
0,01793 |
0,01400 |
0,01074 |
0,00811 |
0,00604 |
0,00444 |
15 |
0,04167 |
0,03385 |
0,02697 |
0,02108 |
0,01620 |
0,01225 |
0,00913 |
0,00672 |
20 |
0,05556 |
0,04522 |
0,03608 |
0,02826 |
0,02175 |
0,01647 |
0,01230 |
0,00907 |
25 |
0,06944 |
0,05665 |
0,04531 |
0,03557 |
0,02744 |
0,02083 |
0,01559 |
0,01153 |
30 |
0,08333 |
0,06816 |
0,054467 |
0,04304 |
0,03329 |
0,02535 |
0,01903 |
0,01411 |
35 |
0,09722 |
0,07978 |
0,06420 |
0,05071 |
0,03936 |
0,03007 |
0,02266 |
0,01686 |
40 |
0,11111 |
0,09152 |
0,07392 |
0,05861 |
0,04567 |
0,03504 |
0,02650 |
0,01981 |
45 |
0,12500 |
0,10338 |
0,08386 |
0,06679 |
0,05228 |
0,04029 |
0,03062 |
0,02299 |
50 |
0,13889 |
0,11540 |
0,09405 |
0,07527 |
0,05921 |
0,04587 |
0,03505 |
0,02647 |
55 |
0,15278 |
0,12757 |
0,10452 |
0,08409 |
0,06653 |
0,05184 |
0,03985 |
0,03028 |
60 |
0,16667 |
0,13992 |
0,11529 |
0,09331 |
0,07428 |
0,05825 |
0,04509 |
0,03450 |
65 |
0,18056 |
0,15246 |
0,12639 |
0,10295 |
0,08251 |
0,06517 |
0,05082 |
0,03919 |
70 |
0,19444 |
0,16520 |
0,13784 |
0,11306 |
0,09128 |
0,07265 |
0,05711 |
0,04442 |
75 |
0,20833 |
0,17815 |
0,14968 |
0,12368 |
0,10064 |
0,08078 |
0,06407 |
0,05030 |
80 |
0,22222 |
0,19132 |
0,16192 |
0,13485 |
0,11066 |
0,08962 |
0,07176 |
0,05690 |
85 |
0,23611 |
0,20471 |
0,17460 |
0,14662 |
0,12139 |
0,09925 |
0,08028 |
0,06436 |
90 |
0,25000 |
0,21834 |
0,18772 |
0,15901 |
0,13289 |
0,10975 |
0,08974 |
0,07277 |
95 |
0,26389 |
0,23222 |
0,20130 |
0,17206 |
0,14522 |
0,12122 |
0,10025 |
0,08228 |
100 |
0,27778 |
0,24633 |
0,21537 |
0,18582 |
0,15844 |
0,13372 |
0,11191 |
0,09302 |
105 |
0,29167 |
0,26069 |
0,22992 |
0,20030 |
0,17260 |
0,14734 |
0,12483 |
0,10514 |
110 |
0,30556 |
0,27529 |
0,24498 |
0,21554 |
0,18774 |
0,16217 |
0,13913 |
0,11876 |
115 |
0,31944 |
0,29014 |
0,26054 |
0,23154 |
0,20392 |
0,17825 |
0,15491 |
0,13405 |
120 |
0,33333 |
0,30522 |
0,27659 |
0,24832 |
0,22114 |
0,19566 |
0,17226 |
0,15112 |
125 |
0,34722 |
0,32053 |
0,29314 |
0,26587 |
0,23944 |
0,21444 |
0,19125 |
0,17009 |
130 |
0,36111 |
0,33606 |
0,31017 |
0,28420 |
0,25882 |
0,23460 |
0,21194 |
0,19106 |
135 |
0,37500 |
0,35180 |
0,32766 |
0,30327 |
0,27926 |
0,256165 |
0,23435 |
0,21408 |
140 |
0,38889 |
0,36774 |
0,34559 |
0,32306 |
0,30073 |
0,27909 |
0,25849 |
0,23918 |
145 |
0,40278 |
0,38385 |
0,36392 |
0,34353 |
0,32319 |
0,30334 |
0,28431 |
0,26633 |
150 |
0,41667 |
0,40013 |
0,38263 |
0,36463 |
0,34656 |
0,32883 |
0,31172 |
0,29544 |
155 |
0,43056 |
0,41655 |
0,40166 |
0,38628 |
0,37077 |
0,35546 |
0,34060 |
0,32638 |
160 |
0,44444 |
0,43309 |
0,42098 |
0,40841 |
0,30570 |
0,38309 |
0,37079 |
0,35897 |
170 |
0,47222 |
0,46644 |
0,46025 |
0,45379 |
0,44722 |
0,44066 |
0,43423 |
0,42800 |
175 |
0,48611 |
0,48321 |
0,49009 |
0,47684 |
0,47353 |
0,47022 |
0,46696 |
0,46381 |
180 |
0,50000 |
0,50000 |
0,50000 |
0,50000 |
0,50000 |
0,50000 |
0,50000 |
0,50000 |
Приложение VII. Критические значения статистики X-критерия Ван-дер-Вардена для односторонних границ
N |
α = 0,025 |
α = 0,001 |
α = 0,1 |
||||||
m = 0 m = 1 |
m = 2 m = 3 |
m = 4 m = 5 |
m = 0 m = 1 |
m = 2 m = 3 |
m = 4 m = 5 |
m = 0 m = 1 |
m = 2 m = 3 |
m = 4 m = 5 |
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
2 |
– |
– |
– |
– |
– |
– |
0,10 |
– |
– |
3 |
– |
– |
– |
– |
– |
– |
0,50 |
– |
– |
4 |
– |
– |
– |
– |
– |
– |
0,73 |
0,64 |
– |
5 |
– |
– |
– |
– |
– |
– |
0,90 |
0,74 |
– |
6 |
– |
– |
– |
– |
– |
– |
1,10 |
1,04 |
0,82 |
7 |
– |
– |
– |
– |
– |
– |
1,25 |
1,14 |
0,89 |
8 |
2,40 |
2,30 |
– |
1,42 |
1,37 |
1,23 |
1,42 |
1,37 |
1,23 |
9 |
2,38 |
2,20 |
– |
1,56 |
1,48 |
1,30 |
1,56 |
1,48 |
1,30 |
10 |
2,60 |
2,49 |
2,30 |
1,71 |
1,67 |
1,57 |
1,71 |
1,67 |
1,57 |
11 |
2,72 |
2,58 |
2,40 |
1,83 |
1,77 |
1,64 |
1,83 |
1,77 |
1,64 |
12 |
2,86 |
2,79 |
2,68 |
1,98 |
1,94 |
1,87 |
1,98 |
1,94 |
1,87 |
13 |
2,96 |
2,91 |
2,78 |
2,09 |
2,03 |
1,93 |
2,09 |
2,03 |
1,93 |
14 |
3,11 |
3,06 |
3,00 |
2,22 |
2,19 |
2,12 |
2,22 |
2,19 |
2,12 |
15 |
3,24 |
3,19 |
3,06 |
2,33 |
2,28 |
2,20 |
2,33 |
2,28 |
2,20 |
16 |
3,39 |
3,36 |
3,28 |
2,44 |
2,42 |
2,36 |
2,44 |
2,42 |
2,36 |
17 |
3,49 |
3,44 |
3,36 |
2,54 |
2,51 |
2,44 |
2,54 |
2,51 |
2,44 |
18 |
3,63 |
3,60 |
3,53 |
2,65 |
2,64 |
2,59 |
2,65 |
2,64 |
2,59 |
19 |
3,73 |
3,69 |
3,61 |
2,76 |
2,72 |
2,66 |
2,76 |
2,72 |
2,66 |
20 |
3,86 |
3,84 |
3,78 |
2,85 |
2,84 |
2,80 |
2,85 |
2,84 |
2,80 |
21 |
3,96 |
3,92 |
3,85 |
2,95 |
2,92 |
2,87 |
2,95 |
2,92 |
2,87 |
22 |
4,08 |
4,06 |
4,01 |
3,05 |
3,04 |
3,00 |
3,05 |
3,04 |
3,00 |
23 |
4,18 |
4,15 |
4,08 |
3,14 |
3,12 |
3,06 |
3,14 |
3,12 |
3,06 |
24 |
4,29 |
4,27 |
4,23 |
3,23 |
3,22 |
3,19 |
3,23 |
3,22 |
3,19 |
25 |
4,39 |
4,36 |
4,30 |
3,33 |
3,29 |
3,26 |
3,33 |
3,29 |
3,26 |
26 |
4,50 |
4,48 |
4,44 |
3,41 |
3,39 |
3,37 |
3,41 |
3,39 |
3,37 |
27 |
4,59 |
4,56 |
4,51 |
3,49 |
3,47 |
3,43 |
3,49 |
3,47 |
3,43 |
28 |
4,69 |
4,68 |
4,64 |
3,57 |
3,57 |
3,54 |
3,57 |
3,57 |
3,54 |
29 |
4,78 |
4,76 |
4,72 |
3,66 |
3,64 |
3,60 |
3,66 |
3,64 |
3,60 |
30 |
4,88 |
4,87 |
4,84 |
3,74 |
3,73 |
3,70 |
3,74 |
3,73 |
3,70 |
31 |
4,97 |
4,95 |
4,91 |
3,82 |
3,80 |
3,76 |
3,82 |
3,80 |
3,76 |
32 |
5,07 |
5,06 |
5,03 |
3,89 |
3,88 |
3,86 |
3,88 |
3,89 |
3,86 |
33 |
5,15 |
5,13 |
5,10 |
3,96 |
3,95 |
3,92 |
3,96 |
3,95 |
3,92 |
34 |
5,25 |
5,24 |
5,21 |
4,05 |
4,05 |
4,02 |
4,05 |
4,05 |
4,02 |
35 |
5,33 |
5,31 |
5,28 |
4,12 |
4,11 |
4,08 |
4,12 |
4,11 |
4,08 |
36 |
5,42 |
5,41 |
5,38 |
4,19 |
4,19 |
4,16 |
4,19 |
4,19 |
4,16 |
37 |
5,50 |
5,48 |
5,45 |
4,26 |
4,25 |
4,24 |
4,26 |
4,25 |
4,24 |
38 |
5,59 |
5,58 |
5,55 |
4,33 |
4,33 |
4,32 |
4,33 |
4,33 |
4,32 |
39 |
5,67 |
5,65 |
5,62 |
4,40 |
4,39 |
4,38 |
4,40 |
4,33 |
4,38 |
40 |
5,75 |
5,74 |
5,72 |
4,48 |
4,48 |
4,46 |
4,48 |
4,39 |
4,46 |
Продолжение приложения VII
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
41 |
5,83 |
5,81 |
5,79 |
4,54 |
4,53 |
4,50 |
4,45 |
4,53 |
4,50 |
42 |
5,91 |
5,90 |
5,88 |
4,62 |
4,62 |
4,59 |
4,62 |
4,62 |
4,59 |
43 |
5,99 |
5,97 |
5,95 |
4,68 |
4,67 |
4,66 |
4,68 |
4,67 |
4,66 |
44 |
6,06 |
6,06 |
6,04 |
4,76 |
4,74 |
4,73 |
4,76 |
4,74 |
4,73 |
45 |
6,14 |
6,12 |
6,10 |
4,81 |
4,80 |
4,78 |
4,81 |
4,80 |
4,78 |
46 |
6,21 |
6,21 |
6,19 |
4,88 |
4,86 |
4,86 |
4,88 |
4,86 |
4,86 |
47 |
6,29 |
6,27 |
6,25 |
4,93 |
4,93 |
4,90 |
4,93 |
4,93 |
4,90 |
48 |
6,36 |
6,35 |
6,34 |
5,00 |
5,00 |
4,99 |
5,00 |
5,00 |
4,99 |
49 |
6,43 |
6,42 |
6,39 |
5,07 |
5,05 |
5,04 |
5,07 |
5,05 |
5,04 |
50 |
6,50 |
6,50 |
6,48 |
5,14 |
5,13 |
5,11 |
5,14 |
5,13 |
5,11 |
Приложение VIII. Критические значения статистик W1 и 2MW критерия Вилкоксона для односторонних границ
N1 |
N2 |
W1 |
2MW |
N1 |
N2 |
W1 |
2MW |
||
α = 0,025 |
α = 0,10 |
α = 0,025 |
α = 0,10 |
||||||
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
10 |
10 |
78 |
87 |
210 |
11 |
11 |
96 |
106 |
253 |
|
11 |
81 |
91 |
220 |
|
12 |
99 |
110 |
264 |
|
12 |
84 |
94 |
230 |
|
13 |
103 |
114 |
275 |
|
13 |
88 |
98 |
240 |
|
14 |
106 |
118 |
286 |
|
14 |
91 |
102 |
250 |
|
15 |
110 |
123 |
297 |
|
15 |
94 |
106 |
260 |
|
16 |
113 |
127 |
308 |
|
16 |
97 |
109 |
270 |
|
17 |
117 |
131 |
319 |
|
17 |
100 |
113 |
280 |
|
18 |
121 |
135 |
330 |
|
18 |
103 |
117 |
290 |
|
19 |
124 |
139 |
341 |
|
19 |
107 |
121 |
300 |
|
20 |
128 |
144 |
352 |
|
20 |
110 |
125 |
310 |
|
21 |
131 |
148 |
363 |
|
21 |
113 |
128 |
320 |
|
22 |
135 |
152 |
374 |
|
22 |
116 |
132 |
330 |
|
23 |
139 |
156 |
385 |
|
23 |
119 |
136 |
340 |
|
24 |
142 |
161 |
396 |
|
24 |
122 |
140 |
350 |
|
25 |
146 |
165 |
407 |
|
25 |
126 |
144 |
360 |
|
|
|
|
|
|
|
|
|
|
13 |
13 |
136 |
149 |
351 |
12 |
12 |
115 |
127 |
300 |
|
14 |
141 |
154 |
364 |
|
13 |
119 |
131 |
312 |
|
15 |
145 |
159 |
377 |
|
14 |
123 |
136 |
314 |
|
16 |
150 |
165 |
390 |
|
15 |
127 |
141 |
336 |
|
17 |
154 |
170 |
403 |
|
16 |
131 |
145 |
348 |
|
18 |
158 |
175 |
416 |
|
17 |
135 |
150 |
360 |
|
19 |
163 |
180 |
429 |
|
18 |
139 |
155 |
372 |
|
20 |
167 |
185 |
442 |
|
19 |
143 |
159 |
384 |
|
21 |
171 |
190 |
455 |
|
20 |
147 |
164 |
396 |
|
22 |
176 |
195 |
468 |
|
21 |
151 |
169 |
400 |
|
23 |
180 |
200 |
481 |
|
22 |
155 |
173 |
420 |
|
24 |
185 |
205 |
494 |
|
23 |
159 |
178 |
432 |
|
25 |
189 |
211 |
507 |
|
24 |
163 |
183 |
444 |
|
|
|
|
|
|
25 |
167 |
187 |
456 |
|
|
|
|
|
Продолжение приложения VIII
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
|
|
|
|
15 |
15 |
184 |
200 |
465 |
|
|
|
|
|
|
16 |
190 |
206 |
480 |
14 |
14 |
160 |
174 |
406 |
|
17 |
195 |
212 |
495 |
|
15 |
164 |
179 |
420 |
|
18 |
200 |
218 |
510 |
|
16 |
169 |
185 |
434 |
|
19 |
205 |
224 |
525 |
|
17 |
174 |
190 |
448 |
|
20 |
210 |
230 |
540 |
|
18 |
179 |
196 |
462 |
|
21 |
216 |
236 |
555 |
|
19 |
183 |
202 |
476 |
|
22 |
221 |
242 |
570 |
|
20 |
188 |
207 |
490 |
|
23 |
226 |
248 |
585 |
|
21 |
193 |
213 |
504 |
|
24 |
231 |
254 |
600 |
|
22 |
198 |
218 |
518 |
|
25 |
237 |
260 |
615 |
|
23 |
203 |
224 |
532 |
|
|
|
|
|
|
24 |
207 |
229 |
543 |
|
|
|
|
|
|
25 |
212 |
235 |
560 |
|
|
|
|
|
16 |
16 |
211 |
229 |
528 |
17 |
17 |
240 |
259 |
595 |
|
17 |
217 |
235 |
544 |
|
18 |
246 |
266 |
612 |
|
18 |
222 |
242 |
560 |
|
19 |
252 |
273 |
629 |
|
19 |
228 |
248 |
576 |
|
20 |
258 |
280 |
646 |
|
20 |
234 |
255 |
592 |
|
21 |
264 |
287 |
663 |
|
21 |
239 |
261 |
608 |
|
22 |
270 |
294 |
680 |
|
22 |
245 |
267 |
624 |
|
23 |
276 |
300 |
697 |
|
23 |
251 |
274 |
640 |
|
24 |
282 |
307 |
714 |
|
24 |
256 |
280 |
656 |
|
25 |
288 |
314 |
731 |
|
25 |
262 |
287 |
672 |
|
|
|
|
|
|
|
|
|
|
19 |
19 |
303 |
325 |
741 |
18 |
18 |
270 |
291 |
666 |
|
20 |
309 |
333 |
760 |
|
19 |
277 |
299 |
684 |
|
21 |
316 |
341 |
779 |
|
20 |
283 |
306 |
702 |
|
22 |
323 |
349 |
798 |
|
21 |
290 |
313 |
720 |
|
23 |
330 |
357 |
817 |
|
22 |
296 |
321 |
738 |
|
24 |
337 |
364 |
836 |
|
23 |
303 |
328 |
756 |
|
25 |
344 |
372 |
855 |
|
24 |
309 |
335 |
774 |
|
|
|
|
|
|
25 |
316 |
343 |
792 |
21 |
21 |
373 |
399 |
903 |
|
|
|
|
|
|
22 |
381 |
408 |
924 |
20 |
20 |
337 |
361 |
820 |
|
23 |
388 |
417 |
945 |
|
21 |
344 |
370 |
840 |
|
24 |
396 |
425 |
966 |
|
22 |
351 |
378 |
860 |
|
25 |
404 |
434 |
987 |
|
23 |
359 |
386 |
880 |
|
|
|
|
|
|
24 |
366 |
394 |
900 |
23 |
23 |
451 |
481 |
1081 |
|
25 |
373 |
403 |
920 |
|
24 |
459 |
491 |
1104 |
|
|
|
|
|
|
25 |
468 |
500 |
1127 |
22 |
22 |
411 |
439 |
990 |
|
|
|
|
|
|
23 |
419 |
448 |
1012 |
24 |
24 |
492 |
525 |
1176 |
|
24 |
427 |
457 |
1034 |
|
25 |
501 |
535 |
1200 |
|
25 |
435 |
467 |
1056 |
25 |
25 |
536 |
570 |
1275 |
Приложение IX. Критические значения критерия Ватсона-Вильямса при n1=n2 (а) и n2=2n1 (б)
Приложение X. Значения F-критерия Фишера для 5%-ного уровня значимости
f1 |
1 |
2 |
3 |
4 |
5 |
6 |
12 |
24 |
∞ |
f2 |
|||||||||
1 |
164,4 |
199,5 |
215,7 |
224,6 |
230,2 |
234,0 |
244,9 |
249,0 |
254,3 |
2 |
18,5 |
19,2 |
19,3 |
19,3 |
19,3 |
19,3 |
19,4 |
19,5 |
19,5 |
3 |
10,1 |
9,6 |
9,3 |
9,1 |
9,0 |
8,9 |
8,7 |
8,6 |
8,5 |
4 |
7,7 |
6,9 |
6,6 |
6,4 |
6,3 |
6,2 |
5,9 |
5,8 |
5,6 |
5 |
6,6 |
5,8 |
5,4 |
5,2 |
5,1 |
5,0 |
4,7 |
4,5 |
4,4 |
6 |
6,0 |
5,1 |
4,8 |
4,5 |
4,4 |
4,3 |
4,0 |
3,8 |
3,7 |
7 |
5,6 |
4,7 |
4,4 |
4,1 |
4,0 |
3,9 |
3,6 |
3,4 |
3,2 |
8 |
5,3 |
4,5 |
4,1 |
3,8 |
3,7 |
3,6 |
3,3 |
3,1 |
2,9 |
9 |
5,1 |
4,3 |
3,9 |
3,6 |
3,5 |
3,4 |
3,1 |
2,9 |
2,7 |
10 |
2,0 |
4,1 |
3,7 |
3,5 |
3,3 |
3,2 |
2,9 |
2,7 |
2,5 |
11 |
4,8 |
4,0 |
3,6 |
3,4 |
3,2 |
3,1 |
2,8 |
2,6 |
2,4 |
12 |
4,8 |
3,9 |
3,5 |
3,3 |
3,1 |
3,0 |
2,7 |
2,5 |
2,3 |
13 |
4,7 |
3,8 |
3,4 |
3,2 |
3,0 |
2,9 |
2,6 |
2,4 |
2,2 |
14 |
4,6 |
3,7 |
3,3 |
3,1 |
3,0 |
2,9 |
2,5 |
2,3 |
2,1 |
15 |
4,5 |
3,7 |
3,3 |
3,1 |
2,9 |
2,8 |
2,5 |
2,3 |
2,1 |
16 |
4,5 |
3,6 |
3,2 |
3,0 |
2,9 |
2,7 |
2,4 |
2,2 |
2,0 |
17 |
4,5 |
3,6 |
3,2 |
3,0 |
2,8 |
2,7 |
2,4 |
2,2 |
2,0 |
18 |
4,4 |
3,6 |
3,2 |
2,9 |
2,8 |
2,7 |
2,3 |
2,1 |
1,9 |
19 |
4,4 |
3,5 |
3,1 |
2,9 |
2,7 |
2,6 |
2,3 |
2,1 |
1,9 |
20 |
4,4 |
3,5 |
3,1 |
2,9 |
2,7 |
2,6 |
2,3 |
2,1 |
1,8 |
22 |
4,4 |
3,4 |
3,0 |
2,8 |
2,7 |
2,6 |
2,2 |
2,0 |
1,8 |
24 |
4,3 |
3,4 |
3,0 |
2,8 |
2,6 |
2,5 |
2,2 |
2,0 |
1,7 |
26 |
4,2 |
3,4 |
3,0 |
2,7 |
2,6 |
2,5 |
2,2 |
2,0 |
1,7 |
28 |
4,2 |
3,3 |
3,0 |
2,7 |
2,6 |
2,4 |
2,1 |
1,9 |
1,7 |
30 |
4,2 |
3,3 |
2,9 |
2,7 |
2,5 |
2,4 |
2,1 |
1,9 |
1,6 |
40 |
4,1 |
3,2 |
2,9 |
2,6 |
2,5 |
2,3 |
2,0 |
1,8 |
1,5 |
60 |
4,0 |
3,2 |
2,8 |
2,5 |
2,4 |
2,3 |
1,9 |
1,7 |
1,4 |
120 |
3,9 |
3,1 |
2,7 |
2,5 |
2,3 |
2,2 |
1,8 |
1,6 |
1,3 |
∞ |
3,8 |
3,0 |
2,6 |
2,4 |
2,2 |
2,1 |
1,8 |
1,5 |
1,0 |
Примечание
f1 = n1 – 1 – число степеней свободы для большей дисперсии; f2 = n2 – 1 – число степеней свободы для меньшей дисперсии.
Приложение XI. Критические значения критерия Краскала-Уоллиса
N1 |
N2 |
N3 |
Уровень значимости |
N1 |
N2
|
N3
|
Уровень значимости |
||||
α = 0,10 |
α = 0,05 |
α = 0,01 |
α = 0,10 |
α = 0,05 |
α = 0,01 |
||||||
2 |
2 |
2 |
4,57 |
– |
– |
5 |
3 |
1 |
4,01 |
4,96 |
– |
3 |
2 |
2 |
4,50 |
4,71 |
– |
5 |
3 |
2 |
4,65 |
5,25 |
6,82 |
3 |
3 |
2 |
4,55 |
5,36 |
– |
5 |
3 |
3 |
4,53 |
5,34 |
6,98 |
3 |
3 |
3 |
4,62 |
5,60 |
7,20 |
5 |
4 |
1 |
3,98 |
4,98 |
6,95 |
4 |
2 |
2 |
4,37 |
5,33 |
– |
5 |
4 |
2 |
4,54 |
5,27 |
7,11 |
4 |
3 |
2 |
4,51 |
5,44 |
6,44 |
5 |
4 |
3 |
4,54 |
5,63 |
7,44 |
4 |
3 |
3 |
4,70 |
5,72 |
6,74 |
5 |
4 |
4 |
4,61 |
5,61 |
7,76 |
4 |
4 |
1 |
4,16 |
4,96 |
6,66 |
5 |
5 |
1 |
4,10 |
5,12 |
7,30 |
4 |
4 |
2 |
4,55 |
5,45 |
7,03 |
5 |
5 |
2 |
4,50 |
5,33 |
7,33 |
4 |
4 |
3 |
4,54 |
5,59 |
7,14 |
5 |
5 |
3 |
4,54 |
5,70 |
7,57 |
4 |
4 |
4 |
4,65 |
5,69 |
7,65 |
5 |
5 |
4 |
4,52 |
5,66 |
7,82 |
5 |
2 |
2 |
4,37 |
5,16 |
6,53 |
5 |
5 |
5 |
4,56 |
5,78 |
7,98 |
Приложение XII. Критические значения критерия Фридмана
Q |
P |
Уровень значимости |
|||
α = 0,05 |
α = 0,02 |
α = 0,01 |
α = 0,005 |
||
3 |
3 |
6,000 |
– |
– |
– |
3 |
4 |
6,500 |
8,000 |
8,000 |
8,000 |
3 |
5 |
6,400 |
6,400 |
8,400 |
10,000 |
3 |
6 |
7,000 |
8,333 |
9,000 |
10,333 |
3 |
7 |
7,143 |
8,000 |
8,857 |
10,286 |
3 |
8 |
6,250 |
7,750 |
9,000 |
9,750 |
3 |
9 |
6,222 |
8,000 |
8,667 |
10,667 |
4 |
2 |
6,000 |
– |
– |
– |
4 |
3 |
7,400 |
8,200 |
9,000 |
9,000 |
4 |
4 |
7,800 |
8,400 |
9,600 |
10,200 |
Приложение XIII. Англо-русский словарь терминов пакета STATISTICA и статистических терминов
Термин |
Перевод |
1 |
2 |
Accept |
Принять |
Action |
Действие |
Add Cases |
Добавить наблюдения |
Add Variables |
Добавить переменные |
Adjust |
Корректировка |
Advisor |
Советник |
Alert Always |
Сообщать всегда |
ANOVA, analysis of variance |
Однофакторный дисперсионный анализ |
Appearance |
Представление |
Apply |
Применить |
Area Under Curve |
Площадь под кривой |
Assigned Cases |
Связанные наблюдения |
Assignment |
Назначение, задание, новые данные |
Assign Rank 1 to |
Установить значение ранга 1 для |
Associate |
Связать |
Attempt |
Попытка |
Automatic update on Exit |
Автоматически обновлять при выходе |
Auxiliary |
Дополнительно |
Background |
Фон |
Bands |
Полосы |
Banner |
Заголовок |
Banners |
Флажки |
Bar |
Линейка |
Baseline Errors |
Исходные ошибки |
Basic |
Основной |
Batch |
Пакетный |
Baund rate |
Скорость передачи (бит в секунду) |
Beyond |
За, вне, свыше |
Bias |
Смещение |
Biases |
Склонность, предубеждение |
Bivariate Distribution |
Двумерное распределение |
Blank |
Пустой |
Bookmark |
Закладка |
Boot |
Запуск системы |
Border |
Рамка |
Branch |
Ветвь |
Breakdown |
Разбиение |
Browse |
Просмотр |
Brushing |
Окраска |
Buttons |
Кнопки |
Canonical Analyses |
Канонический анализ |
Canonical Reduction |
Каноническое преобразование |
Case Name |
Имена случаев (наблюдений) |
1 |
2 |
Case Selection Conditions |
Условия выбора случаев (наблюдений) |
Cauchy distribution |
Распределение Коши |
Centering (of the data) |
Центрирование (данных) |
Character |
Литера (опция, в которой выбираются гарнитура, начертание и размер (кегль) шрифта) |
Chat |
Электронный телефон |
Check |
Контроль |
Chi- Squared Distribution |
Распределение хи-квадрат |
Clicking |
Нажатие на кнопку мыши |
Clipboard |
Буфер промежуточного хранения |
Clip Book-Viewer |
Программа просматривает содержимое буфера Clipboard, сохраняет его или удаляет |
Coefficient of multiple determination |
Множественный коэффициент детерминации: квадрат коэффициента множественной корреляции |
Collapse |
Свернуть |
Collapse Branch |
Свернуть ветвь |
Comparison |
Сравнение |
Compatibility |
Совместимость |
Complexity |
Сложность |
Condition Expectation |
Условное матем. ожидание |
Confidence interval |
Доверительный интервал |
Confidence Limit |
Доверительный предел |
Connect |
Присоединять |
Content |
Содержание |
Contiguous |
Смежный |
Continuity Correction |
Поправка на непрерывность |
Continuous Distribution |
Непрерывное распределение |
Control Box |
Кнопка управления |
Convert |
Преобразовывать |
Correlation Analysis |
Корреляционный анализ |
Correlation Coefficient |
Коэффициент корреляции |
Correlation Matrix |
Матрица (коэффициентов) корреляции, корреляционная матрица |
Covariance |
Ковариация |
Create Data Set |
Создать набор данных |
Critical Value |
Критическое значение |
Cumulative Probability |
Интегральная (накопленная) вероятность |
Cumulative Probability Distribution |
Кумулятивное (накопленное) распределение вероятностей |
Currency |
Денежный формат (данных) |
Current |
Текущий |
Current Spec... |
Текущая спецификация |
Custom Colors |
Пользовательские цвета |
Custom Graphs |
Пользовательский график |
Cut |
Урезание |
Data Management |
Управление данными |
1 |
2 |
Data Matrix |
Матрица данных |
Data Set Datasheet |
Таблица данных |
Data Set Editor |
Редактор данных |
Data Set Shuffle |
Переметать данные |
Data Values |
Значение данных, данные |
Decimals |
Десятичные знаки |
Default |
По умолчанию |
Define |
Определять |
Definition |
Определение |
Degrees of freedom (d.f.) |
Степени свободы; число степеней свободы |
Delete Cases |
Удалить случаи (наблюдения) |
Delimiter |
Разделитель |
Density Function |
Функция плотности распределения вероятностей |
Dependent variable |
Зависимая переменная; отклик |
Discrepancy |
Расхождение (разность) |
Discrete distribution |
Дискретное распределение |
Descriptive Statistics |
Описательные статистики |
Detail Shown |
Степень подробности |
Detrended Data |
Данные с исключенным трендом |
Deviation |
Отклонение |
Dial |
Способ |
Deletion |
Вычеркивание; стирание; удаление; исключение; ликвидация; уничтожение |
Destination Variables |
Создаваемые переменные |
Direct |
Прямой |
Discard |
Отвергнуть |
Distribution of Error |
Распределение ошибок |
Division |
Деление |
Division of Cases |
Разбиение наблюдений |
Double Precision Arithmetic |
Вычисления с удвоенной точностью |
Download |
Загрузить |
Draft |
Чертеж |
Dragging |
Протягивание (мыши) |
Drop-down |
«Выпадающий» |
Durbin–Watson test |
Критерии Дарбина–Уотсона |
Edit Case Names |
Редактировать имена наблюдений |
Eigenvalues |
Собственные значения |
Embedding |
Встраивание (объектов) |
Enlarge Set |
Увеличить набор |
Enough |
Достаточно |
Ensure |
Гарантировать |
Envelopes |
Конверты |
Error |
Ошибка |
Error Function |
Функция ошибки |
Error Mean |
Среднее ошибки |
Estimate |
Оценка, оценивать; приблизительно подсчитывать |
1 |
2 |
Estimation |
Оценивание (подсчет, вычисление) |
Except |
Исключать |
Exclude if... |
Удалить, если... |
Expect |
Ждать; предполагаемый |
Expectation |
Математическое ожидание |
Expected value |
Математическое ожидание, среднее значение |
Exponential distribution |
Экспоненциальное распределение |
Extreme Value |
Экстремальное значение |
Facile |
Легкий |
Feature Selection |
Отбор признаков |
Field |
Поле |
Fill Block |
Заполнить блок |
Fill Random Values |
Заполнить значения переменных случайными величинами – числами, имеющими равномерное распределение от 0 до 1 |
Fit the Model |
Подбор модели, подгонка модели |
Flash |
Мерить |
Flow Control |
Протокол |
Fonts |
Шрифт |
Forward Selection Procedure |
Метод включения (в регрессионном анализе) |
Fractional |
Дробный (ранг от 0 до 1) |
Frequency |
Частота |
Frequency Function |
Функция частот |
General |
Общие |
Glossary |
Специальный толковый словарь |
Graduation |
Сглаживание, нанесение кривой по точкам |
Grate |
Решетка |
Handshake |
Подтверждение |
Header |
Заголовок |
Hidden |
Скрытый |
Hidden Units |
Скрытые элементы |
Highlight Counts |
Выделить числа |
Hypothesis |
Гипотеза |
Hypothesis Testing |
Проверка гипотезы |
Icon |
Пиктограмма |
Imaginary |
Мнимая часть |
Inactive |
Неактивный |
Include if |
Включить, если |
Incorrelated |
Некоррелированный |
Independent Samples |
Независимые выборки |
Independent Variable |
Независимая переменная, фактор |
Index |
Оглавление |
Input Data Matrix |
Матрица исходных данных |
Inputs Datasheet |
Таблица входных значений |
Input Variable |
Входная переменная |
Insertion |
Выделение |
1 |
2 |
Insert Object |
Вставка объекта |
Insufficient |
Недостаточный, неподходящий |
Integer |
Целый |
Interaction |
Взаимодействие |
Intercept |
Свободный член (в уравнении регрессии) |
Interrupted |
Прерванный |
Inverse of Matrix |
Обращение матрицы |
Involve |
Включить, вовлекать |
Item |
Элемент данных |
Iterations |
Число итераций |
Jittering |
Разгонка (точек) |
Joining |
Соединение |
Kurtosis |
Эксцесс |
Kurtosis of Frequency |
Эксцесс кривой плотности распределения |
Lag-1 Serial Correlation |
Сериальная корреляция с единичным сдвигом |
Latent Variable |
Латентная (скрытая) переменная |
Layout |
Расположение, разметка |
Least |
Наименьший |
Least Squares Method |
Метод наименьших квадратов |
Least Squares Method Equation |
МНК уравнение |
Least Squares Method Estimate |
МНК оценка |
Level of Factor |
Уровень фактора |
Linear Regression (Model) |
Линейная регрессия (модель) |
Relationship |
Линейная зависимость |
Trend |
Тренд (временного ряда) |
Links |
Связи |
Lock |
Защитить, блокировать |
Logistic |
Логистический |
Logistic Regression |
Логистическая регрессия |
Log-normal Variable |
(Случайная) величина, распределенная по логарифмически нормальному закону |
Loss Coefficient |
Коэффициент потерь |
Loss Matrix |
Матрица потерь |
Lower-Tailer |
Односторонний критерий для нижнего «хвоста» распределения |
Manuel |
Руководство, инструкция |
Margin |
Край, граница, поле (печатной страницы) |
Match Case |
Учет регистра |
Max/SD |
Максимальное/(стандартное отклонение) |
Maximum Likelihood |
Максимальное правдоподобие |
Mean Square |
Средний квадрат |
Mean Square Error |
Средний квадрат ошибки |
Mean Square About Regression |
Средний квадрат отклонений относительно регрессии |
Mean Square About Regression Due to Lack of Fit
|
Средний квадрат, обусловленный неадекватностью |
1 |
2 |
Mean Square About Regression Due to Regression |
Средний квадрат обусловленный регрессией |
Mean Square About Regression Due to Residual Variation |
Остаточный средний квадрат (средний квадрат, обусловленный остаточной вариацией) |
Mean Square About Regression For Pure Error |
Средний квадрат, характеризующий «чистую» ошибку |
Mean/SD |
Среднее/стандартное отклонение) |
Means |
Среднее |
Measure |
Мера |
Median |
Медиана |
Medium |
Средняя (длительность поиска) |
Merge |
Объединить |
Message |
Сообщение, поручение |
Method for Discriminating |
Метод дискриминации (моделей) |
Method for Discriminating of Least Squares |
Метод наименьших квадратов (МНК) |
Min Proportion |
Минимальная доля |
Mini max |
Минимаксное |
Missing Observations |
Пропущенные наблюдения |
Model Validation Technique |
Метод обоснования модели |
Modes |
Режимы |
Missing Data |
Пропущенные значения |
Momentum |
Инерция |
Mouse Pointer |
Курсор мыши |
Multiple Regression Calculation Correlation Coefficient |
Множественный коэффициент корреляции |
Multiple Regression |
Множественная регрессия |
Multiplicative Model |
Мультипликативная модель |
Multivariate |
Многомерный |
Move Cases |
Перемещение случаев (наблюдений) |
N-dimensional Multivariate Normal Distribution |
N-мерное нормальное распределение |
Negative Serial Correlation Between Successive Residuals |
Отрицательная сериальная корреляция между последовательными (соседними) остатками |
Neighborhood |
Окрестность |
Newton–Raphson Technique |
Метод Ньютона–Рафсона |
Nonlinear |
Нелинейный |
Nonlinear Estimation |
Нелинейное оценивание |
Nonlinear Growth Model |
Нелинейная модель роста |
Nonsingular Matrix |
Невырожденная матрица |
Normal Deviate |
Нормальное отклонение |
Normal Deviate Distribution Random Variable |
Нормально распределенная случайная величина |
Normal Deviate Equations |
Нормальные уравнения (МНК) |
Normal Deviate Plot of Residuals |
График остатков |
Normal Distribution |
Нормальное распределение |
Normalization |
Нормировка, стандартизация (данных) |
1 |
2 |
Observations |
Наблюдения |
One–sided Test |
Односторонний критерий |
One–Way |
Односторонний; однонаправленный |
One-way Classification |
Односторонняя классификация, классификация по одному признаку |
Optimum Threshold |
Оптимальный порог |
Order of the Model |
Порядок модели |
Original Data |
Исходные данные |
Orthogonal Column |
Ортогональные столбцы (матрицы) |
Outlier |
Выброс; резко выделяющееся значение |
Output |
Выходные данные; результат вычислений |
Output Variable |
Выходная переменная |
Outputs Datasheet |
Таблица выходных значений |
Outputs Shown |
Показывать при выводе |
Overview |
Общее представление (о каком-либо предмете); обзор |
Packager |
Упаковщик (объектов) |
Padding |
Добавление нулей (например, в ряд) |
Page Layout |
Просмотр пакета |
Partial Correlation |
Частная корреляция |
Paste Special |
Специальная вставка |
Percentage |
Проценты (представление данных в процентах); относительная (ошибка) |
Percentage Point of the Distribution |
Процентная точка распределения |
Performance |
Качество |
Plot |
График; кривая; диаграмма |
Power |
Степень |
Precision |
Точность |
Predict |
Прогнозировать, предсказывать |
Predictability |
Предсказуемость |
Predicted (mean) Value |
Предсказанное (среднее) значение |
Predictive Discrepancy Sum of Squares |
Сумма квадратов предсказанных расхождений |
Predictive Equation (model) |
Предсказывающее уравнение (модель) |
Principal Components Analysis |
Анализ главных компонент |
Principal Component Regression |
Регрессия на главных компонентах |
Prior probabilities |
Априорные вероятности |
Probability Calculator |
Вероятностный калькулятор |
Probability Level |
Уровень вероятности |
Prompt |
Подсказывать |
Properties |
Свойство, собственность, характеристики |
Prune |
Удалить |
Pure Error |
«Чистая ошибка» (ошибка опыта) |
Pure Error Mean Square |
Средний квадрат, связанный с «чистой» ошибкой |
Pure Error Sum of Squares |
Сумма квадратов, связанная с «чистой» ошибкой (обусловленная «чистой» ошибкой) |
Raise |
Увеличение |
1 |
2 |
Random |
Случайный |
Random Arrangement of Signs |
Случайное расположение знаков |
Random Deviation |
Случайное отклонение |
Random Search |
Случайный поиск |
Random Variation |
Случайный разброс |
Range selection |
Выделение диапазона ячеек |
Ranks For Ties |
Ранги для совпадающих значений |
Rank Variables |
Присвоение рангов значениям переменной |
Rate |
Цена, расценка |
Ratio |
Отношение |
Raw |
Исходный |
Real number fields |
Поля для вещественных чисел |
Recalculate Variables |
Пересчитать значения переменных |
Receive |
Получать |
Recede Variables |
Перекодировать переменные ; |
Redundance |
Чрезмерность, избыточность |
Redial |
Повторить |
Refresh |
Обновлять |
Regression |
Регрессия, зависимость |
Regression Curve |
Регрессионная кривая |
Regression Equation |
Уравнение регрессии |
Regression Estimate |
Регрессионная оценка |
Regression Mean Squares |
Средний квадрат, обусловленный регрессией |
Regular |
Регулярный (ранг от 0 до 1) |
Reject |
Отвергнуть |
Reyleigh distribution |
Релеевское распределение |
Remove |
Удалить |
Repeatability |
Воспроизводимость |
Replace existing |
Заменить существующий |
Representation |
Представление |
Reset |
Восстановить |
Residual |
Остаток |
Residual Mean Squares |
Остаточный средний квадрат |
Residual Sum of Squares |
Остаточная сумма квадратов |
Resolution |
Разрешение – количество точек на дюйм |
Response |
Отклик |
Restore |
Восстановить в прежнем размере |
Resume |
Возобновить, продолжить |
Retrieve Defaults |
Применить установки по умолчанию |
Ribbon |
Линейка форматирования |
Ridge Regression |
Гребневая регрессия, ридж-регрессия |
Rounding Error |
Ошибка округления |
Row vector |
Вектор-строка |
Ruler |
Координатная линейка |
Run |
Запустить |
Run All Cases |
Прогнать все наблюдения |
Running |
Бегущий |
1 |
2 |
Runs Test |
Критерий знаков |
Sample |
Выборка |
Sample Coefficient |
Выборочный коэффициент, оценка коэффициента |
Sample Estimate |
Выборочная оценка |
Sample Size |
Объем (размер) выборки |
Save Defaults |
Сохранить по умолчанию |
Scalable |
Масштабируемый |
Scaled |
Нормированный |
Scatter Diagramm (SD) |
Диаграмма рассеяния |
Scientific |
Научная нотация (представление чисел в научной нотации, например, 5.0314 Е-02) |
Scroll Bars |
Линейка просмотра |
S.D. (Standard Deviation) Ratio |
Отношение стандартных отклонений |
Selecting |
Выбор |
Send |
Передать |
Set |
Множество; совокупность; семейство; ряд; последовательность |
Sequential |
Последовательное (приписывание рангов) |
Set Cake Types |
Задать типы наблюдений |
Screen Catcher |
Команда захвата экрана (Alt + F3) |
Serial Correlation of Residuals |
Сериальная корреляция остатков |
Settings |
Установки |
Setup |
Установка |
Shared |
Разделяемая |
Shift (Lag) Variables |
Сдвиг переменной |
Shuffle Cases |
Перемешать наблюдения |
Significance Level |
Уровень значимости |
Significance of Regression |
Значимость регрессии |
Significance Test |
Критерий значимости |
Single Case |
Одно наблюдение |
Skewness of Distribution |
Асимметрия распределения |
Skip |
Пропустить |
Slope |
Угловой коэффициент (наклон) (регрессии) |
Smoothing Constant |
Константа сглаживания |
Sort Ascending |
Сортировать но возрастанию |
Son Descending |
Сортировать по убыванию |
Source |
Подача (бумаги), источник |
Source Variables |
Исходные переменные |
Split |
Разделение |
Spread |
Распахнуть; разброс, вариация |
Square of Multiple Correlation Coefficient |
Квадрат множественного коэффициента корреляции (множественный коэффициент детерминации) |
Stagewise |
Ступенчатый |
Standard Deviation (SD) |
Стандартное отклонение (среднее квадратическое отклонение) |
Standardize Columns |
Команда стандартизации столбцов |
1 |
2 |
Startup Panel |
Стартовая панель модуля |
Statistically Valid |
Статистически обоснованный |
Stats Graphs |
Статистические графики |
Status Bar |
Строка состояния |
Stepwise |
Шаговый |
Stepwise Regression Procedure |
Шаговый регрессионный метод |
Stopping Conditions |
Условия остановки |
Subset |
Подмножество |
Sum of Squares (SS) |
Сумма квадратов |
Swap file |
Файл подкачки |
Sweep |
Размах, кругозор |
Switch to |
Переход к другой программе |
T-distribution |
T –распределение |
T-test |
T –критерий |
Target Error |
Целевая ошибка |
Template |
Шаблон |
Test |
Критерии, тест, проверка |
Test of Hypothesis |
Проверка гипотезы |
Test of Significance |
Проверка значимости |
Test Statistic for Ho |
Статистика для проверки гипотезы Но |
Text Transfer |
Режим подачи текста |
Text Value Labels |
Метки текстовых значений |
Tile |
Элемент мозаичного изображения |
Time Sequence |
Временная последовательность |
Time Series |
Временной ряд |
Title Bar |
Линейка заголовка |
Tolerance |
Допустимое отклонение |
Toolbar |
Панель (инструментов) |
Total |
Всего; общий |
Transformation |
Преобразование |
Transformation on the Observations |
Преобразование наблюдений |
Transpose Block |
Команда для транспонирования выделенного блока (контекстное меню при нажатии правой кнопки мыши) |
Transpose Data File |
Команда для транспонирования файла данных (переменные становятся случаями, а случаи – переменными) |
Transpose of Matrix |
Транспонирование матрицы |
Trial |
Испытание, проба |
True Model |
«Истинная» модель |
Truncate |
Урезать |
Turn-key |
Под ключ |
Two-State Conversion |
Преобразование в два значения |
Two-tailed (-side) Test |
Двусторонний критерий |
Two-way Table |
Таблица сопряженности, таблица с двумя входами |
Unadjusted |
Нескорректированный, без поправок |
Unexplained Variation |
Необъясненная вариация |
1 |
2 |
Undo |
Отмена |
Uniform Distribution |
Равномерное распределение |
Unit Number |
Номер элемента |
Unknown |
Неизвестно |
Unknown Parameters |
Неизвестные параметры |
Unlisted |
Неизвестный |
Unlock |
Разблокировать |
Untitled |
Неопределенный, неизвестный |
Update |
Актуализация (выбор режима) |
Updated |
Модернизированный, усовершенствованный |
Upper–tailed Test |
Односторонний критерий для верхнего «хвоста»распределения |
Valid |
Действительный |
Validation |
Обоснованность |
Validation Technique |
Метод перепроверки (проверки) состоятельности |
Value Label |
Значение меток |
Variable (dependent) |
Отклик, зависимая переменная |
Variable (independent) |
Фактор, независимая переменная |
Variance about the Regression |
Дисперсия относительно регрессии |
Variance about Covariance Matrix |
Матрица дисперсий-ковариаций |
Variation |
Вариация, разброс |
Vector of Error |
Вектор ошибок (остатков) |
Vector of Observation |
Вектор наблюдений |
Vector of Parameters to be Estimated |
Вектор оцениваемых параметров |
Verbose |
Подробно |
Variable Definition |
Определение переменной |
Verify |
Проверка |
View |
Вид |
Weibull distribution |
Распределение Вейбулла |
Weighted Least Squares |
Взвешенный метод наименьших квадратов |
Win Frequencies Datasheet |
Таблица частот выигрышей |
Workbook |
Рабочая тетрадь, рабочий журнал |
Wrap |
Верстка, оболочка |
Приложение XIV. Краткий справочник по функциям Excel
ABS (ABS)
Возвращает модуль (абсолютную величину) числа. Абсолютная величина числа - это число без знака.
Синтаксис:
ABS(число)
Число – это действительное число, модуль которого требуется найти.
FРАСПОБР (FINV)
Возвращает обратное значение для F-распределения вероятностей. Если p = FРАСП(x;...), то FРАСПОБР(p;...) = x.
Синтаксис:
FРАСПОБР(вероятность;степени_свободы1;степени_свободы2)
Вероятность – это вероятность, связанная с F-распределением.
Степени_свободы1 – это числитель степеней свободы.
Степени_свободы2 – это знаменатель степеней свободы.
ВПР (VLOOKUP)
Ищет значение в крайнем левом столбце таблицы и возвращает значение в той же строке из указанного столбца таблицы. Функция ВПР используется вместо функции ГПР, когда сравниваемые значения расположены в столбце слева от искомых данных.
Буква «В» в имени функции ВПР означает «вертикальный».
Синтаксис:
ВПР(искомое_значение;таблица;номер_столбца;интервальный_просмотр)
Искомое_значение – это значение, которое должно быть найдено в первом столбце массива. Искомое_значение может быть значением, ссылкой или текстовой строкой.
Таблица – таблица с информацией, в которой ищутся данные. Можно использовать ссылку на интервал или имя интервала, например БазаДанных или Список.
Номер_столбца – это номер столбца в массиве «таблица», в котором должно быть найдено соответствующее значение. Если «номер_столбца» равен 1, то возвращается значение из первого столбца аргумента «таблица»; если «номер_столбца» равен 2, то возвращается значение из второго столбца аргумента «таблица» и так далее. Если «номер_столбца» меньше 1, то функция ВПР возвращает значение ошибки #ЗНАЧ!; если «номер_столбца» больше, чем количество столбцов в аргументе «таблица», то функция ВПР возвращает значение ошибки #ССЫЛ!.
Интервальный_просмотр – это логическое значение, которое определяет, нужно ли, чтобы ВПР искала точное или приближенное соответствие. Если этот аргумент имеет значение ИСТИНА или опущен, то возвращается приблизительно соответствующее значение; другими словами, если точное соответствие не найдено, то возвращается наибольшее значение, которое меньше, чем искомое_значение. Если этот аргумент имеет значение ЛОЖЬ, то функция ВПР ищет точное соответствие. Если таковое не найдено, то возвращается значение ошибки #Н/Д.
ГРАДУСЫ (DEGREES)
Преобразует радианы в градусы.
Синтаксис:
ГРАДУСЫ(угол)
Угол – это угол в радианах, преобразуемый в градусы.
ГПР (HLOOKUP)
Ищет значение в верхней строке таблицы или массива значений и возвращает значение в том же столбце из заданной строки таблицы или массива. Функция ГПР используется, когда сравниваемые значения расположены в верхней строке таблицы данных, а возвращаемые значения расположены на несколько срок ниже. Если сравниваемые значения расположены в столбце слева от искомых данных, то следует использовать функцию ВПР.
Буква Г в ГПР означает «горизонтальный».
Синтаксис:
ГПР(искомое_значение;таблица;номер_строки;интервальный_просмотр)
Искомое_значение – это значение, которое требуется найти в первой строке таблицы. Искомое_значение может быть значением, ссылкой или текстовой строкой.
Таблица – это таблица с информацией, в которой ищутся данные. Можно использовать ссылку на интервал или имя интервала.
Номер_строки – это номер строки в массиве «таблица», из которой будет возвращено сопоставляемое значение. Если «номер_строки» равен 1, то возвращается значение из первой строки аргумента «таблица», если «номер_строки» равен 2, то возвращается значение из второй строки аргумента «таблица», и так далее. Если «номер_строки» меньше 1, то функция ГПР возвращает значение ошибки #ЗНАЧ!; если «номер_строки» больше, чем количество строк в аргументе «таблица», то функция ГПР возвращает значение ошибки #ССЫЛ!.
Интервальный_просмотр – это логическое значение, которое определяет, нужно ли, чтобы функция ГПР искала точное или приближенное соответствие. Если этот аргумент имеет значение ИСТИНА или опущен, то возвращается приблизительно соответствующее значение; другими словами, если точное соответствие не найдено, то возвращается наибольшее значение, которое меньше, чем искомое_значение. Если этот аргумент имеет значение ЛОЖЬ, то функция ГПР ищет точное соответствие. Если таковое не найдено, то возвращается значение ошибки #Н/Д.
ДИСП (VAR)
Оценивает дисперсию по выборке.
Синтаксис:
ДИСП(число1;число2; ...)
Число1, число2, ... – это от 1 до 30 числовых аргументов, соответствующих выборке из генеральной совокупности.
ДИСПА (VARA)
Оценивает дисперсию по выборке. В расчете помимо численных значений учитываются также текстовые и логические значения, такие как ИСТИНА или ЛОЖЬ.
Синтаксис:
ДИСПА(значение1;значение2;...)
Значение1, значение2, ... – это от 1 до 30 числовых аргументов, соответствующих выборке из генеральной совокупности.
ДИСПР (VARP)
Вычисляет дисперсию для генеральной совокупности.
Синтаксис:
ДИСПР(число1;число2; ...)
Число1, число2, ... – это от 1 до 30 числовых аргументов, соответствующих генеральной совокупности.
ДИСПРА (VARPА)
Вычисляет дисперсию для генеральной совокупности. В расчете помимо численных значений учитываются также текстовые и логические значения, такие как ИСТИНА или ЛОЖЬ.
Синтаксис:
ДИСПРА(значение1;значение2;...)
Значение1,значение2,... – это от 1 до 30 числовых аргументов, соответствующих генеральной совокупности.
ДОВЕРИТ (CONFIDENCE)
Возвращает доверительный интервал для среднего генеральной совокупности. Доверительный интервал – это интервал с обеих сторон от среднего выборки.
Синтаксис:
ДОВЕРИТ(альфа;станд_откл;размер)
Альфа – это уровень значимости используемый для вычисления уровня надежности. Уровень надежности равняется 100*(1 - альфа) процентам, или, другими словами, альфа равное 0,05 означает 95-процентный уровень надежности.
Станд_откл – это стандартное отклонение генеральной совокупности для интервала данных, предполагается известным.
Размер – это размер выборки.
ЕСЛИ (IF)
Возвращает одно значение, если заданное условие при вычислении дает значение ИСТИНА, и другое значение, если ЛОЖЬ.
Функция ЕСЛИ используется при проверке условий для значений и формул.
Синтаксис:
ЕСЛИ(лог_выражение;значение_если_истина;значение_если_ложь)
Лог_выражение – это любое значение или выражение, принимающее значения ИСТИНА или ЛОЖЬ.
Значение_если_истина – это значение, которое возвращается, если лог_выражение равно ИСТИНА.
Значение_если_ложь – это значение, которое возвращается, если лог_выражение равно ЛОЖЬ.
КОВАР (COVAR)
Возвращает ковариацию, то есть среднее произведений отклонений для каждой пары точек данных. Ковариация используется для определения связи между двумя множествами данных. Например, можно проверить, соответствует ли более высокому уровню доходов более высокий уровень образования.
Синтаксис:
КОВАР(массив1; массив2)
Массив1 – это первый массив или интервал данных.
Массив2 – это второй массив или интервал данных.
КОРРЕЛ (CORREL)
Возвращает коэффициент корреляции меду интервалами ячеек массив1 и массив2. Коэффициент корреляции используется для определения наличия взаимосвязи между двумя свойствами.
Синтаксис:
КОРРЕЛ(массив1;массив2)
Массив1 – это ячейка интервала значений.
Массив2 – это второй интервал ячеек со значениями.
КОРЕНЬ (SQRT)
Возвращает положительное значение квадратного корня.
Синтаксис:
КОРЕНЬ(число)
Число – число, для которого вычисляется квадратный корень.
ЛИНЕЙН (LINEST)
Рассчитывает статистику для ряда с применением метода наименьших квадратов, чтобы вычислить прямую линию, которая наилучшим образом аппроксимирует имеющиеся данные. Функция возвращает массив, который описывает полученную прямую. Поскольку возвращается массив значений, функция должна задаваться в виде формулы массива.
Уравнение для прямой линии имеет следующий вид:
y = mx + b или
y = m1x1 + m2x2 + ... + b (в случае нескольких диапазонов значений x),
где зависимое значение y – функция независимого значения x, значения m – коэффициенты, соответствующие каждой независимой переменной x, а b – постоянная. y, x и m могут быть векторами. Функция ЛИНЕЙН возвращает массив {mn;mn-1;...;m1;b}. ЛИНЕЙН может также возвращать дополнительную регрессионную статистику.
Синтаксис:
ЛИНЕЙН(известные_значения_y;известные_значения_x;конст;статистика)
Известные_значения_y – множество значений y, которые уже известны для соотношения y = mx + b.
Если массив известные_значения_y имеет один столбец, то каждый столбец массива известные_значения_x интерпретируется как отдельная переменная.
Если массив известные_значения_y имеет одну строку, то каждая строка массива известные_значения_x интерпретируется как отдельная переменная.
Известные_значения_x – необязательное множество значений x, которые уже известны для соотношения y = mx + b.
Массив известные_значения_x может содержать одно или несколько множеств переменных. Если используется только одна переменная, то известные_значения_y и известные_значения_x могут иметь любую форму, при условии, что они имеют одинаковую размерность. Если используется более одной переменной, то известные_значения_y должны быть вектором (то есть интервалом высотой в одну строку или шириной в один столбец).
Если известные_значения_x опущены, то предполагается, что это массив {1;2;3;...} такого же размера, как и известные_значения_y.
Конст – логическое значение, которое указывает, требуется ли, чтобы константа b была равна 0.
Если конст имеет значение ИСТИНА или опущено, то b вычисляется обычным образом.
Если аргумент конст имеет значение ЛОЖЬ, то b полагается равным 0 и значения m подбираются так, чтобы выполнялось соотношение y = mx.
Статистика – логическое значение, которое указывает, требуется ли вернуть дополнительную статистику по регрессии.
Если аргумент статистика имеет значение ИСТИНА, то функция ЛИНЕЙН возвращает дополнительную регрессионную статистику, так что возвращаемый массив будет иметь вид: {mn;mn-1;...;m1;b:sen;sen-1;...;se1;seb:r2;sey:F;df:ssreg;ssresid}.
Если аргумент статистика имеет значение ЛОЖЬ или опущен, то функция ЛИНЕЙН возвращает только коэффициенты m и постоянную b.
Дополнительная регрессионная статистика:
Величина |
Описание |
se1,se2,...,sen |
Стандартные значения ошибок для коэффициентов m1,m2,...,mn. |
seb |
Стандартное значение ошибки для постоянной b (seb = #Н/Д, если конст имеет значение ЛОЖЬ). |
r2 |
Коэффициент детерминированности. Сравниваются фактические значения y и значения, получаемые из уравнения прямой; по результатам сравнения вычисляется коэффициент детерминированности, нормированный от 0 до 1. Если он равен 1, то имеет место полная корреляция с моделью, т. е. нет различия между фактическим и оценочным значениями y. В противоположном случае, если коэффициент детерминированности равен 0, то уравнение регрессии неудачно для предсказания значений y. Для получения информации о том, как вычисляется r2, см. «Заметки» в конце данного раздела. |
sey |
Стандартная ошибка для оценки y. |
F |
F-статистика, или F-наблюдаемое значение. F-статистика используется для определения того, является ли наблюдаемая взаимосвязь между зависимой и независимой переменными случайной или нет. |
df |
Степени свободы. Степени свободы полезны для нахождения F-критических значений в статистической таблице. Для определения уровня надежности модели нужно сравнить значения в таблице с F-статистикой, возвращаемой функцией ЛИНЕЙН. |
ssreg |
Регрессионная сумма квадратов. |
ssresid |
Остаточная сумма квадратов. |
ЛГРФПРИБЛ (LOGEST)
В регрессионном анализе вычисляется экспоненциальная кривая, аппроксимирующая данные и возвращается массив значений, описывающий эту кривую. Поскольку данная функция возвращает массив значений, она должна вводиться как формула массива.
Уравнение кривой имеет вид
y = b*m^x или
y = (b*(m1^x1)*(m2^x2)*_) (в случае нескольких значений x),
где зависимые значения y являются функцией независимых значений x. Значения m являются основанием, возводимым в степень x, а значения b постоянны. y, x и m могут быть векторами. Функция ЛГРФПРИБЛ возвращает массив {mn;mn-1;...;m1;b}.
Синтаксис:
ЛГРФПРИБЛ(известные_значения_y;известные_значения_x;конст;статистика)
Известные_значения_y – множество значений y, которые уже известны в соотношении y = b*m^x.
Если массив известные_значения_y имеет один столбец, то каждый столбец массива известные_значения_x интерпретируется как отдельная переменная.
Если массив известные_значения_y имеет одну строку, то каждая строка массива известные_значения_x интерпретируется как отдельная переменная.
Известные_значения_x – необязательное множество значений x, которые уже известны для соотношения y = b*m^x.
Массив известные_значения_x может включать одно или более множеств переменных. Если используется только одна переменная, то известные_значения_y и известные_значения_x могут быть диапазонами любой формы, если только они имеют одинаковые размерности. Если используется более одной переменной, то аргумент известные_значения_y должен быть диапазоном ячеек высотой в одну строку или шириной в один столбец (так называемым вектором).
Если известные_значения_x опущены, то предполагается, что это массив {1;2;3;...} такого же размера, как и известные_значения_y.
Конст – логическое значение, которое указывает, требуется ли, чтобы константа b была равна 1.
Если конст имеет значение ИСТИНА или опущено, то b вычисляется обычным образом.
Если конст имеет значение ЛОЖЬ, то b полагается равным 1 и значения m подбираются так, чтобы удовлетворить соотношению y = m^x.
Статистика – логическое значение, которое указывает, требуется ли вернуть дополнительную статистику по регрессии.
Если статистика имеет значение ИСТИНА, то функция ЛГРФПРИБЛ возвращает дополнительную статистику по регрессии, то есть возвращает массив {mn;mn-1;...;m1;b:sen;sen-1;...;se1;seb:r 2;sey;F;df:ssreg;ssresid}.
Если статистика имеет значение ЛОЖЬ или опущено, то функция ЛГРФПРИБЛ возвращает только коэффициенты m и константу b.
Для получения более подробной информации о дополнительной статистике по регрессии, см. справку по функции ЛИНЕЙН.
МАКС (MAX)
Возвращает наибольшее значение из набора значений.
Синтаксис:
МАКС(число1;число2; ...)
Число1, число2, ... – от 1 до 30 чисел, среди которых требуется найти наибольшее.
МАКСА (MAXA)
Возвращает наибольшее значение в списке аргументов. Наряду с числовыми значениями выполняется также сравнение текстовых и логических (таких как ИСТИНА и ЛОЖЬ) значений.
Функция МАКСА родственна функции МИНА.
Синтаксис:
МАКСА(значение1;значение2;...)
Значение1, значение2,... – от 1 до 30 значений, среди которых требуется найти наибольшее.
МЕДИАНА (MEDIAN)
Возвращает медиану заданных чисел. Медиана – это число, которое является серединой множества чисел, то есть половина чисел имеют значения большие, чем медиана, а половина чисел имеют значения меньшие, чем медиана.
Синтаксис:
МЕДИАНА(число1;число2;...)
Число1, число2, ... – от 1 до 30 чисел, для которых определяется медиана.
МИН (MIN)
Возвращает наименьшее значение в списке аргументов.
Синтаксис:
МИН(число1;число2; ...)
Число1, число2, ... – от 1 до 30 чисел, среди которых требуется найти наименьшее.
МИНА (MINA)
Возвращает наименьшее значение в списке аргументов. Наряду с числовыми значениями выполняется также сравнение текстовых и логических, таких как ИСТИНА и ЛОЖЬ, значений.
Синтаксис:
МИНА (значение1;значение2;...)
Значение1, значение2,... – от 1 до 30 значений, среди которых требуется найти наименьшее.
МОБР (MINVERSE)
Возвращает обратную матрицу для матрицы, хранящейся в массиве.
Синтаксис:
МОБР(массив)
Массив – числовой массив с равным количеством строк и столбцов.
МОДА (MODE)
Возвращает наиболее часто встречающееся или повторяющееся значение в массиве или интервале данных. Как и функция МЕДИАНА, функция МОДА является мерой взаимного расположения значений.
Синтаксис:
МОДА(число1;число2; ...)
Число1, число2, ... – от 1 до 30 аргументов, для которых вычисляется мода. Можно использовать один массив или одну ссылку на массив вместо аргументов, разделяемых точкой с запятой.
МОПРЕД (MDETERM)
Возвращает определитель матрицы (матрица хранится в массиве).
Синтаксис:
МОПРЕД(массив)
Массив – числовой массив с равным количеством строк и столбцов.
МУМНОЖ (MMULT)
Возвращает произведение матриц (матрицы хранятся в массивах). Результатом является массив с таким же числом строк, как массив1 и с таким же числом столбцов, как массив2.
Синтаксис:
МУМНОЖ(массив1;массив2)
Массив1, массив2 – перемножаемые массивы.
НАИБОЛЬШИЙ (LARGE)
Возвращает k-ое по величине значение из множества данных. Эта функция позволяет выбрать значение по его относительному местоположению.
Синтаксис:
НАИБОЛЬШИЙ(массив;k)
Массив – массив или интервал данных, для которых определяется k-ое наибольшее значение.
k – позиция (начиная с наибольшей) в массиве или интервале ячеек данных.
НАИМЕНЬШИЙ (SMALL)
Возвращает k-ое наименьшее значение в множестве данных. Эта функция используется для определения значения, занимающего определенное относительное положение в множестве данных.
Синтаксис:
НАИМЕНЬШИЙ(массив;k)
Массив – массив или диапазон числовых данных, для которого определяется k-ое наименьшее значение.
k – позиция (начиная с наименьшей) в массиве или интервале ячеек данных.
НАКЛОН (SLOPE)
Возвращает наклон линии линейной регрессии для точек данных в аргументах известные_значения_y и известные_значения_x. Наклон определяется как частное от деления расстояния по вертикали на расстояние по горизонтали между двумя любыми точками прямой, то есть наклон – это скорость изменения значений вдоль прямой.
Синтаксис:
НАКЛОН(известные_значения_y;известные_значения_x)
Известные_значения_y – массив или интервал ячеек, содержащих числовые зависимые точки данных.
Известные_значения_x – множество независимых точек данных.
НОРМРАСП (NORMDIST)
Возвращает нормальную функцию распределения для указанного среднего и стандартного отклонения. Эта функция имеет очень широкий круг приложений в статистике, включая проверку гипотез.
Синтаксис:
НОРМРАСП(x;среднее;стандартное_откл;интегральная)
x – значение, для которого строится распределение.
Среднее – среднее арифметическое распределения.
Стандартное_откл – стандартное отклонение распределения.
Интегральная – логическое значение, определяющее форму функции. Если интегральная имеет значение ИСТИНА, то функция НОРМРАСП возвращает интегральную функцию распределения; если это аргумент имеет значение ЛОЖЬ, то возвращается функция плотности распределения.
НОРМСТОБР (NORMSINV)
Возвращает обратное значение стандартного нормального распределения. Это распределение имеет среднее равное нулю и стандартное отклонение равное единице.
Синтаксис:
НОРМСТОБР(вероятность)
Вероятность – вероятность, соответствующая нормальному распределению.
НОРМСТРАСП (NORMSDIST)
Возвращает стандартное нормальное интегральное распределение. Это распределение имеет среднее, равное нулю, и стандартное отклонение, равное единице. Эта функция используется вместо таблицы для стандартной нормальной кривой.
Синтаксис:
НОРМСТРАСП(z)
z – значение, для которого строится распределение.
ОТРЕЗОК (INTERCEPT)
Вычисляет точку пересечения линии с осью y, используя известные_значения_x и известные_значения_y. Точка пересечения находится на оптимальной линии регрессии, проведенной через известные_значения_x и известные_значения_y. Функция ОТРЕЗОК используется, когда нужно определить значение зависимой переменной при значении независимой переменной, равном 0 (нулю).
Синтаксис:
ОТРЕЗОК(известные_значения_x;известные_значения_y)
Известные_значения_y – это зависимое множество наблюдений или данных.
Известные_значения_x – это независимое множество наблюдений или данных.
ПИ (PI)
Возвращает число 3,14159265358979, математическую константу «пи» с точностью до 15 цифр.
Синтаксис:
ПИ( )
ПРЕДСКАЗ (FORECAST)
Вычисляет или предсказывает будущее значение по существующим значениям. Предсказываемое значение – это y-значение, соответствующее заданному x-значению. Известные значения – это x- и y-значения, а новое значение предсказывается с использованием линейной регрессии. Эту функцию можно использовать для предсказания будущих продаж, потребностей в оборудовании или тенденций потребления.
Синтаксис:
ПРЕДСКАЗ(x;известные_значения_y;известные_значения_x)
x – это точка данных, для которой предсказывается значение.
Известные_значения_y – это зависимый массив или интервал данных.
Известные_значения_x – это независимый массив или интервал данных.
ПУАССОН (POISSON)
Возвращает распределение Пуассона. Обычное применение распределения Пуассона состоит в предсказании количества событий, происходящих за определенное время.
Синтаксис:
ПУАССОН(x;среднее;интегральная)
x – количество событий.
Среднее – ожидаемое численное значение.
Интегральная – логическое значение, определяющее форму возвращаемого распределения вероятностей. Если аргумент «интегральная» имеет значение ИСТИНА, то функция ПУАССОН возвращает интегральное распределение Пуассона, то есть вероятность того, что число случайных событий будет от 0 до x включительно. Если этот аргумент имеет значение ЛОЖЬ, то возвращается функция плотности распределения Пуассона, то есть вероятность того, что событий будет в точности x.
РАДИАНЫ (RADIANS)
Преобразует градусы в радианы.
Синтаксис:
РАДИАНЫ(угол)
Угол – величина угла в градусах, которую требуется преобразовать.
РОСТ (GROWTH)
Рассчитывает прогнозируемый экспоненциальный рост на основании имеющихся данных. Функция РОСТ возвращает значения y для последовательности новых значений x, задаваемых с помощью существующих x- и y-значений. Функция рабочего листа РОСТ может применяться также для для аппроксимации существующих x- и y-значений экспоненциальной кривой.
Синтаксис:
РОСТ(известные_значения_y;известные_значения_x;новые_значения_x;конст)
Известные_значения_y – это множество значений y, которые уже известны в соотношении y = b*m^x.
Если массив известные_значения_y имеет один столбец, то каждый столбец массива известные_значения_x интерпретируется как отдельная переменная.
Если массив известные_значения_y имеет одну строку, то каждая строка массива известные_значения_x интерпретируется как отдельная переменная.
Если какие-либо числа в массиве известные_значения_y равны 0 или отрицательны, то функция РОСТ возвращает значение ошибки #ЧИСЛО!.
Известные_значения_x – это необязательное множество значений x, которые уже известны для соотношения y = b*m^x.
Массив известные_значения_x может содержать одно или несколько множеств переменных. Если используется только одна переменная, то известные_значения_y и известные_значения_x могут иметь любую форму, при условии, что они имеют одинаковую размерность. Если используется более одной переменной, то известные_значения_y должны быть вектором (то есть интервалом высотой в одну строку или шириной в один столбец).
Если известные_значения_x опущены, то предполагается, что это массив {1;2;3;...} такого же размера, как и известные_значения_y.
Новые_значения_x – это новые значения x, для которых РОСТ возвращает соответствующие значения y.
Новые_значения_x должны содержать столбец (или строку) для каждой независимой переменной, как и известные_значения_x. Таким образом, если известные_значения_y — это один столбец, то известные_значения_x и новые_значения_x должны иметь такое же количество столбцов. Если известные_значения_y — это одна строка, то известные_значения_x и новые_значения_x должны иметь такое же количество строк.
Если аргумент новые_значения_x опущен, то предполагается, что он совпадает с аргументом известные_значения_x.
Если оба аргумента известные_значения_x и новые_значения_x опущены, то предполагается, что это массив {1;2;3;...} такого же размера, как и известные_значения_y.
Конст – это логическое значение, которое указывает, требуется ли, чтобы константа b была равна 1.
Если конст имеет значение ИСТИНА или опущено, то b вычисляется обычным образом.
Если конст имеет значение ЛОЖЬ, то b полагается равным 1, а значения m подбираются так, чтобы y = m^x.
СКОС (SKEW)
Возвращает асимметрию распределения. Асимметрия характеризует степень несимметричности распределения относительно его среднего. Положительная асимметрия указывает на отклонение распределения в сторону положительных значений. Отрицательная асимметрия указывает на отклонение распределения в сторону отрицательных значений.
Синтаксис:
СКОС(число1;число2; ...)
Число1, число2, ... – от 1 до 30 аргументов, для которых вычисляется асимметрия. Можно использовать один массив или одну ссылку на массив вместо аргументов, разделяемых точкой с запятой.
СРЗНАЧ (AVERAGE)
Возвращает среднее (арифметическое) своих аргументов.
Синтаксис:
СРЗНАЧ(число1; число2; ...)
Число1, число2, ... – это от 1 до 30 аргументов, для которых вычисляется среднее.
СРЗНАЧА (AVERAGEA)
Вычисляет среднее арифметическое значений, заданных в списке аргументов. Помимо чисел в расчете могут участвовать текст и логические значения, такие как ИСТИНА и ЛОЖЬ.
Синтаксис:
СРЗНАЧА(значение1; значение2;...)
Значение1, значение2,... – это от 1 до 30 ячеек, интервалов ячеек или значений, для которых вычисляется среднее.
СРОТКЛ (AVEDEV)
Возвращает среднее абсолютных значений отклонений точек данных от среднего. СРОТКЛ является мерой разброса множества данных.
Синтаксис:
СРОТКЛ(число1; число2; ...)
Число1, число2, ... – это от 1 до 30 аргументов, для которых определяется среднее абсолютных отклонений. Можно использовать массив или ссылку на массив вместо аргументов, разделяемых точкой с запятой.
СТАНДОТКЛОН (STDEV)
Оценивает стандартное отклонение по выборке. Стандартное отклонение – это мера того, насколько широко разбросаны точки данных относительно их среднего.
Синтаксис:
СТАНДОТКЛОН(число1; число2; ...)
Число1, число2, ... – от 1 до 30 числовых аргументов, соответствующих выборке из генеральной совокупности. Вместо аргументов, разделенных точкой с запятой, можно также использовать массив или ссылку на массив.
СТАНДОТКЛОНА (STDEVA)
Оценивает стандартное отклонение по выборке. Стандартное отклонение – это мера того, насколько широко разбросаны точки данных относительно их среднего. В расчете также учитываются текстовые и логические значения, такие как ИСТИНА или ЛОЖЬ.
Синтаксис:
СТАНДОТКЛОНА(значение1;значение2,...)
Значение1, значение2, ... – от 1 до 30 значений, соответствующих выборке из генеральной совокупности. Вместо аргументов, разделяемых точкой с запятой, можно также использовать массив или ссылку на массив.
СТАНДОТКЛОНП (STDEVP)
Вычисляет стандартное отклонение по генеральной совокупности. Стандартное отклонение – это мера того, насколько широко разбросаны точки данных относительно их среднего.
Синтаксис:
СТАНДОТКЛОНП(число1; число2; ...)
Число1, число2, ... – от 1 до 30 числовых аргументов, соответствующих генеральной совокупности. Вместо аргументов, разделяемых точкой с запятой, также можно использовать массив или ссылку на массив.
Текст и логические значения, такие как ИСТИНА или ЛОЖЬ игнорируются. Если текст и логические значения игнорироваться не должны, следует использовать функцию рабочего листа СТАНДОТКЛОНА.
СТАНДОТКЛОНПА (STDEVPA)
Вычисляет стандартное отклонение по генеральной совокупности, заданной аргументами, которые могут включать текст и логические значения. Стандартное отклонение – это мера того, насколько широко разбросаны точки данных относительно их среднего. В расчете также учитываются текстовые и логические значения, такие как ИСТИНА или ЛОЖЬ.
Синтаксис:
СТАНДОТКЛОНПА(значение1;значение2;...)
Значение1, значение2, ... – от 1 до 30 значений, соответствующих генеральной совокупности. Вместо аргументов, разделяемых точкой с запятой, можно также использовать массив или ссылку на массив.
СТЬЮДРАСПОБР (TINV)
Возвращает t-значение распределения Стьюдента как функцию вероятности и числа степеней свободы.
Синтаксис:
СТЬЮДРАСПОБР(вероятность;степени_свободы)
Вероятность – вероятность, соответствующая двустороннему распределению Стьюдента.
Степени_свободы – число степеней свободы, характеризующее распределение.
СУММ (SUM)
Суммирует все числа в интервале ячеек.
Синтаксис:
СУММ(число1;число2; ...)
Число1, число2, ... – от 1 до 30 аргументов, для которых требуется определить итог или сумму.
СЧЕТ (COUNT)
Подсчитывает количество чисел в списке аргументов. Функция СЧЁТ используется для получения количества числовых ячеек в интервалах или массивах ячеек.
Синтаксис:
СЧЁТ(значение1; значение2; ...)
Значение1, значение2, ... – это от 1 до 30 аргументов, которые могут содержать или ссылаться на данные различных типов, но в подсчете участвуют только числа.
СЧЕТЗ (COUNTA)
Подсчитывает количество непустых значений в списке аргументов. Функция СЧЁТЗ используется для подсчета количества ячеек с данными в интервале или массиве.
Синтаксис:
СЧЁТЗ(значение1; значение2; ...)
Значение1, значение2, ... – это от 1 до 30 аргументов, количество которых требуется сосчитать. В данном случае значением считается значение любого типа, включая пустую строку (""), но не включая пустые ячейки. Если аргументом является массив или ссылка, то пустые ячейки в массиве или ссылке игнорируются.
ТЕНДЕНЦИЯ (TREND)
Возвращает значения в соответствии с линейным трендом. Аппроксимирует прямой линией (по методу наименьших квадратов) массивы известные_значения_y и известные_значения_x. Возвращает значения y, в соответствии с этой прямой для заданного массива новые_значения_x.
Синтаксис:
ТЕНДЕНЦИЯ(известные_значения_y;известные_значения_x;новые_значения_x;конст)
Известные_значения_y – множество значений y, которые уже известны для соотношения y = mx + b.
Если массив известные_значения_y имеет один столбец, то каждый столбец массива известные_значения_x интерпретируется как отдельная переменная.
Если массив известные_значения_y имеет одну строку, то каждая строка массива известные_значения_x интерпретируется как отдельная переменная.
Известные_значения_x – необязательное множество значений x, которые уже известны для соотношения y = mx + b.
Массив известные_значения_x может содержать одно или несколько множеств переменных. Если используется только одна переменная, то известные_значения_y и известные_значения_x могут иметь любую форму, при условии, что они имеют одинаковую размерность. Если используется более одной переменной, то известные_значения_y должны быть вектором (то есть интервалом высотой в одну строку или шириной в один столбец).
Если известные_значения_x опущены, то предполагается, что это массив {1;2;3;...} такого же размера, как и известные_значения_y.
Новые_значения_x – новые значения x, для которых ТЕНДЕНЦИЯ возвращает соответствующие значения y.
Новые_значения_x должны содержать столбец (или строку) для каждой независимой переменной, как и известные_значения_x. Таким образом, если известные_значения_y — это один столбец, то известные_значения_x и новые_значения_x должны иметь такое же количество столбцов. Если известные_значения_y — это одна строка, то известные_значения_x и новые_значения_x должны иметь такое же количество строк.
Если новые_значения_x опущены, то предполагается, что они совпадают с известные_значения_x.
Если опущены оба массива известные_значения_x и новые_значения_x, то предполагается, что это массив {1;2;3;...} такого же размера, что и известные_значения_y.
Конст – логическое значение, которое указывает, требуется ли, чтобы константа b была равна 0.
Если конст имеет значение ИСТИНА или опущено, то b вычисляется обычным образом.
Если конст имеет значение ЛОЖЬ, то b полагается равным 0, и значения m подбираются таким образом, чтобы выполнялось соотношение y = mx.
ТТЕСТ (TTEST)
Возвращает вероятность, соответствующую критерию Стьюдента. Функция ТТЕСТ используется, чтобы определить, насколько вероятно, что две выборки взяты из генеральных совокупностей, которые имеют одно и то же среднее.
Синтаксис:
ТТЕСТ(массив1;массив2;хвосты;тип)
Массив1 – первое множество данных.
Массив2 – второе множество данных.
Хвосты – число хвостов распределения. Если хвосты = 1, то функция ТТЕСТ использует одностороннее распределение. Если хвосты = 2, то функция ТТЕСТ использует двустороннее распределение.
Тип – вид исполняемого t-теста.
Тип |
Выполняемый тест |
1 |
Парный |
2 |
Двухвыборочный с равными дисперсиями (гомоскедастический) |
3 |
Двухвыборочный с неравными дисперсиями (гетероскедастический) |
ФТЕСТ (FTEST)
Возвращает результат F-теста. F-тест возвращает одностороннюю вероятность того, что дисперсии аргументов массив1 и массив2 различаются несущественно. Эта функция используется для того, чтобы определить, имеют ли две выборки различные дисперсии.
Синтаксис:
ФТЕСТ(массив1;массив2)
Массив1 – это первый массив или интервал данных.
Массив2 – это второй массив или интервал данных.
ХИ2ОБР (CHIINV)
Возвращает значение, обратное к односторонней вероятности распределения γ2 (хи-квадрат). Если вероятность = ХИ2РАСП(x;...), то ХИ2ОБР(вероятность;...) = x. функция используется для сравнения наблюдаемых результатов с ожидаемыми, для того, чтобы решить была ли исходная гипотеза обоснованной.
Синтаксис:
ХИ2ОБР(вероятность;степени_свободы)
Вероятность – это вероятность, связанная с распределением c2 (хи-квадрат).
Степени_свободы – это число степеней свободы.
ХИ2ТЕСТ (CHITEST)
Возвращает тест на независимость. ХИ2ТЕСТ возвращает значение для распределения хи-квадрат (γ2). Критерий γ2 используется для определения того, подтверждается ли гипотеза экспериментом.
Синтаксис:
ХИ2ТЕСТ(фактический_интервал;ожидаемый_интервал)
Фактический_интервал – это интервал данных, которые содержат наблюдения, подлежащие сравнению с ожидаемыми значениями.
Ожидаемый_интервал – это интервал данных, который содержит отношение произведений итогов по строкам и столбцам к общему итогу.
ЧАСТОТА (FREQUENCY)
Вычисляет частоту появления значений в интервале значений и возвращает массив цифр. Поскольку данная функция возвращает массив, она должна задаваться в качестве формулы массива.
Синтаксис:
ЧАСТОТА(массив_данных;массив_интервалов)
Массив_данных – массив или ссылка на множество данных, для которых вычисляются частоты. Если массив_данных не содержит значений, то функция ЧАСТОТА возвращает массив нулей.
Массив_интервалов – массив или ссылка на множество интервалов, в которые группируются значения аргумента массив_данных. Если массив_интервалов не содержит значений, то функция ЧАСТОТА возвращает количество элементов в аргументе массив_данных.
ЭКСЦЕСС (KURT)
Возвращает эксцесс множества данных. Эксцесс характеризует относительную остроконечность или сглаженность распределения по сравнению с нормальным распределением. Положительный эксцесс обозначает относительно остроконечное распределение. Отрицательный эксцесс обозначает относительно сглаженное распределение.
Синтаксис:
ЭКСЦЕСС(число1;число2; ...)
Число1, число2, ... – от 1 до 30 аргументов, для которых вычисляется мода. Можно использовать один массив или одну ссылку на массив вместо аргументов, разделяемых точкой с запятой.
Приложение XV. Средства статистического анализа данных в Excel
В состав Microsoft Excel входит набор средств анализа данных (так называемый пакет анализа), предназначенный для решения сложных статистических и инженерных задач. Для анализа данных с помощью этих инструментов следует указать входные данные и выбрать параметры; анализ будет выполнен с помощью подходящей статистической или инженерной макрофункции, а результат будет помещен в выходной диапазон. Другие средства позволяют представить результаты анализа в графическом виде.
Обращение к средствам анализа данных. Средства, которые включены в пакет анализа данных доступны через команду Анализ данных меню Сервис. Если этой команды нет в меню, необходимо загрузить надстройку Пакет анализа (Надстройки меню Сервис).
Дисперсионный анализ
Существует несколько видов дисперсионного анализа. Требуемый вариант выбирается с учетом числа факторов и имеющихся выборок из генеральной совокупности.
Однофакторный дисперсионный анализ. Однофакторный дисперсионный анализ используется для проверки гипотезы о сходстве средних значений двух или более выборок, принадлежащих одной и той же генеральной совокупности. Этот метод распространяется также на тесты для двух средних (к которым относится, например, t-критерий).
Двухфакторный дисперсионный анализ с повторениями. Представляет собой более сложный вариант однофакторного анализа с несколькими выборками для каждой группы данных.
Двухфакторный дисперсионный анализ без повторения. Представляет собой двухфакторный анализ дисперсии, не включающий более одной выборки на группу. Используется для проверки гипотезы о том, что средние значения двух или нескольких выборок одинаковы (выборки принадлежат одной и той же генеральной совокупности). Этот метод распространяется также на тесты для двух средних, такие как t-критерий.
Корреляционный анализ
Корреляционный анализ применяется для количественной оценки взаимосвязи двух наборов данных, представленных в безразмерном виде. Коэффициент корреляции выборки представляет отношение ковариации двух наборов данных к произведению их стандартных отклонений и рассчитывается по следующим формулам.
Корреляционный анализ дает возможность установить, ассоциированы ли наборы данных по величине, то есть, большие значения из одного набора данных связаны с большими значениями другого набора (положительная корреляция), или, наоборот, малые значения одного набора связаны с большими значениями другого (отрицательная корреляция), или данные двух диапазонов никак не связаны (нулевая корреляция).
Примечание. Для вычисления коэффициента корреляции между двумя наборами данных на листе используется статистическая функция КОРРЕЛ.
Ковариационный анализ
Ковариация является мерой связи между двумя диапазонами данных. Используется для вычисления среднего произведения отклонений точек данных от относительных средних по следующей формуле.
Ковариационный анализ дает возможность установить, ассоциированы ли наборы данных по величине, то есть, большие значения из одного набора данных связаны с большими значениями другого набора (положительная ковариация), или, наоборот, малые значения одного набора связаны с большими значениями другого (отрицательная ковариация), или данные двух диапазонов никак не связаны (ковариация близка к нулю).
Примечание. Вычисления ковариации для отдельной пары данных производятся с помощью статистической функции КОВАР.
Описательная статистика
Это средство анализа служит для создания одномерного статистического отчета, содержащего информацию о центральной тенденции и изменчивости входных данных.
Экспоненциальное сглаживание
Применяется для предсказания значения на основе прогноза для предыдущего периода, скорректированного с учетом погрешностей в этом прогнозе. При анализе используется константа сглаживания a, по величине которой определяется степень влияния на прогнозы погрешностей в предыдущем прогнозе.
Двухвыборочный F-тест для дисперсии
Двухвыборочный F-тест применяется для сравнения дисперсий двух генеральных совокупностей.
Например, F-тест можно использовать для выявления различия в дисперсиях временных характеристик, вычисленных по двум выборкам.
Анализ Фурье
Предназначается для решения задач в линейных системах и анализа периодических данных на основе метода быстрого преобразования Фурье (БПФ). Эта процедура поддерживает также обратные преобразования, при этом, инвертирование преобразованных данных возвращает исходные данные.
Гистограмма
Используется для вычисления выборочных и интегральных частот попадания данных в указанные интервалы значений. При этом рассчитываются числа попаданий для заданного диапазона ячеек.
Например, необходимо выявить тип распределения успеваемости в группе из 20 студентов. Таблица гистограммы состоит из границ шкалы оценок и количеств студентов, уровень успеваемости которых находится между самой нижней границей и текущей границей. Наиболее часто повторяемый уровень является модой интервала данных.
Скользящее среднее
Скользящее среднее используется для расчета значений в прогнозируемом периоде на основе среднего значения переменной для указанного числа предшествующих периодов. Скользящее среднее, в отличие от простого среднего для всей выборки, содержит сведения о тенденциях изменения данных. Этот метод может использоваться для прогноза сбыта, запасов и других процессов.
Генерация случайных чисел
Используется для заполнения диапазона случайными числами, извлеченными из одного или нескольких распределений. С помощью данной процедуры можно моделировать объекты, имеющие случайную природу, по известному распределению вероятностей.
Ранг и персентиль
Используется для вывода таблицы, содержащей порядковый и процентный ранги для каждого значения в наборе данных. Данная процедура может быть применена для анализа относительного взаиморасположения данных в наборе.
Регрессия
Линейный регрессионный анализ заключается в подборе графика для набора наблюдений с помощью метода наименьших квадратов. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или более независимых переменных.
Выборка
Создает выборку из генеральной совокупности, рассматривая входной диапазон как генеральную совокупность. Если совокупность слишком велика для обработки или построения диаграммы, можно использовать представительную выборку. Кроме того, если предполагается периодичность входных данных, то можно создать выборку, содержащую значения только из отдельной части цикла.
T-тест
Этот вид анализа используется для проверки средних для различных типов генеральных совокупностей.
Двухвыборочный t-тест с одинаковыми дисперсиями. Двухвыборочный t-тест Стьюдента служит для проверки гипотезы о равенстве средних для двух выборок. Эта форма t-теста предполагает совпадение дисперсий генеральных совокупностей и обычно называется гомоскедастическим t-тестом.
Двухвыборочный t-тест с разными дисперсиями. Двухвыборочный t-тест Стьюдента используется для проверки гипотезы о равенстве средних для двух выборок данных из разных генеральных совокупностей. Эта форма t-теста предполагает несовпадение дисперсий генеральных совокупностей и обычно называется гетероскедастическим t-тестом. Если тестируется одна и та же генеральная совокупность, используйте парный тест.
Парный двухвыборочный t-тест для средних. Парный двухвыборочный t-тест Стьюдента используется для проверки гипотезы о различии средних для двух выборок данных. В нем не предполагается равенство дисперсий генеральных совокупностей, из которых выбраны данные. Парный тест используется, когда имеется естественная парность наблюдений в выборках, например, когда генеральная совокупность тестируется дважды – до и после эксперимента.
Z-тест
Двухвыборочный z-тест для средних с известными дисперсиями. Используется для проверки гипотезы о различии между средними двух генеральных совокупностей.