Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Сибирский федеральный университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

MU_Geo_new_2.doc

Скачиваний:

Добавлен:

09.11.2019

Размер:

4.51 Mб

Скачать

☆

<<< < Предыдущая 1 23 / 33

6) Вроцлавская таксономия

Результатом работы программы, использующей метод максимального корреляционного пути, являются пары чисел, указывающие порядок «соединения» подлежащих классификации параметров или объектов, наиболее близких попарно. Получающийся кратчайший замкнутый путь можно отобразить графически в виде оптимального дерева (дендрита), как это описано в следующем разделе.

Классифицируемы могут быть параметры либо объекты. Метод похож на метод ближайшей связи, однако относится к алгоритмам типа разрезания графа и напоминает методы вроцлавской таксономии. Если в качестве меры сходства применяется коэффициент корреляции, получается метод максимального корреляционного пути.

Методы иерархической группировки (численной таксономии) исходных множеств получили название кластер-анализа, то есть анализа групп. Первоначально они применялись в биологии и палеонтологии, а в настоящее время широко используются в различных отраслях геолого-минералогических наук, в частности, при классификации парагенетических ассоциаций элементов земной коры.

Термин кластерный анализ (впервые ввел Tryon, 1939) в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, то есть развернуть таксономии. Например, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соответствии с современной системой, принятой в биологии, человек принадлежит к приматам, млекопитающим, амниотам, позвоночным и животным. Заметьте, что в этой классификации, чем выше уровень агрегации, тем меньше сходства между членами в соответствующем классе. Человек имеет больше сходства с другими приматами (то есть с обезьянами), чем с «отдаленными» членами семейства млекопитающих (например, собаками) и т.д. Фактически, кластерный анализ является не столько обычным статистическим методом, сколько «набором» различных алгоритмов «распределения объектов по кластерам». Существует точка зрения, что в отличие от многих других статистических процедур, методы кластерного анализа используются в большинстве случаев тогда, когда вы не имеете каких-либо априорных гипотез относительно классов, но все еще находитесь в описательной стадии исследования. Следует понимать, что кластерный анализ определяет «наиболее возможно значимое решение». Поэтому проверка статистической значимости в действительности здесь неприменима, даже в случаях, когда известны p-уровни (как, например, в методе K-средних).

Задача кластер-анализа сводится к разбиению множества элементов корреляционной матрицы признаков [R] на группы таким образом, чтобы в них объединялись объекты с наивысшими значениями характеристик сходства, а разобщенные группы оставались бы при этом максимально изолированными по данному признаку. В качестве меры сходства могут использоваться непосредственно парные коэффициенты корреляции, m-мерное эвклидово расстояние или другие дистанционные коэффициенты.

МЕТРИКИ

Мера сходства между элементами множеств (типа расстояния) называется метрикой, если она удовлетворяет определенным условиям: симметрии, неравенству треугольника, различимости нетождественных объектов и неразличимости тождественных объектов.

Метрика Минковского

Наиболее общей метрикой является метрика Минковского. Степень разности значений можно выбрать в пределах от 1 до 4. Если эту степень взять равной 2, то получим евклидово расстояние. Расстояние Минковского равно корню r-ой степени из суммы абсолютных разностей пар значений взятых в r-ой степени:

distance(x,y) = {_i (x_i - y_i)^r }^1/^r

Евклидова метрика

Это наиболее часто выбираемый тип расстояния. Это просто геометрическое расстояние в многомерном пространстве. Евклидова дистанция между двумя точками х и у – это наименьшее расстояние между ними. В двух- или трёхмерном случае – это прямая, соединяющая данные точки. Если в метрике Минковского положить r=2, мы получим стандартное евклидово расстояние (евклидову метрику)

distance(x,y) = {_i (x_i - y_i)² }^½

Квадратная евклидова метрика (квадрат евклидова расстояния)

Дает больший по сравнению с евклидовой метрикой вес объектов, которые размещаются более обособленно. Благодаря возведению в квадрат при расчёте лучше учитываются большие разности

distance(x,y) = _i (x_i - y_i)²

Манхеттенское расстояние

Это расстояние просто среднее различие поперечных измерений. При r=1 метрика Минковского дает манхеттенское расстояние (метрику города, city block, Manhattan distance). Эта дистанционная мера, называемая также дистанцией Манхэттена или в шутку – дистанцией таксиста, определяется суммой абсолютных разностей пар значений. Для двумерного пространства это не прямолинейное евклидова расстояние между двумя точками, а путь, который должен преодолеть Манхэттенский таксист, чтобы проехать от одного дома к другому по улицам, пересекающимся под прямым углом

distance(x,y) = _i |x_i - y_i|

Чебышевское расстояние

Эта мера расстояния может быть соответствующая в случаях, когда каждый хочет определить два объекта как «различные», если они различны на любом из измерений. Разностью двух наблюдений является абсолютное значение максимальной разности последовательных пар переменных, соответствующих этим наблюдениям.

distance(x,y) = Maximum|x_i - y_i|

Пользовательская метрика (степенное расстояние)

Это обобщенный вариант расстояния Минковского. Это расстояние, называемое также степенным расстоянием, равно корню r-ой степени из суммы абсолютных разностей пар значений взятой в р-ой степени:

distance(x,y) = (_i |x_i - y_i|^p)^1/r,

где r и p - определяемые пользователем параметры. Здесь как для корня, так и для степени суммы можно выбирать значения от 1 до 4. Параметр p ответственен за постепенное взвешивание разностей по отдельным координатам, параметр r ответственен за прогрессивное взвешивание больших расстояний между объектами. Если r и p равны 2, то это расстояние равно евклидовому расстоянию.

Процент различия (несогласия)

Эта мера используется в тех случаях, когда данные являются категориальными. Это расстояние вычисляется как:

distance(x,y) = (Number of x_i  y_i)/i

ПРАВИЛА ОБЪЕДИНЕНИЯ ИЛИ СВЯЗИ

На первом шаге, когда каждый объект представляет собой отдельный кластер, расстояния между этими объектами определяются выбранной мерой. Однако когда связываются вместе несколько объектов, возникает вопрос, как следует определить расстояния между кластерами? Другими словами, необходимо правило объединения или связи для двух кластеров. Здесь имеются различные возможности: например, вы можете связать два кластера вместе, когда любые два объекта в двух кластерах ближе друг к другу, чем соответствующее расстояние связи. Другими словами, вы используете «правило ближайшего соседа» для определения расстояния между кластерами; этот метод называется методом одиночной связи. Это правило строит «волокнистые» кластеры, то есть кластеры, «сцепленные вместе» только отдельными элементами, случайно оказавшимися ближе остальных друг к другу. Как альтернативу вы можете использовать соседей в кластерах, которые находятся дальше всех остальных пар объектов друг от друга. Этот метод называется метод полной связи. Существует также множество других методов объединения кластеров, подобных тем, что были рассмотрены.

Одиночная связь (метод ближайшего соседа). Как было описано выше, в этом методе расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах. Это правило должно, в известном смысле, нанизывать объекты вместе для формирования кластеров, и результирующие кластеры имеют тенденцию быть представленными длинными «цепочками».

Полная связь (метод наиболее удаленных соседей). В этом методе расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (то есть «наиболее удаленными соседями»). Этот метод обычно работает очень хорошо, когда объекты происходят на самом деле из реально различных «рощ». Если же кластеры имеют в некотором роде удлиненную форму или их естественный тип является «цепочечным», то этот метод непригоден.

Невзвешенное попарное среднее. В этом методе расстояние между двумя различными кластерами вычисляется как среднее расстояние между всеми парами объектов в них. Метод эффективен, когда объекты в действительности формируют различные «рощи», однако он работает одинаково хорошо и в случаях протяженных («цепочного» типа) кластеров. Отметим, что в своей книге Снит и Сокэл (Sneath, Sokal, 1973) вводят аббревиатуру UPGMA для ссылки на этот метод, как на метод невзвешенного попарного арифметического среднего - unweighted pair-group method using arithmetic averages.

Взвешенное попарное среднее. Метод идентичен методу невзвешенного попарного среднего, за исключением того, что при вычислениях размер соответствующих кластеров (то есть число объектов, содержащихся в них) используется в качестве весового коэффициента. Поэтому предлагаемый метод должен быть использован (скорее даже, чем предыдущий), когда предполагаются неравные размеры кластеров. В книге Снита и Сокэла (Sneath, Sokal, 1973) вводится аббревиатура WPGMA для ссылки на этот метод, как на метод взвешенного попарного арифметического среднего - weighted pair-group method using arithmetic averages.

Невзвешенный центроидный метод. В этом методе расстояние между двумя кластерами определяется как расстояние между их центрами тяжести. Снит и Сокэл (Sneath and Sokal (1973)) используют аббревиатуру UPGMC для ссылки на этот метод, как на метод невзвешенного попарного центроидного усреднения - unweighted pair-group method using the centroid average.

Взвешенный центроидный метод (медиана). Этот метод идентичен предыдущему, за исключением того, что при вычислениях используются веса для учёта разницы между размерами кластеров (то есть числами объектов в них). Поэтому, если имеются (или подозреваются) значительные отличия в размерах кластеров, этот метод оказывается предпочтительнее предыдущего. Снит и Сокэл (Sneath, Sokal 1973) использовали аббревиатуру WPGMC для ссылок на него, как на метод невзвешенного попарного центроидного усреднения - weighted pair-group method using the centroid average.

Метод Варда. Этот метод отличается от всех других методов, поскольку он использует методы дисперсионного анализа для оценки расстояний между кластерами. Метод минимизирует сумму квадратов (SS) для любых двух (гипотетических) кластеров, которые могут быть сформированы на каждом шаге. Подробности можно найти в работе Варда (Ward, 1963). В целом метод представляется очень эффективным, однако он стремится создавать кластеры малого размера.

ВИЗУАЛИЗАЦИЯ РЕЗУЛЬТАТОВ КЛАСТЕРНОГО АНАЛИЗА

После проведения классификации рекомендуется визуализировать результаты кластеризации путем построения дендрограммы (дендограммы). Для большого числа объектов такая визуализация является единственным способом получить представление об общей конфигурации объектов.

Хотя от графического представления данных во многих методах можно отказаться, иерархические методы кластерного анализа становятся более наглядными, если результаты расчета представить в виде специального графика, называемого дендрограммой (дендограммой).

Предположим, после применения одного из иерархических методов получены результаты классификации в виде величин связи для пар объектов. Идея построения дендрограммы очевидна – пары объектов соединяются в соответствии с уровнем связи, отложенным по оси ординат (рис. VII.1).

Рис. VII.1. Дендрограмма иерархического метода

Диаграмма начинается с каждого объекта в классе (в нижней части диаграммы). Теперь представим себе, что постепенно (очень малыми шагами) вы «ослабляете» ваш критерий о том, какие объекты являются уникальными, а какие нет. Другими словами, вы понижаете порог, относящийся к решению об объединении двух или более объектов в один кластер. В результате, вы связываете вместе всё большее и большее число объектов и агрегируете (объединяете) все больше и больше кластеров, состоящих из все сильнее различающихся элементов. Окончательно, на последнем шаге все объекты объединяются вместе. На этих диаграммах вертикальные оси представляют расстояние объединения (в горизонтальных древовидных диаграммах горизонтальные оси представляют расстояние объединения). Так, для каждого узла в графе (там, где формируется новый кластер) вы можете видеть величину расстояния, для которого соответствующие элементы связываются в новый единственный кластер. Когда данные имеют ясную «структуру» в терминах кластеров объектов, сходных между собой, тогда эта структура, скорее всего, должна быть отражена в иерархическом дереве различными ветвями. В результате успешного анализа методом объединения появляется возможность обнаружить кластеры (ветви) и интерпретировать их.

По оси абсцисс располагаются символические обозначения объектов исследования (векторов матрицы), а по оси ординат – минимальные значения дистанционных коэффициентов, соответствующих каждому шагу классифицирующей процедуры. Таким образом, ось ординат используется для масштабного представления иерархических уровней группирования.

Наглядность и содержательная ценность древовидных графов существенно повышаются, если в них отражена информация не только о тесноте внутригрупповых связей, но и о межгрупповых расстояниях h. Такой дендровидный граф, учитывающий не только внутригрупповые расстояния, но и средние расстояния между группами, называется дендрографом.

Рудные тела редкометалльного месторождения приурочены к зонам натровых метасоматитов (альбититов). В результате детального изучения минерального состава метасоматитов было установлено, что на месторождении развиты альбититы двух типов. Причем редкометалльное оруденение характерно лишь для одного из них. По химическому составу рудные и безрудные альбититы весьма близки, поэтому различить их по содержанию отдельных химических элементов не удается. Однако некоторые различия в минеральном составе проявляются в особенностях корреляционных связей между элементами. Наглядно эти различия отражаются на графах (рис. VII.2, а, б) и дендрограммах (рис. VII.2, в, г). В качестве меры близости элементов при построении дендрограмм в данном случае используются непосредственно парные коэффициенты корреляции, рассчитанные по 50 пробам, отобранным из рудных и безрудных альбититов, тип которых однозначно определен минералогическими исследованиями. Предельное значение коэффициента корреляции для доверительной вероятности 0,95 при объеме выборок в 50 проб равен 0,28. Поэтому для целей классификации целесообразно сравнивать лишь те группы, для которых коэффициенты корреляции, отражающие тесноту внутригрупповой связи, превышают эту величину.

Для обеих дендрограмм характерна группа, объединяющая фосфор и редкоземельные элементы, что, по-видимому, обусловлено присутствием в альбититах обоих типов апатита, в составе которого отмечены повышенные концентрации этих элементов.

Основной отличительной особенностью безрудных альбититов является тесная ассоциация сидерофильных элементов (Ni—Cr—Ti—Со), которая в рудных альбититах распадается.

Для рудных альбититов характерна ассоциация халькофильных элементов (Pb—Zn), в то время как в безрудных альбититах корреляционная связь между этими элементами отрицательная. Таким образом кластер-анализ позволяет оперативно и достаточно надежно определить тип альбититов по результатам спектральных анализов, не прибегая к детальному изучению шлифов.

Рис VII.2. Характеристики корреляционных связей между содержаниями химических элементов в альбититах:

а—граф по безрудным альбититам; б—граф по рудным альбититам; в—дендрограмма по безрудным альбититам; г—дендрограмма по рудным альбититам

МЕТОД K-СРЕДНИХ

Этот метод кластеризации существенно отличается от таких агломеративных методов, как древовидная кластеризация. Предположим, вы уже имеете гипотезы относительно числа кластеров (по наблюдениям или по переменным). Вы можете указать системе образовать ровно три кластера так, чтобы они были настолько различны, насколько это возможно. Это именно тот тип задач, которые решает алгоритм метода K-средних. В общем случае метод K-средних строит ровно K различных кластеров, расположенных на возможно больших расстояниях друг от друга.

С вычислительной точки зрения вы можете рассматривать этот метод, как дисперсионный анализ «наоборот». Программа начинает с K случайно выбранных кластеров, а затем изменяет принадлежность объектов к ним, чтобы: (1) - минимизировать изменчивость внутри кластеров, и (2) - максимизировать изменчивость между кластерами. Данный способ аналогичен методу «дисперсионный анализ наоборот» в том смысле, что критерий значимости в дисперсионном анализе сравнивает межгрупповую изменчивость с внутригрупповой при проверке гипотезы о том, что средние в группах отличаются друг от друга. В кластеризации методом K-средних программа перемещает объекты (то есть наблюдения) из одних групп (кластеров) в другие для того, чтобы получить наиболее значимый результат при проведении дисперсионного анализа

Обычно, когда результаты кластерного анализа методом K-средних получены, можно рассчитать средние для каждого кластера по каждому измерению, чтобы оценить, насколько кластеры различаются друг от друга. В идеале вы должны получить сильно различающиеся средние для большинства, если не для всех измерений, используемых в анализе. Значения F-статистики, полученные для каждого измерения, являются другим индикатором того, насколько хорошо соответствующее измерение дискриминирует кластеры.

ФАКТОРНЫЙ АНАЛИЗ

Основным объектом исследования методами факторного анализа является корреляционная матрица, построенная с использованием коэффициента корреляционного отношения Пирсона (для количественных признаков). Предлагается также использование других коэффициентов типа корреляции, предназначенных для порядковых, качественных и смешанных признаков, но опыта в этой области пока недостаточно. Основным требованием к построенной матрице является ее положительная полуопределенность. Эрмитова матрица называется положительно полуопределенной, если все ее главные миноры неотрицательны. Из данного свойства как раз и следует неотрицательность всех собственных значений.

Методами факторного анализа решаются три основных вида задач:

отыскание скрытых, но предполагаемых закономерностей, которые определяются воздействием внутренних или внешних причин на изучаемый процесс;
выявление и изучение статистической связи признаков с факторами или главными компонентами;
сжатие информации путем описания процесса при помощи общих факторов или главных компонент, число которых меньше количества первоначально взятых признаков (параметров), однако с той или иной степенью точности обеспечивающих воспроизведение корреляционной матрицы.

Следует пояснить, что в факторном анализе понимается под сжатием информации. Дело в том, что корреляционная матрица получается путем обработки исходного массива данных. Предполагался, что та же самая корреляционная матрица может быть получена с использованием тех же объектов, но описанных меньшим числом параметров. Таким образом, якобы происходит уменьшение размерности задачи, хотя на самом деле это не так. Это не сжатие информации и в общепринятом смысле – восстановить исходные данные по корреляционной матрице нельзя.

Коэффициенты корреляции, составляющие корреляционную матрицу, по умолчанию вычисляются между параметрами (признаками, тестами), а не между объектами (индивидуумами, лицами), поэтому размерность корреляционной матрицы равна числу параметров. Это так называемая техника R. Однако может быть, например, изучена корреляция между объектами (точнее, их состояниями, описываемыми векторами параметров). Эта методика называется техникой Q. Проведение факторного анализа техникой Q обосновано тем, что состояния объектов могут иметь общую побудительную причину (причины), которая (которые) как раз и может быть выявлена с помощью факторного анализа. Существует также техника Р, предполагающая анализ исследований, выполненных на одном и том же индивидууме в различные промежутки времени («объекты» – один и тот же индивидуум в различные промежутки времени), причем изучаются корреляции между состояниями индивидуума. Аналог техники Q для последнего случая составляет предмет исследования техники O.

В основе всех методов факторного анализа лежит предположение, что изучаемая зависимость носит линейный характер. Основное требование к исходным данным – это то, что они должны подчиняться многомерному нормальному распределению. По крайней мере, должно быть сделано допущение о многомерном нормальном распределении совокупности.

Редуцированием корреляционной матрицы называется процесс замены единиц на главной диагонали корреляционной матрицы некоторыми величинами, называемыми общностями. Общность – сумма квадратов факторных нагрузок. Общность данной переменной – та часть ее дисперсии, которая обусловлена общими факторами. Это вытекает из предположения что полная дисперсия складывается из общей дисперсии, обусловленной общими для всех переменных факторами, а также специфичной дисперсии, обусловленной факторами, специфичными только для данной переменной, и дисперсии, обусловленной ошибкой.

Получение матрицы факторного отображения в принципе является целью факторного анализа. Ее строки представляют собой координаты концов векторов, соответствующих т переменным в r-мерном факторном пространстве. Близость концов этих векторов дает представление о взаимной зависимости переменных. Каждый вектор в сжатой, концентрированной форме несет информацию о процессе. Близость этих векторов дает представление о взаимной зависимости переменных. Дополнительно, если число выделенных факторов больше единицы, обычно производится вращение матрицы факторного отображения с целью получения так называемой простой структуры.

Для наглядности результаты можно изобразить графически, что, однако, проблематично для трех и более выделенных факторов. Поэтому обычно дают изображение r -мерного факторного пространства в двумерных срезах.

В процессе решения задачи факторного анализа нужно быть готовы к тому, что иногда решение получить не удается. Это вызвано сложностью решаемой проблемы собственных значений корреляционной матрицы. Например, корреляционная матрица может оказаться вырожденной, что может быть вызвано совпадением или полной линейной корреляцией параметров. Для матриц высоко порядка может произойти потеря значимости в процессе вычислений. Поэтому теоретически нельзя исключить ситуацию, когда методы факторного анализа, к сожалению, окажутся неприменимы, по крайней мере до тех пор, пока исходные данные не удастся «исправить». Исправлены данные могут быть следующим образом. Выявите линейно зависимые параметры с помощью, например, метода и корреляционных плеяд (возможно применение и других методов) и оставьте в исходных данных только один из группы линейно зависимых параметров.

МЕТОД ГЛАВНЫХ КОМПОНЕНТ

С увеличением размерности признакового пространства возрастают трудности изучения геологических объектов, и возникает проблема замены многочисленных наблюдаемых признаков меньшим их числом, без существенной потери полезной информации. Одним из наиболее распространенных методов решения этой задачи является метод главных компонент.

Основой метода главных компонент является линейное преобразование т исходных переменных (признаков) в т новых переменных, где каждая новая переменная представляет собой линейное сочетание исходных. В процессе преобразования векторы наблюдаемых переменных заменяются новыми векторами (главными компонентами), которые вносят резко различные вклады в суммарную дисперсию многомерных признаков. Сокращение пространства признаков достигается путем отбора нескольких наиболее информативных компонент, обеспечивающих основную долю суммарной дисперсии, что приводит к заметному уменьшению их общего числа за счет наименее информативных компонент, отражающих малые доли суммарной дисперсии.

Главные компоненты – это собственные векторы ковариационных матриц исходных признаков. Число собственных векторов ковариационной матрицы определяется числом изучаемых признаков, то есть равно числу ее столбцов (или строк). Каждый собственный вектор (главная компонента) характеризуется собственным значением и координатами.

Собственные значения ковариационной матрицы (λ_j) – это длины ее собственных векторов, то есть их дисперсии. Суммы собственных значений ковариационной матрицы равны ее следу, то есть сумме ее диагональных элементов.

Координаты собственного вектора ковариационной матрицы (ω_ij) – это числовые коэффициенты, характеризующие его положение в т мерном признаковом пространстве. Число точечных координат каждого собственного вектора (ω_ij) – ω₁, ω₂, ..., ω_m определяется размерностью пространства, а их численные значения – это коэффициенты линейных уравнений данного собственного вектора.

Собственные значения ковариационной матрицы находятся как характеристические корни полиномиальных уравнений путем их решения. Однако осуществить это для больших значений т очень сложно. Поэтому в вычислительной практике их определяют методами матричных преобразований (путем последовательных приближений к собственным значениям), которые могут быть реализованы только с помощью ЭВМ. Методы отыскания координат собственных векторов симметричных матриц также сложны и требуют применения ЭВМ.

Поскольку ковариационные матрицы исходных признаков симметричны, их собственные векторы всегда ортогональны, а составляющие их переменные взаимонезависимы, то есть не коррелированы между собой.

В методе главных компонент координаты собственных векторов рассматриваются как нагрузки соответствующих переменных на тот или иной фактор. Они используются для расчета матриц нового (множества совокупностей путем проектирования векторов исходных данных (признаков х₁, х₂, …, х_m) на оси собственных векторов (γ₁, γ₂, …, γ_m):

, (VII.1)

где – нагрузки j-й компоненты в i-й переменной признака. С помощью формулы (VII.1) исходная матрица наблюденных признаков размерности п x т пересчитывается в матрицу новых переменных (той же размерности), учитывающих собственные значения каждой из компонент. Если статистические (корреляционные) связи между наблюденными признаками многомерного пространства проявляются достаточно отчетливо, то разложение исходной матрицы наблюдений на т новых компонент приводит к заметному возрастанию контрастности распределения дисперсий по новым компонентам, в сравнении с исходными векторами. Как правило, дисперсия одной из главных компонент достигает половины и более от суммарной дисперсии признаков, а в совокупности с дисперсиями еще одной-двух последующих компонент, их общий вклад в суммарную дисперсию превышает 90%.

Таким образом, без существенной потери информации об изменчивости наблюденных признаков можно заметно сократить размерность пространства наблюденных признаков (до p≤m), ограничившись данными по двум-трем наиболее информативным главным компонентам. Это позволяет считать, что вместо исходной матрицы размерностью п x m, для целей геологического анализа может использоваться матрица главных компонент размерностью п x p (где p, как правило не превышает 2 – 3). Поскольку новые переменные в этой матрице представлены некоррелированными величинами, метод главных компонент может рассматриваться как мощное средство определения истинного числа линейно независимых векторов, содержащихся в исходной матрице.

Рассмотрим подробнее метод главных компонент – вариант метода главных факторов. Основная модель метода главных компонент записывается в матричном виде следующим образом:

Z = A P,

где Z – матрица стандартизованных исходных данных,

A – факторное отображение,

P – матрица значений факторов.

Матрица Z имеет размер т х п, матрица A имеет размер т х r, матрица P имеет размер r х п,

где т – количество переменных (векторов данных),

n – количество индивидуумов (элементов одного вектора),

r – количество выделенных факторов.

Как видно из приведенного выше выражения, модель компонентного анализа содержит только общие для имеющихся векторов факторы.

Матрица стандартизованных исходных данных определяется из матрицы исходных данных Y (ее размер т х п) по формуле

, i = 1, 2, …, m, j = 1, 2, …, n,

где – элемент матрицы исходных данных,

– среднее значение,

– стандартное отклонение.

Для вычисления корреляционной матрицы – основного элемента факторного анализа – имеет место простое соотношение

где R – корреляционная матрица; она имеет размер т х т,

' – символ транспонирования.

На главной диагонали матрицы R стоят значения, равные 1. Эти значения называются общностями и обозначаются как , являясь мерой полной дисперсии переменной.

Неизвестными являются матрицы A и P. Матрица A может быть найдена из основной теоремы факторного анализа

R = A C A'

где C – корреляционная матрица, отражающая связь между факторами.

Если C = I, то говорят об ортогональных факторах, если С ≠ I, говорят о косоугольных факторах. Здесь I – единичная матрица. Для матрицы C справедливо соотношение

Нами рассматривается только случай ортогональных факторов, для которых

R = A A'

Модель классического факторного анализа содержит ряд общих факторов и по одному характерному фактору на каждую переменную.

Первая из приведенных в разделе формул является основной моделью факторного анализа для метода главных компонент. Число главных компонент всегда меньше либо равно числу переменных.

ПРОБЛЕМА ВРАЩЕНИЯ

Оси координат, соответствующие выделенным факторам, ортогональны, и их направления устанавливаются последовательно, по максимуму оставшейся дисперсии. Но полученные таким образом координатные оси большей частью содержательно не интерпретируются. Поэтому получают более предпочтительное положение системы координат путем вращения этой системы вокруг ее начала. Пространственная конфигурация векторов в результате применения этой процедуры остается неизменной. Целью вращения является нахождение одной из возможных систем координат для получения так называемой простой факторной структуры. Применяется популярный метод вращения VARIMAX.

КРИТЕРИИ МАКСИМАЛЬНОГО ЧИСЛА ФАКТОРОВ

Существует несколько критериев оценки максимального числа удерживаемых факторов. Критерии, основанные на анализе определителей (детерминантов) исходной и воспроизведенной корреляционной матриц, не показывают стабильности. Критерии, основанные на величине собственных значений корреляционной матрицы, в конечном счете приводят к анализу процента дисперсии, выделенной факторами. Все общие факторы, число которых равно числу параметров, выделяют 100% дисперсии. Если сумма процентов дисперсии превышает величину 100%, то это означает: при вычислении собственных значений корреляционной матрицы были получены отрицательные собственные значения и, как следствие, комплексные собственные вектора, что может означать некорректную редукцию исходной корреляционной матрицы.

ВИЗУАЛИЗАЦИЯ РЕЗУЛЬТАТОВ ФАКТОРНОГО АНАЛИЗА

Пусть в эксперименте получены некоторые опытные данные, представляющие собой измерения трех параметров, обозначенных цифрами 1, 2 и 3. В результате проведенных расчетов были выделены два фактора (две главные компоненты), обозначенные буквами A и B.

Из рис. VII.3 видно, что вектора данных четко распадаются на две группы: одну группу, включающую в себя параметр 1 и параметр 2 и другую группу, включающую в себя параметр 3. Таким образом, по результатам расчета можно выдвинуть гипотезы:

Параметр 1 и параметр 2 имеют сильную взаимную линейную корреляцию.
Параметр 3 слабо зависит от параметров 1 и 2 в рассматриваемых сериях эксперимента.

Указание

В эксперименте достаточно измерять не три параметра, а только два: параметр 1 (или 2) и параметр 3. Это послужит снижению стоимости эксперимента практически без потери точности выводов.

Рис. VII.3. Изученные параметры 1, 2 и 3 в пространстве главных компонент, которым соответствуют фактор A и фактор B

ПРИМЕР VII.1

В одном из районов выявлено месторождение золота, приуроченное к зоне развития калиевых метасоматитов, а также ряд непромышленных по масштабу проявлений золоторудной и полиметаллической минерализации.

В рудах месторождения и окружающих их ореолах рассеяния золото ассоциирует с оловом и мышьяком, а на верхних горизонтах также с серебром, свинцом и сурьмой. Для окружающих неизмененных пород характерна положительная корреляционная связь между калием, ураном и торием. Непосредственно вблизи рудных тел в результате калиевого метасоматоза эта связь нарушается.

Данные особенности месторождения могут быть использованы для разбраковки многочисленных геохимических аномалий, выявленных в этом районе при проведении металлометрической съемки.

К перспективным объектам должны быть отнесены в первую очередь комплексные аномалии с характерными для месторождения ассоциациями элементов, пространственно совпадающие с участками проявления калиевого метасоматоза.

В табл. VII.1 приведены содержания химических элементов в пробах метасоматитов по одному из аномальных участков района.

Таблица VII.1. Содержание типоморфных элементов в метасоматитах

№ проб	Ag	Pb	Sn	As	Sb	Au	K	U	Th
1	0,1	0,8	1	5	3	0,01	20	30	5
2	13	17	2	1	0,2	2	120	35	15
3	0,2	0,8	10	0,5	2	0,1	43	55	10
4	0,5	1	45	25	0,1	3	320	77	35
5	0,6	0,5	40	40	0,1	4	175	85	42
6	3,5	4,8	1	0,3	0,4	0,1	55	65	17
7	0,5	0,2	0,8	2	0,3	0,2	66	60	21
8	25	53	0,1	0,5	14	6	350	13	6
9	0,3	1	0,5	0,1	0,5	0,1	82	64	26
10	0,2	5	0,1	0,3	0,1	0,01	48	45	16
11	3	6	110	60	0,2	10	270	100	35
12	0,1	0,5	5	0,5	0,8	0,2	35	30	11
13	1	3	0,1	0,7	1	0,1	92	75	28
14	21	45	3	2	15	4	225	80	38
15	47	65	0,5	0,1	23	10	280	15	5
16	0,5	3	0,5	0,2	1	0,1	83	63	25
17	2	4	145	90	0,1	12	280	50	25
18	0,7	1	0,3	0,1	0,2	0,01	45	40	15
19	0,4	2	0,5	0,1	0,1	0,1	63	55	19
20	0,1	0,5	3	1	0,5	0,3	15	21	3
21	5	12	0,5	0,1	0,1	1	58	75	27
22	0,2	0,1	0,8	0,2	0,4	0,01	36	45	12
23	0,1	0,3	0,6	0,3	0,02	0,03	53	40	15
24	5	10	63	45	0,1	5	80	25	17
25	0,1	0,5	0,5	2	0,01	0,01	60	53	18
26	0,2	0,3	0,1	0,5	0,1	0,1	45	30	10
27	0,1	0,6	0,1	0,6	0,02	0,02	38	25	12
28	4	5	0,3	0,1	0,2	1	125	10	3
29	0,2	0,1	3	0,1	1	1	52	45	15
30	0,6	0,1	1	0,2	0,2	0,5	30	25	8
31	0,3	1	4	1	0,1	0,01	42	35	13
32	0,1	0,1	2	3	0,3	0,1	60	53	16
33	4	7	15	5	0,1	1	160	10	15
34	0,6	0,2	1	3	0,5	0,5	70	62	20
35	0,2	1	3	0,5	0,2	0,1	55	43	18
36	10	20	5	3	0,7	3	180	50	25

Требуется

1) выявить геохимические ассоциации элементов;

2) определить, относятся ли данные метасоматиты к рудоносным;

3) оценить уровень эрозионного среза рудной зоны;

4) на поисковом профиле определить наиболее перспективные участки для первоочередного бурения.

Решение

1. Для выполнения корреляционного анализа введите в диапазон A1:I37 рабочей книги Excel названия столбцов и исходные данные из табл. VII.1 по столбцам: A – Ag, B – Pb, C – Sn, D – As, E – Sb, F – Au, G – K, H – U, I – Th.

Затем в меню Сервис выберите пункт Анализ данных и далее укажите строку Корреляция. В появившемся диалоговом окне укажите Входной интервал A1:I37. Укажите, что данные рассматриваются по столбцам. Установите флажок в поле Метки в первой строке. Укажите выходной диапазон. Для этого поставьте флажок в левое поле Выходной интервал и в правое поле ввода Выходной интервал введите K2. Нажмите кнопку OK.

Результаты анализа. В выходном диапазоне получаем корреляционную матрицу. Подразумевается, что в пустых клетках в правой верхней половине таблицы находятся те же коэффициенты корреляции, что и в нижней левой (симметрично расположенные относительно диагонали).

Интерпретация результатов. По данным расчета матрицы видно, что максимальная корреляция между содержанием Sn и As – 0.9837, то есть существует практически линейная связь между их содержанием. Для более удобной интерпретации корреляционной матрицы скопируйте из каждого столбца данные друг за другом в столбец O, начиная с O14, в столбец N поместите соответствующие обозначения элементов из крайнего левого столбца матрицы, а в столбец M поместите обозначение соответствующего элемента из верхней строки матрицы. Отсортируйте диапазон M14:O58 по столбцу O в порядке убывания. Коэффициенты корреляции с 0,983719 по 0,754787 – высокие, с 0,640942 по 0,501725 – средние, с 0,485918 по 0,381287 – низкие, с 0,298283 и ниже – незначимые (см. табл. VII.2).

Таблица VII.2. Коэффициенты корреляции между элементами месторождения золота в порядке убывания

Ag	Ag	1
Pb	Pb	1
Sn	Sn	1
As	As	1
Sb	Sb	1
Au	Au	1
K	K	1
U	U	1
Th	Th	1
Sn	As	0,983719	Высокие
Ag	Pb	0,970995
Pb	Sb	0,932534
Ag	Sb	0,928558
U	Th	0,873059
Au	K	0,815275
Sn	Au	0,764751
As	Au	0,754787
Pb	K	0,640942	Средние
Ag	K	0,602096
Ag	Au	0,571473
Pb	Au	0,558501
Sb	K	0,54045
Sn	K	0,520355
As	K	0,501725
Sb	Au	0,485918	Низкие
As	Th	0,444563
Sn	Th	0,41351
K	Th	0,381287
As	U	0,298283	Незначимые
Sn	U	0,291818
Au	Th	0,26272
K	U	0,161386
Au	U	0,102603
Pb	Th	-0,05304
Pb	Sn	-0,06861
Ag	Sn	-0,07128
Pb	As	-0,07188
Ag	As	-0,07419
Sb	Th	-0,11928
Ag	Th	-0,11955
Sn	Sb	-0,1316
As	Sb	-0,13211
Sb	U	-0,18041
Pb	U	-0,18825
Ag	U	-0,23653

Связь между золотом (Au) и оловом (Sn) – 0,7647 – высокий коэффициент корреляции, связь между золотом (Au) и мышьяком (As) – 0,7547 – высокий коэффициент корреляции; связь между золотом (Au) и серебром (Ag) – 0,5714 – средний коэффициент корреляции, связь между золотом (Au) и свинцом (Pb) – 0,5585 – средний коэффициент корреляции, связь между золотом (Au) и сурьмой (Sb) – 0,4859 – низкий коэффициент корреляции. Связь между калием (K) и ураном (U) – 0,1613 – незначимый коэффициент корреляции, между калием (K) и торием (Th) – 0,3812 – низкий коэффициент корреляции, между ураном (U) и торием (Th) – 0,8730 – высокий коэффициент корреляции.

Таким образом, можно заключить, что месторождение является рудоносным и рассматриваемый срез относится к верхним горизонтам; для определения на поисковом профиле наиболее перспективных участков для первоочередного бурения следует рассмотреть связь между калием, ураном и торием, так как к перспективным объектам должны быть отнесены в первую очередь комплексные аномалии с характерными для месторождения ассоциациями элементов, пространственно совпадающие с участками проявления калиевого метасоматоза.

2. Скопируйте диапазон A1:B37 в диапазон A41:B77. В столбце C рассчитайте квадраты разностей для значений в столбцах A и B по формуле =(A42-B42)^2 для строки 42. Скопируйте эту формулу методом автозаполнения в диапазон С42:С77. В ячейке С78 найдите через автосумму для диапазона С42:С77 общую сумму. В ячейке С79 найдите квадратный корень из этой суммы по формуле =КОРЕНЬ(C78). Это евклидова метрика для пары Ag–Pb. Аналогично можно рассчитать евклидовы метрики для всех остальных пар и расположить их в общую матрицу наподобие корреляционной – матрицу евклидовых метрик. На основании этой матрицы евклидовых метрик можно позднее вручную построить дендрограмму по результатам расчета, а также выделить заданное число кластеров по построенной дендрограмме. Эту процедуру удобнее осуществить в пакете STATISTICA.

3. Создать в программе Statistica файл данных, используя табл. VII.1.

4. Провести корреляционный анализ всей выборки. Для этого в меню с основными процедурами Statistics выбрать Basic Statistics/Tables, а в появившемся его меню – Correlation matrices.

В появившемся диалоговом окне Product-Moment and Partial Correlations: нажать на вкладке Quick кнопку Summary: Correlation Matrix и в диалоговом окне Select one or two variable lists указать для First variable list: 1–9. Далее нажать OK. Результатом будет расчет коэффициентов корреляции – рис. VII.4. Коэффициенты, указывающие на наличие связи между элементами – выделены красным цветом.

Рис. VII.4. Расчет коэффициентов корреляции

5. Провести кластерный анализ для выделения ассоциаций химических элементов, используя графическую и табличную формы. Для этого в меню с основными процедурами Statistics выбрать Multivariate Exploratory Techniques, а в появившемся его меню – Cluster Analysis.

В появившемся диалоговом окне Clustering Method (см. рис. VII.5) выбрать Joining (tree clustering).

Рис. VII.5. Выбор метода кластеризации

В появившемся диалоговом окне Cluster Analysis: Joining (Tree Clustering): на вкладке Quick нажать кнопку Variables (рис. VII.6) и появившемся диалоговом окне Select variables for the analysis нажать кнопку Select All (рис. VII.7). Вернуться в диалоговое окно Cluster Analysis: Joining (Tree Clustering): и на вкладке Advanced, используя установленные по умолчанию Variables (columns) из раздела Cluster, Complete Linkage (одиночная связь (метод ближайшего соседа)) в разделе Amalgamation (linkage) rule и Euclidean distance (евклидова метрика) в разделе Distance measures, далее нажать кнопку OK (рис. VII.8). В появившемся диалоговом окне Joining Results: установлен по умолчанию флажок Rectangular branches (прямоугольные ветви), нажать кнопку Vertical icicle plot (рис. VII.9). На рис. VII.10 представлена получившаяся в результате дендрограмма. При очищенном переключателе Rectangular branches результатом будет дендрограмма, представленная на рис. VII.11.

Рис. VII.6. Диалоговое окно Cluster Analysis: Joining (Tree Clustering):

Рис. VII.7. Выбор переменных для кластерного анализа

Рис. VII.8. Выбор метода объединения и метрики

Рис. VII.9. Диалоговое окно Joining Results:

Рис. VII.10. Прямоугольная дендрограмма ассоциаций элементов

Рис. VII.11. Дендрограмма ассоциаций элементов

Вы можете масштабировать дендрограмму к стандартизированному масштабу dlink/dmax*100 переключателем. Когда выбираете этот переключатель, горизонтальная ось (или вертикальная ось для вертикальных графиков) будет масштабироваться в процентах, определенных, как dlink/dmax*100. Таким образом, это процент от диапазона от максимального до минимального расстояния в данных. Если этот переключатель очищен, то масштаб будет основан на предварительно выбранной мере расстояния.

Полученная дендрограмма позволяет выделить следующие ассоциации элементов: Au–Sb, Au–Sb–Ag, As–Sn, Au–Sb–Ag–As–Sn, Au–Sb–Ag–As–Sn–Th, Au–Sb–Ag–As–Sn–Th–U, Au–Sb–Ag–As–Sn–Th–U–K.

Вернуться в диалоговое окно Joining Results:, нажать кнопку Amalgamation schedule на вкладке Advanced. На рис. VII.12 представлена получившаяся в результате электронная таблица результатов. Amalgamation schedule перечисляет по строкам объекты (элементы), которые соединены вместе на соответствующих расстояниях (в крайнем левом столбце электронной таблицы).

Рис. VII.12. Результат выполнения Amalgamation schedule

Вернуться в диалоговое окно Joining Results:, нажать кнопку Graph of amalgamation schedule. На рис. VII.13 представлен получившийся в результате график. Этот график может быть очень полезен, предлагая сокращение дендрограммы. В дендрограмме все большие и большие кластеры формируются из большего и большего разнообразия в пределах кластера. Этот же график показывает ровное плато, и это означает, что кластеры были сформированы по существу на одном и том же расстоянии. Это расстояние может быть оптимально сокращено при решении вопроса о том, сколько оставить кластеров, чтобы интерпретировать результаты.

Рис. VII.13. Результат выполнения Graph of amalgamation schedule.

В диалоговом окне Joining Results: нажать кнопку Distance matrix. На рис. VII.14 представлена матрица дистанционных расстояний, рассчитанная на основе евклидовой метрики. Кнопка Descriptive Statistic диалогового окна Joining Results: выводит дескриптивную статистику – средние и стандартные отклонения для изменений (рис. VII.15). Кнопка Matrix диалогового окна Joining Results: выводит дистанционную матрицу и дескриптивную статистику (рис. VII.16). Сравните результат расчета коэффициентов дистанционной матрицы с получившимися в электронных таблицах Excel евклидовыми метриками для соответствующих пар элементов.

Рис. VII.14. Матрица дистанционных расстояний

Рис. VII.15. Дескриптивная статистика

Рис. VII.16. Результат выполнения Matrix

Итак, имеем 3 кластера: (Au–Sb–Ag–Pb), (As–Sn–Th–U) и (K).

6. Провести кластерный анализ для выделения ассоциаций химических элементов методом K-средних. Для этого в меню с основными процедурами Statistics выбрать Multivariate Exploratory Techniques, а в появившемся его меню – Cluster Analysis.

В появившемся диалоговом окне Clustering Method (см. рис. VII.17) выбрать K-means clustering.

Рис. VII.17. Выбор метода кластеризации

В появившемся диалоговом окне Cluster Analysis: K-means clustering: на вкладке Quick нажать кнопку Variables и появившемся диалоговом окне Select variables for the analysis нажать кнопку Select All. Вернуться в диалоговое окно Cluster Analysis: K-means clustering: и на вкладке Advanced, используя установленную по умолчанию в списке Cluster: строку Variables (columns), установить в разделе Number of clusters количество кластеров – 3 (рис. VII.18).

Рис. VII.18. Установка параметров Cluster Analysis: K-means clustering:

Раздел Initial cluster centers – выборы в этой группе управляют способом, которым вычисляются начальные центры кластера. По умолчанию в этом разделе установлен переключатель Sort distances and take observations at constant intervals. Если Вы выбираете этот переключатель, расстояния между всеми объектами будут сначала сортироваться и затем, выраженные в постоянных величинах, будет выбраны как начальные центры кластера.

Переключатель Choose observations to maximize initial between-cluster distances. Если Вы выбираете этот переключатель, наблюдения или объекты будут установлены как начальные центры кластера. (1) программа выберет первые номера кластеров случаев, чтобы быть соответствующими центрами кластера; (2) последующие случаи заменят предыдущие центры кластера, если их самое маленькое расстояние к любому из центров кластера больше, чем самое маленькое расстояние между кластерами; если дело обстоит не так, то (3) последующие случаи заменят начальные центры кластера, если их самое маленькое расстояние от центра кластера большее расстояние того центра кластера от любого другого центра кластера. Эффект этой процедуры выбора должен развернуть начальные расстояния между кластерами. Обратите внимание, что эта процедура может выдавать кластеры с единственными (отдельными) наблюдениями, если есть ясный outliers в данных.

Переключатель Choose the first N (Number of clusters) observations. Если Вы выбираете этот переключатель, первые номера кластеров наблюдений будут начальными центрами кластера. Таким образом, эта опция обеспечивает Вас полным контролем над выбором начальной конфигурации. Это часто полезно, если Вы приносите априорные ожидания относительно характера (природы) кластеров к анализу. В этом случае, переместите случаи, которые Вы хотите выбрать как начальные центры кластера, к началу файла.

Переключатели Casewise deletion of missing data или Mean substitution в разделе MD deletion, первый следует использовать, если в анализ следует включать только случаи, которые имеют для всех переменных все данные, второй следует использовать, когда отсутствующие данные будут заменены средствами для соответствующих переменных (для этого анализа только, но не для файла данных). По умолчанию стоит переключатель Casewise deletion of missing data.

Оставить установленные по умолчанию переключатели и далее, в диалоговом окне Cluster Analysis: K-means clustering: следует нажать кнопку OK.

В появившемся диалоговом окне K-Means clustering Results: нажать кнопку Summary: Clusters means & Euclidean distances (рис. VII.19). В результате расчета получим матрицу дистанционных коэффициентов между кластерами рассчитанных по евклидовым метрикам (см. рис. VII.20). Здесь же рассчитываются средние по всем измерениям для каждого кластера.

Рис. VII.19. Анализ в K-Means clustering Results:

Рис. VII.20. Матрица евклидовых метрик между кластерами

Вернуться в диалоговое окно K-Means clustering Results: и нажать кнопку Analysis of variance. Анализ вариант следует использовать, если следует сравнивать изменчивость в пределах группы (within) (малая, если классификация хорошая) с изменчивостью между группами (between) (большая, если классификация хорошая), то есть выполнить дисперсионный анализ между группами для каждого измерения (рис. VII.21). Можно просмотреть результаты дисперсионного анализа, сравнивая для каждого измерения результаты между группами.

Рис. VII.21. Результат дисперсионного анализа Analysis of variance

Вернуться в диалоговое окно K-Means clustering Results: и нажать кнопку Graph of means. Результатом будет график средних по кластерам (рис. VII.22).

Рис. VII.22. График средних по кластерам

Вернуться в диалоговое окно K-Means clustering Results: и нажать кнопку Descriptive statistics for each cluster на вкладке Advanced. Результатом будет вывод крупноформатных таблиц описательной статистики для каждого измерения по кластерам (рис. VII.23).

Рис. VII.23. Дескриптивная статистика для третьего кластера

Вернуться в диалоговое окно K-Means clustering Results: и нажать кнопку Members of each cluster & distances. Результатом будет расчет евклидовых расстояний от центров кластеров для каждого элемента входящего в кластер (рис. VII.24). Это позволяет идентифицировать потенциальных «плохих» членов кластера.

Рис. VII.24. Евклидовы расстояния для каждого кластера

Вернуться в диалоговое окно K-Means clustering Results: и нажать кнопку Save classifications and distances. Результатом будет краткая электронная таблица содержащая: порядковые номера элементов (1 столбец), номер кластера, в который входит элемент (2 столбец) и евклидовы метрики для каждого элемента от соответствующего центра кластера (3 столбец) – рис. VII.25.

Рис. VII.25. Результат выполнения Save classifications and distances

7. Провести факторный анализ для выделения ассоциаций химических элементов. Для этого в меню с основными процедурами Statistics выбрать Multivariate Exploratory Techniques, а в появившемся его меню – Factor Analysis.

В появившемся диалоговом окне Factor Analysis: (см. рис. VII.26) на вкладке Quick нажать кнопку Variables и появившемся диалоговом окне Select the variables for the factor analysis нажать кнопку Select All (рис. VII.27). Вернуться в диалоговое окно Factor Analysis: и нажать кнопку OK (рис. VII.28).

Рис. VII.26. Диалоговое окно Factor Analysis:

Рис. VII.27. Выбор переменных для факторного анализа

Рис. VII.28. Диалоговое окно Factor Analysis: с выбранными переменными

Появится окно Define Method of Factor Extraction:, где выбираем на вкладке Descriptives (рис. VII.29) кнопку Review correlations, means, standard deviations. В диалоговом окне Review descriptive statistics (рис. VII.30) нажимаем кнопку Correlations. Результатом расчета будет корреляционная матрица (рис. VII.31). Она аналогична матрице, полученной в разделе корреляционного анализа и представленной на рис. VII.4.

Рис. VII.29. Диалоговое окно Define Method of Factor Extraction:

Рис. VII.30. Диалоговое окно Review descriptive statistics

Рис. VII.31. Корреляционная матрица

В диалоговом окне Review descriptive statistics нажимаем кнопку Cancel и возвращаемся в диалоговое окно Define Method of Factor Extraction:, где выбираем на вкладке Advanced в разделе Extraction method установленный по умолчанию метод Principal Components (метод главных компонент или факторов). В разделе Max no. of factors установить число 9 – максимальное число факторов в нашем случае, в разделе Mini. eigenvalue: 0 – минимальное значение для этой опции (рис. VII.32). Нажать кнопку OK. Открывается диалоговое окно Factor Analysis Results:, в котором выбирается вкладка Quick, где нажимается кнопка Eigenvalues (собственные значения) (рис. VII.33). Результатом расчета будет таблица Eigenvalues (частей от общего числа факторов, в данном случае – части от девяти), которая содержит следующие столбцы: собственные значения (Eigenvalues), проценты от полной величины (% Total variance), кумулятивных собственных значений (Cumulative Eigenvalues), и кумулятивного процента (Cumulative %) (рис. VII.34). Первые три фактора дают наибольший вклад в процентном отношении. Основываясь на таблице Eigenvalues, можно предложить рассматривать только эти три фактора.

Рис. VII.32. Выбор параметров в диалоговом окне Define Method of Factor Extraction:

Рис. VII.33. Расчет Explained variance в диалоговом окне Factor Analysis Results:

Рис. VII.34. Расчетная таблица Eigenvalues

В диалоговом окне Factor Analysis Results: выбрать вкладку Explained variance, где нажать кнопку Scree plot. Результатом будет график, основанный на тесте Каттелла (рис. VII.35), иллюстрирующий первый столбец таблицы Eigenvalues. Основанный на методе Монте-Карло, Cattell's scree test предлагает, что в точке, где непрерывное падение Eigenvalues выравнивается, предлагается сокращение остальных дополнительных факторов, так как только случайный «шум» добавляется дополнительными факторами. В нашем примере, эта точка может быть для фактора 3 или фактора 4. Поэтому нужно попробовать оба решения и рассмотреть тот, который выдаст наиболее поддающееся толкованию решение.

Теперь исследуем факторные нагрузки. Сначала следует рассмотреть невращаемые факторные нагрузки для всех 9 факторов. В диалоговом окне Factor Analysis Results: выбрать вкладку Loadings и в разделе Factor rotation: выбрать установленное по умолчанию – Unrotated. Обратите внимание, что считается, что факторы со значением нагрузки более 0,70 – факторы с высокой нагрузкой. Затем нажать на кнопку Summary (рис. VII.36). Результатом расчета будет таблица факторных нагрузок отсортированных так, чтобы последующие факторы составляли все меньшее и меньшее количество разницы (рис. VII.37). Не удивительно видеть, что первый фактор показывает большинство самых высоких нагрузок.

Рис. VII.35. График Scree plot

Рис. VII.36. Выбор Unrotated в диалоговом окне Factor Analysis Results: на вкладке Loadings в разделе Factor rotation:

Рис. VII.37. Таблица факторных нагрузок по методу Unrotated для 10 факторов

Фактическая ориентация факторов в пространстве факториала произвольна и все вращения факторов в пространстве воспроизведут корреляции одинаково хорошо. Поэтому предложено вращать факторы таким образом, чтобы выдать такую структуру фактора, что ее проще интерпретировать. Такая простая структура и была определена Thurstone (1947), чтобы в основном описать состояние, когда факторы отмечены высокими нагрузками для некоторых переменных, низкими нагрузками для других, и когда есть немного высоких перекрестных нагрузок, то есть немного переменных с существенными нагрузками на больше, чем один фактор. Популярный стандартный вычислительный метода вращения, чтобы получить простую структуру – VARIMAX вращение (Kaiser, 1958); Другие, которые были предложены - QUARTIMAX, BIQUARTIMAX, и EQUAMAX (см. Harman, 1967) – все они осуществлены в STATISTICA.

Сначала рассмотрим число факторов, которое хотим вращать. Было предварительно решено, что три фактора являются наиболее влиятельными, но по результатам рассмотрения графика на рис. VII.35 было решено рассматривать четыре фактора. Нажать кнопку Cancel, чтобы возвратиться в окно Define Method of Factor Extraction:, где выбрать вкладку Quick. Установить в разделе Max no. of factors число 4 – число факторов в рассматриваемом случае, в разделе Mini. eigenvalue: 0 – минимальное значение для этой опции (рис. VII.38).

Рис. VII.38. Установка нового числа факторов в Max no. of factors

Нажать кнопку OK. Открывается диалоговое окно Factor Analysis Results:, в котором выбрать вкладку Loadings, и в списке Factor rotation: выбрать Varimax raw (рис. VII.39). Затем нажать на кнопку Summary. Результатом расчета будет таблица Factor Loadings (факторных нагрузок) – см. рис. VII.40. Получится вращаемое решение с четырьмя факторами. Четвертый фактор не дает больших нагрузок. Повторить решение для трех факторов. Результатом расчета будет таблица Factor Loadings (факторных нагрузок) – см. рис. VII.41. Первый фактор показывает большинство самых высоких нагрузок. Для золота (Au) большую нагрузку показывает второй фактор – около 0,82 и достаточно большую – первый фактор – около 0,55. Фактор 1 связан с Ag, Pb и Sb, фактор 2 – с Sn, As и Au, фактор 3 – с U и Th. С K, кажется, связан и фактор 1 и фактор 2: фактор 1 – нагрузка 0,66, фактор 2 – 0,57.

Рис. VII.39. Выбор Varimax raw в диалоговом окне Factor Analysis Results: на вкладке Loadings в разделе Factor rotation:

Рис. VII.40. Таблица факторных нагрузок по методу Varimax для 4 факторов

Рис. VII.41. Таблица факторных нагрузок по методу Varimax для 3 факторов

Щелкнуть в диалоговом окне Factor Analysis Results: на вкладке Loadings кнопкой Plot of loadings, 2D. Откроется диалоговое окно Select two factors for the plot, в котором выберем Factor 1 и Factor 2 (рис. VII.42). Нажать OK. Результатом будет плоский график нагрузок (рис. VII.43). Аналогично построить график нагрузок для Factor 1 и Factor 3 (рис. VII.44). В диалоговом окне Factor Analysis Results: на вкладке Loadings щелкнем кнопкой Plot of loadings, 3D. Результатом будет трехмерный график нагрузок (рис. VII.45).

Рис. VII.42. Диалоговое окно Select two factors for the plot

Рис. VII.43. График нагрузок Plot of loadings, 2D для факторов 1 и 2

Рис. VII.44. График нагрузок Plot of loadings, 2D для факторов 1 и 3

Рис. VII.45. График нагрузок Plot of loadings, 3D для факторов 1, 2 и 3

Графики (рис. VII.43 – VII.45) просто показывают нагрузки для каждой переменной и хорошо иллюстрируют корреляционную матрицу, например, по рис. VII.43 видно, что ассоциированы мышьяк (As) и олово (Sn); серебро (Ag), сурьма (Sb) и свинец (Pb); уран (U) и торий (Th). Фактор 2 – фактор с высокими нагрузками на Au – «рудный» и фактор 3 связан с околорудным метасоматозом. Обратите внимание на нагрузки факторов, для того, чтобы определить, в какой мере данная закономерность характеризует изучаемый объект.

Щелкнуть в диалоговом окне Factor Analysis Results: на вкладке Explained variance кнопкой Reproduced/residual corrs. (рис. VII.46), чтобы получить две матрицы – корреляции и остаточной корреляции (рис. VII.47).

Рис. VII.46. Диалоговое окно Factor Analysis Results: вкладке Explained

Таблица остаточных корреляций может интерпретироваться как «количество» корреляции, которое не может быть объяснено решением с тремя факторами. Диагональные элементы в матрице содержат стандартное отклонение, которое является равным квадратному корню из единицы минус соответствующие общности для двух факторов (общности переменной – разница, которую можно объяснять соответствующим числом факторов). Если рассмотреть тщательно эту матрицу, можно видеть, что нет фактически никаких остаточных корреляций, которые являются большими, чем 0,1, или меньше чем –0,1. Добавить к этому факт, что первые три фактора объясняли почти 95 % полной разницы (см. совокупный % Eigenvalues показанный в таблице Eigenvalues на рис. VII.34). Очень низкие общности для одной или двух переменных (из всех в анализе) могут указывать, что эти переменные плохо объясняются соответствующей моделью фактора.

Рис. VII.47. Таблица остаточных корреляций

Щелкнуть в диалоговом окне Factor Analysis Results: на вкладке Explained variance кнопкой Communalities (рис. VII.46), чтобы получить таблицу общностей для текущего решения, то есть текущего числа факторов (рис. VII.48).

Рис. VII.48. Таблица общностей

Щелкнуть в диалогом окне Factor Analysis Results: на вкладке Scores кнопкой Factor scores coefficients, чтобы получить таблицу со значениями каждого фактора элементов (рис. VII.49). Эти коэффициенты представляют веса, которые используются когда вычисляется зависимость фактора от переменных.

Щелкнуть в диалогом окне Factor Analysis Results: на вкладке Scores кнопкой Factor scores, чтобы получить таблицу со значениями каждого фактора в точках наблюдения (рис. VII.50). Обратите внимание, в каких точках наблюдения значения рудного фактора наибольшие: 4 – 6, 11, 17, 19, 21, 24. Фактор околорудного метасоматоза – 1, 4, 8, 13 – 15, 20, 21, 24, 26 – 28, 31, 33 – 34, 36. Общие: 4, 21, 24.

Рис. VII.49. Таблица Factor scores coefficients

Рис. VII.50. Таблица Factor scores

В таблице Factor scores выделить «рудный» фактор» – 2 и фактор околорудного метасоматоза – 3. Затем выбрать процедуру графического анализа в контекстном меню Graphs of Block Data\Line Plots: Entire Columns. На полученном графике указать места, где максимально проявлены факторы рудного метасоматоза (рис. VII.51).

Рис. VII.51. Результат выполнения процедуры в контекстном меню Graphs of Block Data\Line Plots: Entire Columns.

8. Сделать окончательные выводы о геохимических ассоциациях элементов и прогнозной значимости объекта.

Сравнить результаты корреляционного, кластерного и факторного анализов, их отличия, связанные с возможностями каждого анализа, и общие черты, позволяющие дать взвешенное заключение о закономерных связях между изучаемыми признаками.

ОБЛАСТЬ ПРИМЕНЕНИЯ МНОГОМЕРНЫХ СТАТИСТИЧЕСКИХ МОДЕЛЕЙ В ГЕОЛОГИИ

Возможности применения многомерных статистических моделей для изучения взаимозависимостей комплексов самых различных геологических признаков практически не ограничены для любой отрасли геологии. В палеонтологии они используются для статистического описания морфологических признаков ископаемых форм организмов и сопоставления их групп с литолого-фациальными разрезами осадочных пород, с целью оценки достоверности их стратиграфического положения (или установления групп руководящих ископаемых). Корреляционные методы парагенетического анализа химических элементов и минералов находят широкое применение в геохимии и минералогии. Различные методы многомерного описания самых различных физических свойств, химического и минерального состава осадочных и магматических пород используются в литологии и петрографии для разделения их по фациальным или формационным признакам или для оценок их перспектив на выявление самых различных полезных ископаемых. С каждым годом все шире используются методы «распознавания образов» рудоносных территорий или месторождении полезных ископаемых, основанные на статистических описаниях сочетаний благоприятных элементов геологического строения, влияющих на концентрации полезных ископаемых. В настоящее время алгоритмы «распознавания образов», использующие самые различные статистические, логические и эвристические многомерные модели, реализуются в человеко-машинных информационно-прогнозирующих системах, на шедших широкое применение в геологоразведочной отрасли.

Многомерные статистические описания связей геологических переменных с последующими оценками степени их взаимозависимостей используются в геологической практике с целью идентификации (отождествления), дискриминации (разделения), классификации (группирования) изучаемых объектов или в поисках наиболее информативных комбинаций признаков для решения прогнозных задач.

Задачи идентификации геологических объектов, например, оценки коллекторских свойств или газоносности пород по совокупности скважинно-геофизических характеристик, обычно выполняются с помощью моделей множественной регрессии.

В целях дискриминации геологических объектов на два заранее заданных класса, например, разделение кимберлитовых пород на алмазоносный и неалмазоносный типы, по данным их силикатных анализов может быть использована модель линейной дискриминантной функции.

Классификация геологических объектов, например, иерархическое группирование парагенетических ассоциаций элементов метасоматически измененных пород или руд по данным их полных химических анализов производится с помощью кластер-анализа, других методов многомерного корреляционного анализа или метода факторного анализа.

Конечной целью большинства многомерных статистических методов является предсказание (прогнозирование) тех или иных свойств изучаемых геологических объектов.

Прогнозирование свойств геологических объектов, чаще всего выявление перспектив их рудоносности или оценка вероятных масштабов оруденения проводится с помощью алгоритмов «распознавания образов».

В зависимости от характера исходных данных и целей геологических исследований для составления этих алгоритмов используются самые различные многомерные модели. При этом, как правило, возникает проблема поиска наиболее информативных сочетаний признаков и сокращения размерности их пространства, что достигается с помощью метода главных компонент, R-метода факторного анализа или других логических и эвристических методов.

Возможности использования многомерных статистических моделей для целей решения геологических задач изучены в настоящее время далеко не полностью и несомненно имеют большое будущее.

ЛАБОРАТОРНАЯ РАБОТА № VIII. МНОГОМЕРНЫЕ СТАТИСТИЧЕСКИЕ МОДЕЛИ. ЗАДАЧИ РАСПОЗНАВАНИЯ ОБРАЗОВ В ГЕОЛОГИИ

Многие прогнозные и интерпретационные задачи решаются в практической геологии путем сопоставления комплекса признаков изучаемого объекта с комплексом тех же признаков эталонного объекта. Совокупность подобных методов, основанных на принципе аналогии, получила название методов распознавания образов.

Модели распознавания образов геологических объектов весьма разнообразны. При решении конкретных геологических задач их выбор зависит от природы геологических объектов, числа, полноты описания эталонных объектов, типов и информативности их признаков. В зависимости от типов исходных признаков выделяют две группы моделей: дискретные и непрерывные.

Дискретные модели применяются в тех случаях, когда измеряемые признаки рассматриваются как независимые или частично зависимые детерминированные величины.

Непрерывные модели используются для распознавания образов таких объектов, измеряемые признаки которых могут рассматриваться как случайные величины и поддаются статистическому описанию многомерными функциями плотностей вероятности.

В качестве критериев оптимальности распознавания используются решающие правила, определяющие пороговые значения решающих функций. Они могут определяться статистическими, логическими или эвристическими * методами.

При использовании любых алгоритмов распознавания следует стремиться к построениям решающих функций как можно более простых видов, поскольку они легче поддаются реализации и обеспечивают более устойчивые решения, особенно при малых выборках обучения.

Линейная дискриминантная функция для трех переменных имеет вид

. (VIII.1)

Коэффициенты a₁, a₂ и a₃ находятся из системы уравнений

(VIII.2)

Величины d₁, d₂ и d₃ представляют собой разности оценок средних значений признаков по выборкам A и B.

(VIII.3)

Если обозначить номер строки как i, а столбца как j, то величины s_ij можно записать в форме матрицы:

. (VIII.4)

Значения s_ij соответствуют элементам ковариационной матрицы признаков X, Y, Z и вычисляются, как суммы квадратов отклонений или суммы смешанных произведений отклонений:

Приведенные выше выражения для удобства расчетов могут быть заменены на эквивалентные выражения для сумм квадратов вида

, (VIII.5)

и для сумм смешанных произведения вида

, (VIII.6)

где n_A и n_B – объем выборки для объекта A и B.

После вычисления коэффициентов a₁, a₂ и a₃, необходимо вычислить значение функции D₀, относительно которого можно сделать вывод о принадлежности нового неизвестного объекта к тому или иному классу (свите)

. (VIII.6)

В Excel для вычисления ковариации используется процедура Ковариация. Процедура позволяет получить ковариационную матрицу, содержащую коэффициенты ковариации между различными параметрами.

Для реализации процедуры необходимо:

выполнить команду Сервис/Анализ данных;
в появившемся списке Инструменты анализа выбрать строку Ковариация и нажать кнопку OK;
в появившемся диалоговом окне указать Входной интервал, то есть ввести ссылку на ячейки, содержащие анализируемые данные. Для этого следует навести указатель мыши на левую верхнюю ячейку данных, нажать левую кнопку мыши и, не отпуская ее, протянуть указатель мыши к правой нижней ячейке, содержащей анализируемые данные, затем отпустить левую кнопку мыши. Входной интервал должен содержать не менее двух столбцов.
в разделе Группировка переключатель установить в соответствии с введенными данными;
указать выходной диапазон, то есть ввести ссылку на ячейки, в которые будут выведены результаты анализа. Для этого следует поставить флажок в левое поле Выходной интервал (навести указатель мыши и щелкнуть левой кнопкой), далее навести указатель мыши на правое поле ввода Выходной интервал и щелкнуть левой кнопкой мыши, затем указатель мыши навести на левую верхнюю ячейку выходного диапазона и щелкнуть левой кнопкой мыши. Размер выходного диапазона будет определен автоматически, и на экран будет выведено сообщение в случае возможного наложения выходного диапазона на исходные данные.
нажать кнопку OK.

Результаты анализа. В выходной диапазон будет выведена ковариационная матрица, в которой на пересечении каждых строки и столбца находится коэффициент ковариации между соответствующими параметрами.

Отметим, что хотя в результате будет получена треугольная матрица, ковариационная матрица симметрична, и коэффициенты ковариации s_ij = s_ji.

ПРИМЕР VIII.1

При геологическом картировании района, в строении которого принимают участие вулканогенно-осадочные породы, выделены две свиты близкого петрографического состава, но занимающие различное стратиграфическое положение. Взаимоотношение свит надежно устанавливается в отдельных «ключевых» участках; в остальной части района обнаружение пород данного состава и облика не позволяет однозначно отнести их к той или иной свите.

Предполагается, что, несмотря на свое визуальное сходство, породы данных свит несколько различаются по содержаниям отдельных породообразующих оксидов и характеру их взаимосвязи. Для установления этих отличий в ключевых участках проведено определение концентраций оксидов в отдельных пробах. В табл. VIII.1 данные опробования верхней свиты обозначены индексом A, а данные нижней свиты – индексом B.

Кроме ключевых участков определение содержаний породообразующих оксидов в сходных породах выполнено по отдельным искусственным обнажениям и скальным выходам в различных частях района, отделенных друг от друга тектоническими нарушениями, площадями с мощным покровом рыхлых отложений, в связи с чем определение их стратиграфического положения затруднено. Данные их изучения приведены в табл. VIII.2.

Требуется

На основе данных о составе свит вычислить уравнение дискриминантной функции и определить принадлежность к каждой из свит пород аналогичного состава.

Указание

Дискриминантную функцию предлагается рассчитать по сочетанию трех признаков из табл. VIII.1 (Na₂O, K₂O, TiO₂), используя данные первых пятнадцати строк. Содержание породообразующих оксидов в сходных породах из табл. VIII.2 предлагается взять также для сочетания трех признаков (Na₂O, K₂O, TiO₂), используя данные первой строки.

Решение

В ячейках A1, B1, C1, F1, G1 и H1 следует разместить обозначения породообразующих оксидов Na₂O, K₂O, TiO₂ так как это показано на рис. VIII.1. Соответственно в столбцах A, B, C, F, G и H – разместить данные первых пятнадцати строк табл. VIII.1 для этих породообразующих оксидов Na₂O, K₂O, TiO₂. В ячейках A17, B17, C17, F17, G17 и H17 следует рассчитать средние значения по каждому породообразующему оксиду. В ячейку A18 ввести формулу =СЧЁТ(A2:A16), а в ячейку F18 – формулу =СЧЁТ(F2:F16) для определения числа измерений концентраций по каждой из свит.

Таблица VIII.1 Данные анализов вулканогенно-осадочных пород верхней (А) и нижней (В) свит – содержания (в %) породообразующих оксидов

№	Na₂O	K₂O	TiO₂	MgO	CaO	FeO	Na₂O	K₂O	TiO₂	MgO	CaO	FeO
№	A						B
1	2,37	3,39	1,45	3,72	5,82	4,18	4,49	3,72	1,68	3,95	6,68	5,22
2	4,44	2,64	1,10	3,14	4,68	3,56	4,13	3,55	1,56	4,38	6,20	5,60
3	3,20	2,50	1,14	2,83	4,83	3,50	4,00	3,21	1,37	3,34	5,55	4,52
4	3,71	3,68	1,22	4,15	5,62	3,59	3,48	2,93	1,22	3,94	4,72	3,81
5	5,02	3,00	0,98	3,32	4,75	2,97	3,15	2,32	0,87	3,87	3,20	3,31
6	4,40	3,47	0,83	4,06	4,83	3,00	2,79	2,28	0,92	4,18	3,81	2,62
7	4,72	2,81	1,15	3,22	4,55	3,60	3,08	2,47	1,10	5,17	4,82	3,95
8	3,81	3,07	1,09	3,45	5,31	3,21	3,37	2,96	1,15	4,21	4,31	3,37
9	2,22	3,42	1,22	3,97	5,86	3,62	3,65	2,79	1,03	3,20	4,01	3,00
10	3,58	3,05	1,38	3,49	5,49	4,02	3,84	3,34	1,32	3,92	5,02	4,51
11	3,75	2,73	1,33	3,04	5,12	4,38	3,61	2,52	1,17	3,81	4,95	4,04
12	3,84	3,14	1,48	3,32	5,30	4,31	3,96	2,24	1,45	4,09	5,92	5,07
13	3,80	3,80	1,11	4,95	5,92	3,60	3,78	3,07	1,31	3,23	4,45	3,32
14	3,80	3,15	1,22	3,73	5,32	4,00	3,36	2,49	0,73	3,80	3,14	2,27
15	3,48	3,09	1,34	3,58	5,58	4,11	4,01	2,52	1,53	3,84	5,82	4,78
16	3,42	3,13	1,45	3,48	5,43	4,40	4,40	4,14	1,82	2,38	6,92	4,90
17	3,38	3,58	1,63	4,22	5,80	5,35	4,82	3,87	1,55	3,27	6,40	5,51
18	3,56	2,67	1,72	3,12	5,13	4,50	4,21	3,42	1,48	4,00	6,08	4,63
19	4,12	4,12	1,22	4,31	5,75	3,91	4,16	3,18	1,30	3,50	5,01	4,12
20	4,58	3,27	0,75	3,52	5,40	3,10	3,17	3,41	1,52	4,08	6,12	4,72
21	4,20	3,11	0,72	3,58	5,03	2,62	3,56	2,75	1,12	3,79	4,20	3,00
22	4,38	2,16	0,81	2,38	4,48	3,30	2,97	2,16	0,64	3,38	2,92	2,93
23	3,87	2,70	1,06	3,52	5,02	3,57	2,62	2,33	0,68	4,89	2,70	1,65
24	3,28	3,20	1,10	3,66	5,61	3,65	2,37	1,75	0,85	4,22	3,10	3,40
25	2,87	3,21	1,55	3,83	5,72	4,73	2,90	2,04	0,93	4,17	4,05	3,12
26	2,84	3,39	1,22	3,72	5,79	4,21	3,00	2,61	1,25	3,52	5,40	4,65
27	3,23	2,86	1,77	3,02	5,22	5,54	3,61	2,97	1,34	3,98	4,70	3,30
28	3,72	3,35	1,14	4,21	5,39	4,18	4,12	3,31	1,50	3,40	6,03	5,10
29	4,39	3,76	0,63	3,98	5,90	3,32	4,88	3,82	1,72	3,06	6,52	4,50
30	3,71	2,92	0,58	3,01	5,24	3,38	4,31	3,22	1,41	3,38	5,90	5,30

Таблица VIII.2 Содержания (в %) породообразующих оксидов

№	Na₂O	K₂O	TiO₂	MgO	CaO	FeO
1	3,60	2,92	1,26	4,51	5,15	4,26
2	3,62	3,10	1,20	3,12	4,83	3,75
3	3,20	3,51	1,46	3,75	5,66	4,31
4	3,98	3,16	1,38	3,56	5,60	4,30
5	3,54	2,95	1,32	4,40	5,03	4,10
6	3,00	3,71	1,52	4,21	6,02	4,72
7	4,31	3,00	0,87	3,36	5,16	3,56
8	4,43	3,30	0,73	3,72	5,21	3,52
9	3,31	2,42	1,01	3,85	4,12	3,20
10	3,09	2,27	0,96	4,53	3,61	2,01

Для построения ковариационной матрицы верхней свиты A в меню Сервис выберите пункт Анализ данных и далее укажите строку Ковариация. В появившемся диалоговом окне укажите Входной интервал A1:C16. Укажите, что данные рассматриваются по столбцам. Установите флажок в поле Метки в первой строке. Укажите выходной диапазон. Для этого поставьте флажок в левое поле Выходной интервал и в правое поле ввода Выходной интервал введите А20. Нажмите кнопку OK.

Для построения ковариационной матрицы верхней свиты B в меню Сервис выберите пункт Анализ данных и далее укажите строку Ковариация. В появившемся диалоговом окне укажите Входной интервал F1:H16. Укажите, что данные рассматриваются по столбцам. Установите флажок в поле Метки в первой строке. Укажите выходной диапазон. Для этого поставьте флажок в левое поле Выходной интервал и в правое поле ввода Выходной интервал введите F20. Нажмите кнопку OK.

В выходных диапазонах получаем ковариационные матрицы. Подразумевается, что в пустых клетках в правой верхней половине таблицы находятся те же коэффициенты ковариации, что и в нижней левой (симметрично расположенные относительно диагонали). Заполните пустые ячейки верхних половин таблицы так, как показано на рис. VIII.1.

Рис. VIII.1. Расчет дискриминантной функции в документе Excel

В диапазон B25:D27 введите табличную формулу {=B21:D23*A18+G21:I23*F18} для расчета выборочной матрицы.

В ячейку F25 введите формулу =A17-F17, в ячейку F26 – формулу =B17-G17, в ячейку F27 – формулу =C17-H17 для вычисления разностей оценок средних d₁, d₂ и d₃ каждого признака по форм. (VIII.3)

В диапазон I25:I27 введите табличную формулу {=МУМНОЖ(МОБР(B25:D27);F25:F27)} для расчета значений коэффициентов a₁, a₂ и a₃ по форм. (VIII.2)

Таким образом, уравнение линейной дискриминантной функции в этом случае будет иметь вид D = 0,005 x + 0,074 y – 0,073 z – по форм. (VIII.1)

Далее необходимо вычислить по форм. (VIII.6) значение функции D₀, относительно которого можно сделать вывод о принадлежности нового неизвестного объекта к тому или иному классу (свите).

В ячейку I28 введите формулу =1/2*(I25*(A17+F17)+I26*(B17+G17)+I27*(C17+H17)), результат равен 0,149.

Породы сходного облика, данные опробования которых приведены в табл. VIII.2, могут быть отнесены к верхней свите (объект класса A), если вычисленное для них значение дискриминантной функции D больше D₀, в противном случае они должны относиться к нижней свите.

В диапазоне B30:D30 (рис. VIII.1) следует разместить данные первой строки табл. VIII.2 для сочетания трех признаков (Na₂O, K₂O, TiO₂). В ячейке I30 – ввести формулу =I25*B30+I26*C30+I27*D30. Результат равен 0,141 и, следовательно, он может быть отнесен к нижней свите (объект класса В).

ЗАДАЧА VIII.1

Требуется

Используя условия предыдущего ПРИМЕРА VIII.1, рассчитать по форм. (VIII.5) и (VIII.6) элементы матрицы (VIII.4).

Указание

Сначала вычислите следующие данные:

Затем по форм. (VIII.5) и (VIII.6) вычислите элементы матрицы:

;

В результате получите выборочную матрицу

ЗАДАЧА VIII.2

Дискриминантную функцию предлагается рассчитывать по сочетанию любых трех признаков из табл. VIII.1. Расчеты могут проводиться по выборкам сокращенного объема (15 – 20 значений).

ЛАБОРАТОРНАЯ РАБОТА № IX. МОДЕЛИРОВАНИЕ ПРОСТРАНСТВЕННЫХ ПЕРЕМЕННЫХ. АППРОКСИМАЦИЯ ПОВЕРХНОСТЕЙ ТРЕНДА ПОЛИНОМАМИ

При изучении строения земной коры геолога интересуют не только средние характеристики изменчивости и взаимосвязи наблюдаемых значений свойств горных пород, минеральных ассоциаций или полезных ископаемых, но также закономерности их пространственных изменений в исследуемых объемах недр. Статистические модели для этих целей непригодны, поскольку любой статистический показатель отражает лишь средний уровень изменчивости изучаемого свойства, независимо от пространственного размещения точек наблюдений, в то время, как закономерности их пространственного размещения могут оказаться принципиально различными.

К тому же, статистические характеристики обеспечивают объективные оценки уровня наблюдаемой изменчивости признака только в тех случаях, когда выборочные данные представляют собой совокупность независимых случайных величин. Для оценок реальных погрешностей изменчивости корреляционно связанных исходных данных требуется введение поправок за связь.

Для целей математического моделирования закономерностей пространственного размещения изучаемых свойств геологических образований их признаки рассматриваются не как случайные величины, а как пространственные переменные, обладающие рядом специфических характеристик: мерностью, областями существования и воздействия (определения).

Их совокупности образуют поля пространственных переменных, в пределах которых положение каждой переменной определяется координатами пространства.

Геометрические и аналитические методы моделирования геологических, геохимических, геофизических и других полей пространственных переменных способствуют объективному выделению и количественному описанию тенденций, наблюдаемых в изменении свойств исследуемых объектов, а в ряде случаев позволяют выявлять новые, ранее неизвестные закономерности. Для целей моделирования при этом используются результаты геологического картирования, геохимических и шлиховых съемок, геофизических наблюдений, геологоразведочных работ и т.д.

Пространственные закономерности изменения гранулометрического и минерального составов терригенных отложений позволяют yстановить направление сноса обломочного материала и восстановить палеогеографическую обстановку периода формирования толщ осадочных пород. По изменениям концентрации различных минералов выявляется зональность интрузивных массивов и месторождений полезных ископаемых. Пространственные закономерности изменения геофизических полей широко используются при геологическом картировании и поисках полезных ископаемых. Выявление закономерностей в изменении параметров рудных тел на ранних стадиях изучения позволяет более обоснованно оценивать не затронутые геологической разведкой фланги и глубокие горизонты месторождений, а также способствует правильному выбору размеров сети наблюдений при продолжении геологоразведочных работ. Математическое моделировавшие геохимических и геофизических полей позволяет более надежно выявлять аномалии, перспективные на обнаружение месторождений полезных ископаемых.

С помощью моделирования дискретных геологических полей устанавливаются закономерности расположения месторождений и рудопроявлений определенного генетического типа относительно интрузий, тектонических нарушений или других элементов геологического строения.

ГЕОЛОГИЧЕСКИЕ ОБЪЕКТЫ, КАК ПОЛЯ ПРОСТРАНСТВЕННЫХ ПЕРЕМЕННЫХ

Полем пространственной переменной называется область пространства, каждой точке которого поставлено в соответствие некоторое значение изучаемой переменной. В качестве геологического поля может рассматриваться область пространства, при этом каждому элементу последнего соответствует определенное значение изучаемого геологического признака.

В зависимости от природы моделируемых признаков различают геофизические, геохимические, минералогические, морфометрические и другие геологические поля, которые по размерности изучаемого пространства подразделяются на одномерные, двумерные, трехмерные и многомерные.

Непрерывные и дискретные геологические пространственные переменные. По характеру распространения (областям существования) и земной коре геологические пространственные переменные разделяются на непрерывные и дискретные.

Непрерывные пространственные переменные выражают свойства горных пород, минеральных ассоциаций или полезных ископаемых, проявленные в любой точке поля, то есть на всей площади (во всем объеме) исследуемого блока земной коры или геологического тела. К числу этих переменных относятся концентрации химических элементов в горных породах, их физические свойства, мощность изучаемых геологических тел и многие другие свойства пород и руд.

К числу дискретных пространственных переменных относятся пространственно ограниченные геологические образования, области существования (размеры) которых пренебрежимо малы по сравнению с исследуемыми площадями или объемами недр. Они представлены геологическими телами специфического состава (например, отдельными разновидностями пород), месторождениями полезных ископаемых, вкрапленниками отдельных минералов или минеральных агрегатов в породах и др.

Скалярные и векторные поля. По признакам мерности пространственных переменных различают скалярные и векторные геологические поля. Большинство обычно изучаемых геологических переменных относится к скалярным величинам, для задания которых достаточно знать их модуль и знак. Совокупности этих переменных образуют скалярные геологические поля.

Реже в геологической практике используются векторные пространственные переменные, для задания которых в каждой точке пространства необходимо знать не только модуль, но и направление переменной. Векторные случайные поля могут моделироваться как векторы, ориентированные в реальном дву- или трехмерном пространстве (например, магнитные поля) или как комплексы различных скалярных переменных (например, по содержанию нескольких химических элементов в каждой точке). Многие скалярные поля могут быть преобразованы в векторные, если изучать не исходные величины, а их производные, то есть градиенты геологических полей.

ФОН, АНОМАЛИИ И ПОВЕРХНОСТЬ ТРЕНДА

Наиболее распространенной моделью непрерывного скалярного геологического поля является модель аддитивного случайного поля, когда на плоскости с координатами x и y задаются значения непрерывной скалярной переменной , значения которой используются для описания аддитивного скалярного поля , где – функция координат; ε – случайная переменная.

В задачу моделирования поля входит оценка функции f(x,y) в известных предположениях относительно ε и описание случайной части ε при некоторых предположениях относительно f(x,y). Главной задачей изучения пространственных закономерностей является описание неслучайной (закономерной) компоненты поля, отражающей уровень его значений, характерный для отдельных частей изучаемой территории.

Неслучайная компонента, характеризующая основную часть моделируемого геологического поля, называется его фоном. Фоновая часть поля выявляет область относительно повышенных или пониженных значений изучаемого признака и несет в себе полезную геологическую информацию о природе изучаемого геологического объекта. Для выделения фона необходима генерализация основных свойств поля с подавлением более или менее существенных частных отклонений. В каждом конкретном случае отклонения от фона рассматриваются как аномальные.

Методы выделения фоновой части геологического поля с разделением неслучайной и случайной составляющих изучаемых признаков по эмпирическим данным получили название анализа поверхностей тренда.

В геологической практике для целей тренд-анализа используют два разных методических подхода: 1) сглаживание исходных данных скользящими статистическими окнами; 2) аппроксимация полей единой функцией пространственных координат (ортогональными полиномами и др.). Методы скользящих средних более универсальны и обеспечивают лучшие оценки средних параметров пространственно ограниченных участков геологических полей по сравнению с методам полиномиального тренд-анализа исходных данных, которые используются преимущественно для выявления региональных геологических закономерностей.

Относительный характер закономерной и случайной составляющих наблюдаемой изменчивости признаков оказывает заметное влияние на результаты тренд-анализа геологических полей. В связи с этим в зависимости от масштабов, целей, задач и условий исследований под их фонами могут подразумеваться поверхности тренда различной степени плавности, а под аномалиями – любые отклонения от фона, превышающие заданный условный уровень.

Выделение региональных закономерностей путем аппроксимации эмпирических данных функцией координат пространства связано с довольно сложными вычислениями, обычно требующими применения ЭВМ. В качестве аппроксимирующих функций используются ортогональные полиномы различных степеней, уравнение Лапласа, тригонометрические полиномы и др.

Ортогональные полиномы обычно применяются в случае равномерной прямоугольной сети наблюдений. При этом тренд определяется как линейная функция географических координат, построенная по совокупности наблюдений таким образом, что сумма квадратов отклонений значений признака от плоскости тренда минимальна. Такая модель представляет собой вариант статистического метода множественной регрессии, в котором функция , описывающая поверхность тренда, рассматривается как (гдеx и y – координаты пространства; β₀, β₁ и β₂ – полиномиальные коэффициенты). Для оценки трех указанных коэффициентов используются уравнения

;

; (IX.1)

;

где п – число точек наблюдения; u – значения признака в точках наблюдений; x и y – координаты точек наблюдений.

Для решения уравнений они записываются в матричной форме:

(IX.2)

и решаются относительно β₀, β₁ и β₂. Такой метод нахождения оценок биномодальных коэффициентов называется методом наименьших квадратов.

ПРИМЕР IX.1

В качестве примера рассмотрим определение плоскости тренда отметок подошвы меловых отложений, экранирующих нефтяную толщу (по Дж. Дэвису). Условные координаты площади и абсолютные отметки подошвы меловых отложений приведены в табл. IX.1.

Требуется

Произвести аппроксимацию поверхностей тренда полиномами и анализ остатков.

Таблица IX.1. Координаты скважин, абсолютные отметки подошвы меловых отложений

№ п/п	Координаты		Абс. отметка u, м
№ п/п	x, км	y, км	Абс. отметка u, м
1	10	17	–665
2	21	89	–613
3	33	38	–586
4	35	20	–440
5	47	58	–544
6	60	18	–343
7	65	74	–455
8	82	93	–437
9	89	60	–354
10	97	15	–142

Решение

В ячейку A1 ввести обозначение x, в ячейку B1 ввести обозначение x^2, в ячейку C1 – обозначение y, в ячейку D1 – обозначение y^2, в ячейку E1 – обозначение x*y, в ячейку F1 – обозначение u, в ячейку G1 – обозначение x*u, в ячейку H1 – обозначение y*u. Диапазон A2:A11 заполнить значениями координат скважин x из табл. IX.1, диапазон C2:C11 заполнить значениями координат скважин y из табл. IX.1, диапазон F2:F11 заполнить значениями абсолютных отметок подошвы меловых отложений u из табл. IX.1. В диапазоне B2:B11 рассчитать соответствующие квадраты координат скважин x, в диапазоне D2:D11 рассчитать соответствующие квадраты координат скважин y, в диапазоне E2:E11 рассчитать соответствующие произведения координат x и y, в диапазоне G2:G11 рассчитать соответствующие произведения координаты x и значения абсолютных отметок подошвы меловых отложений u, в диапазоне H2:H11 рассчитать соответствующие произведения координаты y и значения абсолютных отметок подошвы меловых отложений u. В строке 12, используя кнопку Автосумма на панели инструментов Стандартная, рассчитать суммы по столбцам =СУММ(A2:A11) – Σx, =СУММ(B2:B11) – Σx², =СУММ(C2:C11) – Σy, =СУММ(D2:D11) – Σy², =СУММ(E2:E11) – Σ(x*y), =СУММ(F2:F11) – Σu, =СУММ(G2:G11) – Σ(x*u), =СУММ(H2:H11) – Σ(y*u). В ячейке A13 рассчитать по формуле =СЧЁТ(A2:A11) число точек наблюдения n. Таким образом, для построения плоскости тренда вычисляются:

В диапазоне B16:D18 составить матрицу системы уравнений (IX.1): в ячейку B16 записать формулу =A13, в ячейку C16 – формулу =A12, в ячейку D16 – формулу =C12, в ячейку B17 – формулу =A12, в ячейку C17 – формулу =B12, в ячейку D17 – формулу =E12, в ячейку B18 – формулу =C12, в ячейку C18 – формулу =E12, в ячейку D18 – формулу =D12. В диапазоне F16:F18 составить вектор свободных членов системы уравнений (IX.1): в ячейку F16 записать формулу =F12, в ячейку F17 – формулу =G12, в ячейку F18 – формулу =H12.

Эти значения записывают систему уравнений (IX.1) в матричной форме (IX.2):

Для матричных операций в Excel предусмотрены функции, входящие в категорию «Математические»:

МОПРЕД – вычисление определителя матрицы;

МОБР – вычисление обратной матрицы;

МУМНОЖ – перемножение матриц.

Первая из этих функций возвращает число, поэтому вводится как обычная формула. Остальные функции возвращают блок ячеек, поэтому они должны вводиться как табличные формулы. Первая буква «М» в названии трех функций – сокращение от слова «матрица».

В ячейке A17 вычисляется определитель матрицы системы =МОПРЕД(B16:D18), который отличен от нуля и равен 656509376.

В блок B20:D22 ввести формулу для вычисления обратной матрицы. Для этого выделить блок B20:D22 (он имеет три строки и три столбца, как и исходная матрица). Ввести формулу {=МОБР(B16:D18)}. Даже если Вы используете Мастер функций, нужно завершить ввод нажатием комбинации клавиш Ctrl+Shift+Enter (вместо щелчка по кнопке OK). Если Вы забыли предварительно выделить блок B16:D18, а ввели формулу в ячейку B20 как обычную формулу Excel (закончив ввод нажатием Enter), то не нужно вводить ее заново: выделите B16:D18, нажмите клавишу F2 (редактирование), но не изменяйте формулу, просто нажмите Ctrl+Shift+Enter.

В блок F20:F22 ввести для вычисления коэффициентов β₀, β₁ и β₂ формулу {=МУМНОЖ(B20:D22;F16:F18)}, то есть после решения матричного уравнения получить: β₀= –621,04; β₁ = 4,78; β₂ = –1,96. Подставляя эти значения в уравнение , можно вычислить значения отметок плоскости тренда ( ) для каждой скважины и разности , характеризующие составляющие случайной изменчивости гипсометрической поверхности.

Уравнение функция от двух координат (условных координат площади) описывает поверхность отметки подошвы меловых отложений. Пусть необходимо построить эту поверхность, лежащую в диапазонах: [0; 100], [0; 100] с шагом Δ = 10 для обеих переменных.

Ввести значения переменной х в столбец A. Для этого в ячейку А26 ввести символ х. В ячейку А27 вводится первое значение аргумента – левая граница диапазона (0). В ячейку A28 вводится второе значение аргумента – левая граница диапазона плюс шаг построения (10). Затем, выделив блок ячеек А27:А28, автозаполнением получить все значения аргумента (за правый нижний угол блока протянуть до ячейки А37).

Значения переменной y вводим в строку 26. Для этого в ячейку В26 вводится первое значение переменной – левая граница диапазона (0). В ячейку С26 вводится второе значение переменной – левая граница диапазона плюс шаг построения (10). Затем, выделив блок ячеек В26:С26, автозаполнением получить все значения аргумента (за правый нижний угол блока протягиваем до ячейки L26).

Далее ввести значения переменной . Для этого табличный курсор необходимо поместить в ячейку В27 и записать формулу =$F$20+$F$21*$A27+$F$22*B$26. Обращаем внимание, что символы $ предназначены для фиксации адреса столбца А – переменной х и строки 26 – переменной у. Кроме того, символы $ предназначены для фиксации адресов коэффициентов β₀– $F$20, β₁ – $F$21 и β₂ – $F$22. Нажать кнопку ОK. Теперь необходимо скопировать функцию из ячейки В27. Для этого автозаполнением (протягиванием вправо) эту формула копируется вначале в диапазон B27:L27, после чего (протягиванием вниз) – в диапазон B28:L37.

Для построения диаграммы необходимо выделить диапазон A26:L37 и на панели инструментов Стандартная необходимо нажать кнопку Мастер диаграмм. В появившемся диалоговом окне Мастер диаграмм (шаг 1 из 4): тип диаграммы указать тип диаграммы – Поверхность, и вид – Контурная диаграмма (левую нижнюю диаграмму в правом окне). После чего нажимаем кнопку Далее в диалоговом окне.

В появившемся диалоговом окне Мастер диаграмм (шаг 2 из 4): источник данных диаграммы необходимо выбрать вкладку Диапазон данных и убедиться, что в поле Диапазон указан правильно интервал данных $A$26:$L$37.

Далее необходимо указать в строках или столбцах расположены ряды данных. Это определит ориентацию осей х и у. В примере переключатель Ряды в с помощью указателя мыши установить положение в столбцах.

Выбрать вкладку Ряд и в поле Подписи оси Х проверить диапазон подписей оси х – $A$27:$A$37.

Проверить также значения подписей оси у. Для этого в рабочем поле Ряд указать первую запись 0 и в рабочее поле Имя, активизировав его указателем мыши, проверить первое значение переменной у – $B$26. Затем в поле Ряд указать вторую запись 10 и в рабочем поле Имя увидим второе значение переменной у – $С$26, в поле Подписи оси Х проверить диапазон подписей оси х – $A$27:$A$37 Повторить, таким образом, до последней записи – 100. После необходимо нажать кнопку Далее.

В третьем окне требуется ввести заголовок диаграммы и названия осей. Для этого необходимо выбрать вкладку Заголовки, щелкнув на ней указателем мыши. Щелкнув в рабочем поле Название диаграммы указателем мыши, ввести с клавиатуры в поле название: Карта отметок подошвы меловых отложений. Затем аналогичным образом ввести в рабочие поля Ось Х (категорий), Ось Y (рядов данных) и Ось Z (значений) соответствующие названия X, км, Y, км, Абсолютные отметки, м. Далее следует нажать кнопку Готово, и после небольшого редактирования будет получена диаграмма (см. рис. IX.1) изолиний плоскости тренда.

Оценка степени приближения плотности тренда к наблюденным результатам, то есть средняя изменчивость их отклонений может быть охарактеризована величиной SS_DD = SS_T – SS_R,

где .

Процент учета общей изменчивости плоскостью тренда осуществляется по формуле .

В ячейку I1 ввести обозначение u', в ячейку J1 ввести обозначение u^2, в ячейку K1 – обозначение u'^2. Диапазон I2:I11 заполнить значениями отметок подошвы меловых отложений, рассчитанными по формуле тренда: в ячейку I2 ввести формулу =$F$20+$F$21*A2+$F$22*C2, которую скопировать во весь диапазон I2:I11. В ячейку J2 ввести формулу =F2^2, которую скопировать во весь диапазон J2:J11. В ячейку K2 ввести формулу =I2^2, которую скопировать во весь диапазон K2:K11. В ячейках диапазона I12:K12 рассчитать с помощью кнопки Автосумма панели инструментов Стандартная соответствующие суммы по столбцам. В ячейку J14 ввести обозначение SST, в ячейку J15 ввести обозначение SSR, ячейку J16 ввести обозначение SSDD, ячейку J17 ввести обозначение K^2. В ячейку K14 ввести формулу =J12-(F12^2/A13), в ячейку K15 ввести формулу =K12-(I12^2/A13), в ячейку K16 ввести формулу =K14-K15, в ячейку K17 ввести формулу =K15/K14 и установить формат числа в процентах (кнопка Процентный формат на панели инструментов Форматирование).

Таким образом, плоскость тренда учитывает 90% общей изменчивости:

Рис. IX.1. Карта отметок подошвы меловых отложений в северо-восточной Африке: поверхность тренда первого порядка

Примечание

В приведенном ПРИМЕРЕ IX.1 задача аппроксимации поверхности тренда удовлетворительно решается с применением ортогональных полиномов первой степени. В случаях, когда доля случайной изменчивости остается все же достаточно большей после аппроксимации линейными функциями, для выявления закономерной изменчивости более высокого порядка применяются полиномы второй, третьей и реже – более высоких степеней.

Поверхность тренда второго порядка будет описываться уравнением , а число неизвестных полиномиальных коэффициентов увеличится до пяти. Для перехода к уравнению следующего более высокого порядка каждая географическая координата возводится в заданную степень и добавляются соответствующие смешанные произведения.

Выбор степени аппроксимирующего полинома и оценка значимости выявленных закономерностей могут осуществляться с помощью дисперсионного анализа. Для этого подсчитываются средние квадраты отклонений эмпирических значений исследуемого признака в точках замера от среднего арифметического и от аппроксимирующих поверхностей разного порядка, а также средние квадраты отклонений от среднего арифметического самих аппроксимирующих поверхностей. Значимость закономерностей, описываемых полиномами определенного порядка, проверяется с помощью критерия Фишера.

В геологической практике региональные закономерности обычно удовлетворительно описываются полиномами не выше третьей степени.

Аппроксимация тригонометрическими полиномами позволяет описывать закономерные периодические колебания свойств геологических объектов.

Из всех возможных аппроксимирующих функций выбирается та, которая точнее описывает имеющиеся данные и содержит наименьшее число параметров. Однако вид такой функции нельзя предсказать заранее, что существенно затрудняет практическое использование данных моделей. Аппроксимирующие функции координат пространства как модели геологических объектов имеют и некоторые другие недостатки:

допускают существование нереальных значений изучаемых переменных, например, отрицательных значений содержания химических элементов в породах или мощностей рудных тел;
не учитывают резких, скачкообразных изменений значений изучаемого свойства по геологическим границам, вследствие чего при моделировании рудных тел высокие содержания полезного компонента иногда распространяются на заведомо безрудные породы, например, на пострудные дайки;
непригодны при использовании их для описания прерывистых объектов (например, рудных тел с прерывистым характером оруденения), так как происходит сглаживание исходных данных и искажается представление о степени прерывистости (увеличивается коэффициент рудоносности).

Выделение аномальных значений изучаемого свойства имеет в геологии большое практическое значение, так как с «аномалиями» часто связаны тела полезных ископаемых и другие наиболее интересные геологические объекты.

ЗАДАЧА IX.1

Требуется

Построить схему расположения пробуренных скважин – рис. VIII.2.

Указание

Использовать кнопку Мастер диаграмм панели инструментов Стандартная, выбрав тип диаграммы – Точечная.

Рис. IX.2. Карта отметок подошвы меловых отложений в северо-восточной Африке: расположение скважин с замерами абсолютных отметок подошвы меловых отложений

ПРИМЕР IX.2

Требуется

По исходным данным ПРИМЕРА IX.1 и табл. IX.1. произвести аппроксимацию поверхностей тренда полиномом в пакете Excel с помощью функции ЛИНЕЙН или с помощью процедуры Регрессия из пакета анализа данных.

Решение

Задача нахождения полиномиальных коэффициентов функции , описывающей поверхность тренда, может быть решена проще с помощью функции Excel ЛИНЕЙН или с помощью процедуры Регрессия из пакета анализа данных.

В ячейку A1 ввести обозначение x, в ячейку B1 ввести обозначение y, в ячейку C1 – обозначение u. Диапазон A2:A11 заполнить значениями координат скважин x, диапазон B2:B11 заполнить значениями координат скважин y, диапазон C2:C11 заполнить значениями абсолютных отметок подошвы меловых отложений u из табл. IX.1.

При использовании функции ЛИНЕЙН в свободный диапазон G2:I6 ввести табличную формулу {=ЛИНЕЙН(C2:C11;A2:B11;1;1)}. Первая строка полученного массива данных – это и есть соответствующие полиномиальные коэффициенты: в ячейке I2 – β₀, в ячейке H2 – β₁ и в ячейке G2 – β₂. Ячейка G4 полученного массива данных содержит коэффициент детерминации R², который равен 0,900. Следовательно, модель в целом адекватна описываемому явлению.

Построение диаграммы поверхности тренда можно осуществить аналогично тому, как это сделано в ПРИМЕРЕ IX.1.

При использовании процедуры Регрессия из пакета анализа данных в пункте меню Сервис выберите строку Анализ данных и далее укажите курсором мыши на строку Регрессия.

В появившемся диалоговом окне задайте Входной интервал Y. Для этого наведите указатель мыши на верхнюю ячейку столбца зависимых данных (C1), нажмите левую кнопку мыши и, не отпуская ее, протяните указатель мыши к нижней ячейке (C11), затем отпустите левую кнопку мыши. (Обратите внимание, что зависимые данные – это те данные, которые предполагается вычислять). Так же укажите Входной интервал X, то есть введите ссылку на диапазон независимых данных A1:B11. (Независимые данные – это те данные, которые будут измеряться или наблюдаться).

Установите флажок в поле Метки в первой строке. Установите флажок в поле График подбора. Далее укажите выходной диапазон. Для этого поставьте переключатель в положение Выходной интервал (наведите указатель мыши и щелкните левой кнопкой), затем наведите указатель мыши на правое поле ввода Выходной интервал и, щелкнув левой кнопкой мыши, указатель мыши наведите на левую верхнюю ячейку выходного диапазона (A31). Щелкните левой кнопкой мыши. Нажмите кнопку OK.

Результаты анализа. В выходном диапазоне появятся результаты и графики подбора и остатков.

Интерпретация результатов. В таблице Дисперсионный анализ оценивается общее качество полученной модели ее достоверность по уровню значимости критерия Фишера – р, который должен быть меньше, чем 0,05 (строка Регрессия, столбец Значимость F, в примере 0,0003, то есть p =0,0003 – модель значима, и степень точности описания моделью процесса – R-квадрат (вторая строка сверху в таблице Регрессионная статистика, в примере R-квадрат = 0,900. Следовательно, модель в целом адекватна описываемому явлению.

Далее необходимо определить значения коэффициентов модели. Они определяются из таблицы в столбце Коэффициенты – в строке Y-пересечение приводится свободный член, в строках соответствующих переменных приводятся значения коэффициентов при этих переменных. В столбце p-значение приводится достоверность отличия соответствующих коэффициентов от нуля. В случаях, когда р > 0,05, коэффициент может считаться нулевым. Это означает, что соответствующая независимая переменная практически не влияет на зависимую переменную и коэффициент может быть убран из уравнения. Все рассчитанные коэффициенты значимы.

Таким образом, функция , описывающая поверхность тренда, может быть записана как .

ЗАДАЧА IX.2

Требуется

Указание

Поверхность тренда второго порядка будет описываться уравнением , а число неизвестных полиномиальных коэффициентов увеличится до пяти.

Диапазон A2:A11 заполнить значениями координат скважин x, диапазон B2:B11 заполнить значениями квадратов координат скважин x², диапазон C2:C11 заполнить значениями координат скважин y, диапазон D2:D11 заполнить значениями координат скважин y², диапазон E2:E11 заполнить произведениями значений координат скважин xy, диапазон F2:F11 заполнить значениями абсолютных отметок подошвы меловых отложений u из табл. IX.1.

Диаграмма изолиний плоскости тренда второго порядка – см. рис. IX.3.

Исходные данные для построения этой диаграммы можно разместить следующим образом – рис. IX.4.

Рис. IX.3. Карта отметок подошвы меловых отложений в северо-восточной Африке: поверхность тренда второго порядка

Рис. IX.4. Размещение исходных на рабочем листе для построения диаграммы рисунка IX.3

ОБЛАСТИ ПРИМЕНЕНИЯ ГОРНО-ГЕОМЕТРИЧЕСКИХ В МОДЕЛЕЙ И ТРЕНД-АНАЛИЗА В ГЕОЛОГИИ

Большинство геологических задач относится к числу пространственных исследований и имеет цель выявить особенности размещения изучаемых геологических объектов в структурах земной коры или элементов ее строения. Поэтому методы количественного описания и математического моделирования пространственных геологических закономерностей являются ведущими во всех отраслях геологических наук.

В геологической практике издавна исключительно широко распространены методы горно-геометрического моделирования геологических тел и свойств горных пород и полезных ископаемых.

Графические модели различных свойств природных геологических тел широко используются в структурной геологии, геологии полезных ископаемых, рудничной геологии и методике поисков и разведки полезных ископаемых. Методы горно-геометрического моделирования изучаются в курсе геометризации недр. На принципах П.К. Соболевского были разработаны различные аналитические методы описания изменчивости, использующие для этих целей первые или вторые последовательные разности значений показателей изменчивости по смежным пунктам наблюдений.

С помощью горно-геометрических моделей можно выразить особенности пространственной изменчивости свойств геологических образований, установить значение изучаемого свойства в любой точке исследуемого объекта, получить представление об его морфологии и внутреннем строении.

Гипсометрические планы поверхностей контактов, не выходящих на поверхность интрузивных тел и рудных залежей, графики изолиний содержаний полезных компонентов в рудных телах, карты геохимических и геофизических полей широко используются в геологической практике, так как они обеспечивают наглядность изображения и улучшают пространственное восприятие изучаемых закономерностей. Однако требование непрерывности и плавности изменения изучаемого свойства ограничивает область их практического применения объектами с весьма выдержанными в пространстве свойствами. К таким объектам относятся пласты осадочных пород, границы интрузивных образований, рудные тела с простой морфологией и относительно равномерным характером оруденения и т.п.

ЛАБОРАТОРНАЯ РАБОТА № X. ОПТИМИЗАЦИЯ

ОСНОВНЫЕ ПОНЯТИЯ

Под оптимизацией понимают процесс выбора наилучшего варианта из всех возможных. С точки зрения инженерных расчетов методы оптимизации позволяют выбрать наилучший вариант конструкции, наилучшее распределение ресурсов и т.п.

В процессе решения задачи оптимизации обычно необходимо найти оптимальные значения некоторых параметров, определяющих данную задачу. При решении инженерных задач их принято называть проектными параметрами, а в экономических задачах их обычно называют параметрами плана. В качестве проектных параметров могут быть, в частности, значения линейных размеров объекта, массы, температуры и т.п. Число п проектных параметров x₁, x₂, ..., x_n характеризует размерность (и степень сложности) задачи оптимизации.

Выбор оптимального решения или сравнение двух альтернативных решений проводится с помощью некоторой зависимой величины (функции), определяемой проектными параметрами. Эта величина называется целевой функцией (или критерием качества). В процессе решения задачи оптимизации должны быть найдены такие значения проектных параметров, при которых целевая функция имеет минимум (или максимум). Таким образом, целевая функция – это глобальный критерий оптимальности в математических моделях, с помощью которых описываются инженерные или экономические задачи.

Целевую функцию можно записать в виде

u = f(x₁, x₂, ..., x_n). (X.1)

Примерами целевой функции, встречающимися в инженерных и экономических расчетах, являются прочность или масса конструкции, мощность установки, объем выпуска продукции, стоимость перевозок грузов, прибыль и т.п.

В случае одного проектною параметра (n = 1) целевая, функция (X.1) является функцией одной переменной, и ее график – некоторая кривая на плоскости. При п = 2 целевая функция является функцией двух переменных, и ее графиком является поверхность.

Следует отметить, что целевая функция не всегда может быть представлена в виде формулы. Иногда она может принимать только некоторые дискретные значения, задаваться в виде таблицы и т.п. Во всех случаях она должна быть однозначной функцией проектных параметров.

Целевых функций может быть несколько. Например, при проектировании изделий машиностроения одновременно требуется обеспечить максимальную надежность, минимальную материалоемкость, максимальный полезный объем (пли грузоподъемность). Некоторые целевые функции могут оказаться несовместимыми. В таких случаях необходимо вводить приоритет той или иной целевой функции.

ЗАДАЧИ ОПТИМИЗАЦИИ

Можно выделить два типа задач оптимизации – безусловные и условные. Безусловная задача оптимизации состоит в отыскании максимума или минимума действительной функции (X.1) от п действительных переменных и определении соответствующих значений аргументов на некотором множестве σ n-мерного пространства. Обычно рассматриваются задачи минимизации; к ним легко сводятся и задачи на поиск максимума путем замены знака целевой функции на противоположный.

Условные задачи оптимизации, или задачи с ограничениями, – это такие, при формулировке которых задаются некоторые условия (ограничения) на множестве σ. Эти ограничения задаются совокупностью некоторых функций, удовлетворяющих уравнениям или неравенствам.

Ограничения-равенства выражают зависимость между проектными параметрами, которая должна учитываться при нахождении решения. Эти ограничения отражают законы природы, наличие ресурсов, финансовые требования и т.п.

В результате ограничений область проектирования σ, определяемая всеми п проектными параметрами, может быть существенно уменьшена в соответствии с физической сущностью задачи. Число m ограничений-равенств может быть произвольным. Их можно записать в виде

g₁(x₁, x₂, ..., x_n) = 0,

g₂(x₁, x₂, ..., x_n) = 0, (X.2)

……………………

g_m(x₁, x₂, ..., x_n) = 0.

В ряде случаев из этих соотношений можно выразить одни проектные параметры через другие. Это позволяет исключить некоторые параметры из процесса оптимизации, что приводит к уменьшению размерности задачи и облегчает ее решение. Аналогично могут вводиться также ограничения-неравенства имеющие вид

a₁ ≤ φ₁(x₁, x₂, ..., x_n) ≤ b₁,

a₂ ≤ φ₂(x₁, x₂, ..., x_n) ≤ b₂, (X.3)

…………………………

a_k ≤ φ_k(x₁, x₂, ..., x_n) ≤ b_k.

Следует отметить особенность в отыскании решения при наличии ограничений. Оптимальное решение здесь может соответствовать либо локальному экстремуму (максимуму или минимуму) внутри области проектирования, либо значению целевой функции на границе области. Если же ограничения отсутствуют, то ищется оптимальное решение на всей области проектирования, то есть глобальный экстремум.

Теория и методы решения задач оптимизации при наличии ограничений составляют предмет исследования одного из важных разделов прикладной математики — математического программирования.

ОДНОМЕРНАЯ ОПТИМИЗАЦИЯ. ЗАДАЧИ НА ЭКСТРЕМУМ

Одномерная задача оптимизации в общем случае формулируется следующим образом. Найти наименьшее (пли наибольшее) значение целевой функции y = f(x), заданной на множестве σ, и определить значение проектного параметра , при котором целевая функция принимает экстремальное значение. Существование решения поставленной задачи вытекает из следующей теоремы.

Теорема Вейерштрасса. Всякая функция f(x), непрерывная на отрезке [a, b], принимает на этом отрезке наименьшее и наибольшее значения, то есть на отрезке [a, b] существуют такие точки x₁ и x₂, что для любого имеют место неравенства

f(x₁) ≤ f(x) ≤ f(x₂).

Эта теорема не доказывает единственности решения. Не исключена возможность, когда равные экстремальные значения достигаются сразу в нескольких точках данного отрезка. В частности, такая ситуация имеет место для периодической функции, рассматриваемой на отрезке, содержащем несколько периодов.

Будем рассматривать методы оптимизации для разных классов целевых функций. Простейшим из них является случай дифференцируемой функции f(x) на отрезке [a, b], причем функция задана в виде аналитической зависимости y=f(x), и может быть найдено явное выражение для ее производной f'(x). Нахождение экстремумов таких функций можно проводить известными из курса высшей математики методами дифференциального исчисления. Напомним вкратце этот путь.

Функция f(x) может достигать своего наименьшего и наибольшего значений либо в граничных точках отрезка [a, b], либо в точках минимума и максимума. Последние точки обязательно должны быть критическими, то есть производная f'(x) в этих точках обращается в нуль, — это необходимое условие экстремума. Следовательно, для определения наименьшего или наибольшего значений функции f(x) на отрезке [a, b] нужно вычислить ее значения во всех критических точках данного отрезка и в его граничных точках и сравнить полученные значения; наименьшее или наибольшее из них и будет искомым значением.

МНОГОМЕРНЫЕ ЗАДАЧИ ОПТИМИЗАЦИИ

Выше мы рассмотрели одномерные задачи оптимизации, в которых целевая функция зависит лишь от одного аргумента. Однако в большинстве реальных задач оптимизации, представляющих практический интерес, целевая функция зависит от многих проектных параметров. Например, минимум дифференцируемой функции многих переменных u = f(x₁, x₂, ..., x_n) можно найти, исследуя ее значения в критических точках, которые определяются из решения системы дифференциальных уравнений

ЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ

В случае, когда оптимизируемая целевая функция и ограничения линейны, задача оптимизации решается методами линейного программирования и обычно называется задачей линейного программирования.

Процесс решения задачи линейного программирования обычно состоит из ряда этапов:

1-й этап: осмысление задачи, выделение наиболее важных качеств, свойств, величин, параметров. Это можно делать, составляя схемы, таблицы, графики и т.п.;
2-й этап: введение обозначений (неизвестных). Желательно ограничиваться как можно меньшим количеством неизвестных, выражая по возможности одни величины через другие;
3-й этап: создание целевой функции. Обычно в качестве цели могут выступать максимальная стоимость всего объема продукции, максимальная прибыль, минимальные затраты и т.п. Целевая функция записывается в виде(X.1);
4-й этап: составление системы ограничений, которым должны удовлетворять введенные величины (X.2) или (X.3);
5-й этап: решение задачи на компьютере.

Инструментом для поиска решений задач оптимизации в Excel служит процедура Поиск решения (Сервис/Поиск решения). При этом открывается диалоговое окно Поиск решения. Оно содержит следующие рабочие поля:

Установить целевую ячейку – служит для указания целевой ячейки, значение которой необходимо максимизировать, минимизировать или установить равным заданному числу. Эта ячейка должна содержать формулу;
Равной – служит для выбора варианта оптимизации значения целевой ячейки (максимизация, минимизация или подбор заданного числа). Чтобы установить число, необходимо ввести его в поле;
Изменяя ячейки – служит для указания ячеек, значения которых изменяются в процессе поиска решения до тех пор, пока не будут выполнены наложенные ограничения и условие оптимизации значения ячейки, указанной в поле Установить целевую ячейку;
Предположить – используется для автоматического поиска ячеек, влияющих на формулу, ссылка на которую дана в поле Установить целевую ячейку. Результат поиска отображается в поле Изменяя ячейки;
Ограничения – служит для отображения списка граничных условий поставленной задачи;
Добавить – используется для отображения диалогового окна Добавить ограничение;
Изменить – применяется для отображения диалогового окна Изменить ограничение;
Удалить – служит для снятия указанного ограничения;
Выполнить – используется для запуска поиска решения поставленной задачи;
Закрыть – служит для выхода из окна диалога без запуска поиска решения поставленной задачи. При этом сохраняются установки, сделанные в окнах диалога, появлявшихся после нажатий на кнопки Параметры, Добавить, Изменить или Удалить;
Параметры – применяется для отображения диалогового окна Параметры поиска решения, в котором можно загрузить или сохранить оптимизируемую модель и указать предусмотренные варианты поиска решения;
Восстановить – служит для очистки полей окна диалога и восстановления значений параметров поиска решения, используемых по умолчанию.

ПРИМЕР X.1

Требуется

На нефтяных месторождениях 1 и 2 поисково-разведочными работами готовятся запасы промышленных категорий X₁ и X₂ (в млн. т.). Необходимо отыскать значения запасов, приводящие к максимуму стоимости сырья (в тыс. долларов), которое возможно получить на двух месторождениях. В математическом виде – найти максимум прикладной линейной функции Z

при ограничениях:

– объемы работ по экологической реабилитации площади работ;

– стоимость геофизических работ;

– стоимость геохимических работ;

Указание

Обозначим: X₁ – запасы месторождения 1, X₂ – запасы месторождения 2. Значения запасов, приводящие к максимуму стоимости сырья (в тыс. долларов), которое возможно получить на двух месторождениях значения запасов, приводящие к максимуму стоимость сырья (в тыс. долларов), которое возможно получить на двух месторождениях . Функция, для которой ищется экстремум (максимум или минимум), носит название целевой функции. Беспредельному увеличению запасов препятствуют ограничения: – объемы работ по экологической реабилитации площади работ; – стоимость геофизических работ; – стоимость геохимических работ. Кроме того, запасы – неотрицательное число, поэтому .

Формально задача оптимизации записывается так:

Решение

Решим эту задачу в Excel.

Введите в ячейки A1, A2, A4:A8 рабочего листа текст. В ячейки B1, B2, A4:A8 введите нули (рис. X.1).

Рис. X.1. Размещение исходных данных задачи в документе Excel

В ячейку B4 введите формулу =50*B1+40*B2. Это целевая функция. В ячейку B6 введите формулу =2*B1+5*B2. В ячейку B7 введите формулу =8*B1+5*B2. В ячейку B8 введите формулу =5*B1+6*B2. Это ограничения.

Выделим ячейку B4, в которой вычисляется целевая функция, и вызовем Решатель (Сервис/Поиск решения). В диалоговом окне в поле ввода Установить целевую ячейку: уже содержится адрес ячейки с целевой функцией $B$4. Установим переключатель: Равной максимальному значению. Перейдем к полю ввода Изменяя ячейки:. В нашем случае достаточно щелкнуть кнопку Предположить и в поле ввода появится адрес блока $B$1:$B$2.

Перейдем к вводу ограничений. Щелкнем кнопку Добавить. Появится диалоговое окно Добавление ограничения. В поле ввода Ссылка на ячейку: укажите $B$6. Правее расположен выпадающий список с условными операторами (раскройте его и посмотрите). Выберем условие <=. В поле ввода Ограничение: введите число 20. У нас есть еще два ограничения, поэтому, не выходя из этого диалогового окна, щелкните кнопку Добавить и введите ограничение $B$7<=40. Аналогично добавить ограничение $B$8<=30. Ввод ограничений закончен, поэтому нажмите OK. Вы вновь окажитесь в диалоговом окне Поиск решения. Вы увидите введенные ограничения $B$6<=20, $B$7<=40 и $B$8<=30. Справа имеются кнопки Изменить и Удалить. С их помощью Вы можете изменить ограничение или стереть его. (Если Вы используете Excel 5.0/7.0, то Вы должны ввести еще одно ограничение $B$1:$B$2>=0).

Щелкните кнопку Параметры. Вы окажитесь в диалоговом окне Параметры поиска решения. Чтобы узнать назначение полей ввода этого окна, щелкните кнопку Справка. Менять ничего не будем, только установим два флажка: Линейная модель (так как наши ограничения и целевая функция являются линейными по переменным X₁ и X₂) и Неотрицательные значения (для переменных X₁ и X₂). В Excel 5.0/7.0 этот последний флажок отсутствует, поэтому и нужно было вводить ограничение $B$1:$B$2>=0. Щелкнем OK и окажемся в исходном окне.

Задача оптимизации полностью подготовлена. Нажимаем кнопку Выполнить. Появляется диалоговое окно Результаты поиска решения. В нем мы читаем сообщение: Решение найдено. Все ограничения и условия оптимальности выполнены. На выбор предлагаются варианты: Сохранить найденное решение или Восстановить исходные значения. Выбираем первое. Можно также вывести отчеты: по результатам, по устойчивости, по пределам.

После нажатия OK вид таблицы меняется: в ячейках X₁ и X₂ появляются оптимальные значения: X₁ – 3,913043 и X₂ – 1,73913. Соответственно пересчитываются все формулы. Целевая функция достигает значения 265,2174.

КОНТРОЛЬНЫЕ ВОПРОСЫ

Геологические образования и процессы как объекты изучения. Системы расположения точек наблюдений в геологии.
Погрешности измерений и погрешности аналогий. Шкалы измерений в геологии. «Выборочная», «геологическая» и «опробуемая» совокупности.
Виды моделирования в геологии. Этапы процесса решения геологических задач математическими методами.
Одномерные статистические модели. Числовые диаграммы «стебель с листьями» и «ящик с усами».
Статистические характеристики. Решение геологических задач с помощью гистограмм и кумулят.
Статистические законы распределения, используемые в геологии.
Специфика случайных угловых величин. Круговое среднее направление, круговая мода и круговая медиана.
Точечные и интервальные оценки свойств геологических объектов. Свойства точечных оценок.
Построение доверительных интервалов оценок средних значений.
Статистическая проверка гипотез. Ошибки первого и второго рода при статистической проверке гипотез.
Параметрические и непараметрические критерии согласия.
Проверка гипотезы о типе статистического распределения.
Решение геологических задач путем проверки гипотез о равенстве средних.
Решение геологических задач путем проверки гипотез о равенстве дисперсий.
Решение геологических задач путем проверки гипотезы об однородности выборки.
Решение геологических задач с помощью однофакторного и двухфакторного дисперсионного анализа.
Геологические объекты как двумерная статистическая совокупность. Описание двумерной статистической совокупности с помощью корреляционного поля точек.
Решение геологических задач путем проверки гипотезы о наличии корреляционной связи.
Оценка силы корреляционной связи.
Применение в геологии регрессионного анализа.
Описание характера корреляционной связи свойств геологических объектов уравнениями.
Проверка гипотезы о линейном характере корреляционной связи.
Применение многомерных статистических моделей в геологии.
Понятия парного, частного и множественного коэффициентов корреляции.
Методы выделения ассоциаций. Метод графов.
Принципы и области применения кластер-анализа.
Множественные регрессионные модели и их применение.
Распознавание образов в геологии.
Факторный анализ и метод главных компонент при решении геологических задач.
Моделирование пространственных переменных.
Непрерывные и дискретные геологические пространственные переменные, скалярные и векторные поля.
Фон и аномалия. Решение геологических задач с помощью тренд-анализа.
Способы «сглаживания» случайных полей.
Статистические методы проверки гипотез о наличии тренда.
Метод аппроксимации поверхностей тренда полиномами в геологии.
Моделирование дискретных случайных полей.
Понятие о моделировании с помощью случайных функций.

ЛИТЕРАТУРА

Аветисов А.Г., Булатов А.И., Шаманов Методы прикладной математики в инженерном деле при строительстве нефтяных и газовых скважин. – М.: ООО «Недра-Бизнесцентр», 2003. – 239 с.
Андронов А.М., Копытов Е.А., Гринглаз Л.Я. Теория вероятностей и математическая статистика: Учебник для вузов. – СПб.: Питер, 2004. – 461 с.
Вуколов Э.А. Основы статистического анализа. Практикум по статистическим методам и исследованию операций с использованием пакетов STATISTICA и EXCEL: Учебное пособие. – М.: ФОРУМ: ИНФРА-М, 2004. – 464 с.
Гайдышев И. Анализ и обработка данных: специальный справочник. – СПб.: Питер, 2001. – 752 с.
Гельман В.Я. Решение математических задач средствами Excel: Практикум – СПб: Питер, 2003. – 240 с.
Гмурман В.Е. Теория вероятностей и математическая статистика: Учеб. пособие для вузов. – 10-е изд., стер. – М.: Высш. шк. , 2004. – 479 с.
Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике: Учеб. пособие для студентов вузов. – 9-е изд. стер. – М.: Высш. шк., 2004. – 404 с.
Горелова Г.В., Кацко И.А. Теория вероятностей и математическая статистика в примерах и задачах с применением EXCEL. – Ростов н/Д: Феникс, 2005. – 480 с.
Грановская Н.В., Наставкин А.В. Сборник задач для лабораторных и самостоятельных занятий по дисциплине «Математические методы моделирования в геологии». Для студентов геологических специальностей геолого-географического факультета. – Ростов н/Дону: 2002. – 40 с.
Гуськов О.И., Кушнарев П. И. Таранов С.М.. Математические методы в геологии. Сборник задач. М.: Недра,1991.
Каждан А.Б., Гуськов О.И. Математические методы в геологии. Учебник для вузов. – М.: Недра, 1990.
Лавренов С.М. Excel: Сборник примеров и задач. – М.: Финансы и статистика, 2002. – 336 с.
Мартьянова А.Е. Сборник примеров и задач. Лабораторный практикум по дисциплине «Статистическое моделирование на ЭВМ». /Учебно-методическое пособие для студентов специальности 250400 «Химическая технология природных энергоносителей и углеродных материалов». – Астрахань, 2007, 136 с.
Мартьянова А.Е. Сборник примеров и задач. Лабораторный практикум по дисциплине «Математические методы моделирования в геологии». /Учебное пособие для студентов направления 650100 «Прикладная геология» (электронный вариант). – Астрахань, 2005, 263 с.
Мартьянова А.Е. Математические методы моделирования в геологии. Сборник примеров и задач: Учебное пособие для студентов направления 650100 «Прикладная геология». – Астрахань, 2005, 268 с.
Минько А.А. Статистический анализ в MS EXCEL. – М.: Издательский дом «Вильямс», 2004. – 448 с.
Прозорова Г.Н. Методические указания к выполнению лабораторных работ по курсу «Методы математического моделирования в геологии» (для студентов очной и заочной форм обучения по специальности 08.05.00) – Ростов-на-Дону: Ростовский госуниверситет, 2004. – с. 34.
Теория вероятностей и математическая статистика: Учеб. пособие /Под ред. В.И. Ермакова – М.: ИНФРА-М, 2004. – 287 с.
Турчак Л. И. Основы численных методов: Учеб. пособие. – М.: Наука, 1987. – 320 с.
Microsoft Excel 2000: справочник /Под ред. Ю.В. Колесникова – СПб: Изд-во «Питер», 1999. – 480 с.
www.exponenta.ru
www.statsoft.com

ПРИЛОЖЕНИЯ

Приложение I. Значения функции нормального распределения с параметрами 0 и 1 (для отрицательных значений Z)

Z	0,00	0,01	0,02	0,03	0,04	0,05	0,06	0,07	0,08	0,09
-0,0	0,5000	0,4920	0,4929	0,4880	0,4840	0,4801	0,4761	0,4721	0,4681	0,4641
-0,1	0,4602	0,4562	0,4522	0,4483	0,4443	0,4404	0,4364	0,4325	0,4286	0,4247
-0,2	0,4207	0,4168	0,4129	0,4090	0,4052	0,4013	0,3974	0,3936	0,3897	0,3859
-0,3	0,3821	0,3783	0,3745	0,3707	0,3669	0,3632	0,3594	0,3557	0,3520	0,3483
-0,4	0,3446	0,3409	0,3372	0,3336	0,3300	0,3264	0,3228	0,3192	0,3156	0,3121
-0,5	0,3085	0,3050	0,3015	0,2981	0,2946	0,2912	0,2877	0,2843	0,2810	0,2776
-0,6	0,2743	0,2709	0,2676	0,2643	0,2611	0,2578	0,2546	0,2514	0,2483	0,2451
-0,7	0,2420	0,2398	0,2358	0,2327	0,2297	0,2266	0,2236	0,2206	0,2177	0,2148
-0,8	0,2119	0,2090	0,2061	0,2033	0,2005	0,1977	0,1949	0,1922	0,1894	0,1867
-0,9	0,1841	0,1814	0,1788	0,1762	0,1736	0,1711	0,1685	0,1660	0,1635	0,1611
-1,0	0,1587	0,1562	0,1539	0,1515	0,1492	0,1469	0,1446	0,1423	0,1401	0,1379
-1,1	0,1357	0,1335	0,1314	0,1292	0,1271	0,1251	0,1230	0,1210	0,1190	0,1170
-1,2	0,1151	0,1131	0,1112	0,1093	0,1075	0,1056	0,1038	0,1020	0,1003	0,0985
-1,3	0,0968	0,0951	0,0934	0,0918	0,0901	0,0885	0,0869	0,0853	0,0838	0,0823
-1,4	0,0808	0,0793	0,0778	0,0764	0,0749	0,0735	0,0721	0,0708	0,0694	0,0681
-1,5	0,0668	0,0655	0,0643	0,0630	0,0618	0,0606	0,594	0,0582	0,0570	0,0559
-1,6	0,0548	0,0537	0,0526	0,0515	0,0505	0,0495	0,0485	0,0475	0,0465	0,0455
-1,7	0,04046	0,0436	0,0427	0,0418	0,0409	0,0401	0,0392	0,0384	0,0375	0,0367
-1,8	0,0359	0,0351	0,0344	0,0336	0,0329	0,0322	0,0314	0,0307	0,0300	0,0294
-1,9	0,0287	0,0281	0,0274	0,0268	0,0262	0,0256	0,0250	0,0244	0,0238	0,0233
-2,0	0,0227	0,0222	0,0217	0,0212	0,0207	0,0202	0,0197	0,0192	0,0188	0,0183
-2,1	0,0179	0,0174	0,0170	0,0166	0,0162	0,0158	0,0154	0,0150	0,0146	0,0143
-2,2	0,0139	0,0135	0,0132	0,0219	0,0125	0,0122	0,0119	0,0116	0,0113	0,0110
-2,3	0,0107	0,104	0,0102	0,0099	0,0096	0,0094	0,0091	0,0089	0,0087	0,0084
-2,4	0,0082	0,0080	0,0078	0,0075	0,0073	0,0071	0,0069	0,0068	0,0066	0,0064
-2,5	0,0062	0,0060	0,0059	0,0057	0,0055	0,0054	0,0052	0,0051	0,0049	0,0047
-2,6	0,0047	0,0045	0,0044	0,0043	0,0041	0,0040	0,0039	0,0038	0,0037	0,0036
-2,7	0,0035	0,0034	0,0033	0,0032	0,0030	0,0030	0,0029	0,0028	0,0027	0,0026
-2,8	0,0026	0,0025	0,0024	0,0023	0,0023	0,0022	0,0021	0,0020	0,0020	0,0019
-2,9	0,0019	0,0018	0,0017	0,0017	0,0016	0,0016	0,0015	0,0015	0,0014	0,0014
-3,0	0,0013	0,0013	0012	0012	0012	0011	0,0011	0,0011	0,0010	0,0010
-3,1	0,0010	0,0009	0,0009	0,0009	0,0008	0,0008	0,0008	0,0008	0,0007	0,0007
-3,3	0,0005	0,0005	0,0004	0,0004	0,0004	0,0004	0,0004	0,0004	0,0004	0,0003
-3,4	0,0003	0,0003	0,0003	0,0003	0,0003	0,0003	0,0003	0,0003	0,0002	0,0002
-3,5	0,0002	0,0002	0,0002	0,0002	0,0002	0,0002	0,0002	0,0002	0,0002	0,0002
-3,6	0,0002	0,0002	0,0001	0,0001	0,0001	0,0001	0,0001	0,0001	0,0001	0,0001
-3,7	0,0001	0,0001	0,0001	0,0001	0,0001	0,0001	0,0001	0,0001	0,0001	0,0001
-3,8	0,0001	0,0001	0,0001	0,0001	0,0001	0,0001	0,0001	0,0001	0,0000	0,0000

Примечание

Значения функции для положительных Z находятся вычитанием из 1 значений функции для (-Z). Пример: для Z = 0,72 P= 1-0,2358 =0,7642.

Приложение II. Допустимые значения критерия Стьюдента при данном объеме выборки N и уровне значимости α

N	Двусторонняя критическая область					N	Двусторонняя критическая область
N	α = 0,1	α = 0,05	α = 0,02	α = 0,01	α = 0,001	N	α = 0,1	α = 0,05	α = 0,02	α = 0,01	α = 0,001
1	6,31	12,71	31,82	63,66	636,62	18	1,73	2,10	2,55	2,88	3,92
2	2,92	4,30	6,97	9,93	31,60	19	1,73	2,09	2,54	2,86	3,88
3	2,35	3,18	4,54	5,84	12,94	20	1,73	2,09	2,53	2,85	3,85
4	2,13	2,78	3,75	4,60	8,61	21	1,72	2,08	2,52	2,83	3,82
5	2,02	2,57	3,37	4,03	6,86	22	1,72	2,07	2,51	2,82	3,79
6	1,94	2,45	3,14	3,71	5,96	23	1,71	2,07	2,50	2,81	3,77
7	1,90	2,37	3,00	3,50	5,41	24	1,71	2,06	2,49	2,80	3,75
8	1,86	2,31	2,90	3,36	5,04	25	1,71	2,06	2,49	2,79	3,73
9	1,83	2,26	2,82	3,25	4,78	26	1,71	2,06	2,48	2,78	3,71
10	1,81	2,23	2,76	3,17	4,59	27	1,70	2,05	2,47	2,77	3,69
11	1,80	2,20	2,72	3,11	4,44	28	1,70	2,05	2,47	2,76	3,67
12	1,78	2,18	2,68	3,06	4,32	29	1,70	2,05	2,46	2,76	3,66
13	1,77	2,16	2,65	3,01	4,22	30	1,70	2,04	2,46	2,75	3,65
14	1,76	2,15	2,62	2,98	4,14	40	1,68	2,02	2,42	2,70	3,55
15	1,75	2,13	2,60	2,95	4,07	60	1,67	2,00	2,39	2,66	3,46
16	1,75	2,12	2,58	2,92	4,02	120	1,66	1,98	2,36	2,62	3,37
17	1,74	2,11	2,57	2,90	3,97	∞	1,65	1,96	2,33	2,58	3,29
N	α = 0,05	α = 0,025	α = 0,01	α = 0,005	α = 0,0005	N	α = 0,05	α = 0,025	α = 0,01	α = 0,005	α = 0,0005
N	Односторонняя критическая область					N	Односторонняя критическая область

Приложение III. Критические точки распределения χ²

Число степеней свободы	α
Число степеней свободы	0,01	0,025	0,05	0,95	0,975	0,99
1	6,6	5,0	3,8	0,0039	0,00098	0,00016
2	9,2	7,4	6,0	0,103	0,051	0,020
3	11,3	9,4	7,8	0,352	0,216	0,115
4	13,3	11,1	9,5	0,711	0,484	0,297
5	15,1	12,8	11,1	1,15	0,831	0,554
6	16,8	14,4	12,6	1,64	1,24	0,872
7	18,5	16,0	14,1	2,17	1,69	1,24
8	20,1	17,5	15,5	2,73	2,18	1,65
9	21,7	19,0	16,9	3,33	2,70	2,09
10	23,2	20,5	18,3	3,94	3,25	2,56
11	24,7	21,9	19,7	4,57	3,82	3,05
12	26,2	23,3	21,0	5,23	4,40	3,57
13	27,7	24,7	22,4	5,89	5,01	4,11
14	29,1	26,1	23,7	6,57	5,63	4,66
15	30,6	27,5	25,0	7,26	6,26	5,23
16	32,0	28,8	26,3	7,96	6,91	5,81
17	33,4	30,2	27,6	8,67	7,56	6,41
18	34,8	31,5	28,9	9,39	8,23	7,01
19	36,2	32,9	30,1	10,1	8,91	7,63
20	37,6	34,2	31,4	10,9	9,59	8,26
21	38,9	35,5	32,7	11,6	10,3	8,90
22	40,3	36,8	33,9	12,3	11,0	9,54
23	41,6	38,1	35,2	13,1	11,7	10,2
24	43,0	39,4	36,4	13,8	12,4	10,9
25	44,3	40,6	37,7	14,6	13,1	11,5
26	45,6	41,9	38,9	15,4	13,8	12,2
27	47,0	43,2	40,1	16,2	14,6	12,9
28	48,3	44,5	41,3	16,9	15,3	13,6
29	49,6	45,7	42,6	17,7	16,0	14,3
30	50,9	47,0	43,8	18,5	16,8	15,0

Приложение IV. Критические значения статистики критерия равномерности Релея

n	α
n	0,1	0,05	0,025	0,01	0,001
5	0,677	0,754	0,816	0,879	0,991
6	0,618	0,69	0,753	0,825	0,94
7	0,572	0,642	0,702	0,771	0,891
8	0,535	0,602	0,66	0,725	0,847
9	0,504	0,569	0,624	0,687	0,808
10	0,478	0,54	0,594	0,655	0,775
11	0,456	0,516	0,567	0,627	0,743
12	0,437	0,494	0,544	0,602	0,716
13	0,42	0,475	0,524	0,58	0,692
14	0,405	0,458	0,505	0,56	0,669
15	0,391	0,443	0,489	0,542	0,649
16	0,379	0,429	0,474	0,525	0,63
17	0,367	0,417	0,46	0,51	0,613
18	0,357	0,405	0,447	0,496	0,597
19	0,348	0,394	0,436	0,484	0,583
20	0,339	0,385	0,425	0,472	0,569
21	0,331	0,375	0,415	0,461	0,556
22	0,323	0,367	0,405	0,451	0,544
23	0,316	0,359	0,397	0,441	0,533
24	0,309	0,351	0,389	0,432	0,522
25	0,303	0,344	0,381	0,423	0,512
30	0,277	0,315	0,348	0,387	0,47
35	0,256	0,292	0,323	0,359	0,436
40	0,24	0,273	0,302	0,336	0,409
45	0,226	0,257	0,285	0,318	0,386
50	0,214	0,244	0,27	0,301	0,367
100	0,15	0,17	0,19	0,21	0,26
	4,605	5,991	7,378	9,21	13,816

Приложение V. Параметр концентрации k распределения Мизеса


0,00	0,00000	0,25	0,51649	0,50	1,15932	0,76	2,45490
0,01	0,02000	0,26	0,53863	0,51	1,19105	0,77	2,54686
0,02	0,04001	0,27	0,56097	0,52	1,22350	0,78	2,64613
0,03	0,06003	0,28	0,58350	0,53	1,25672	0,79	2,75382
0,04	0,08006	0,29	0,60625	0,54	1,29077	0,80	2,87129
0,05	0,10013	0,30	0,62922	0,55	1,32570	0,81	3,00020
0,06	0,12022	0,31	0,65242	0,56	1,36156	0,82	3,14262
0,07	0,14034	0,32	0,67587	0,57	1,39842	0,83	3,30114
0,08	0,16051	0,33	0,69958	0,58	1,43635	0,84	3,47901
0,09	0,18073	0,34	0,72356	0,59	1,47543	0,85	3,68041
0,10	0,20101	0,35	0,74783	0,60	1,51574	0,86	3,91072
0,11	0,22134	0,36	0,77241	0,61	1,55738	0,87	4,17703
0,12	0,24175	0,37	0,79730	0,62	1,60044	0,88	4,48876
0,13	0,26223	0,38	0,82253	0,63	1,64506	0,89	4,85871
0,14	0,28279	0,39	0,84812	0,64	1,69134	0,90	5,3047
0,15	0,30344	0,40	0,87408	0,65	1,73945	0,91	5,8522
0,16	0,32419	0,41	0,90043	0,66	1,78953	0,92	6,5394
0,17	0,34503	0,42	0,92720	0,67	1,84177	0,93	7,4257
0,18	0,36599	0,43	0,95440	0,68	1,89637	0,94	8,6104
0,19	0,38707	0,44	0,98207	0,69	1,95357	0,95	10,2716
0,20	0,40828	0,45	1,01022	0,70	2,01363	0,96	12,7661
0,21	0,42962	0,46	1,03889	0,71	2,07685	0,97	16,9266
0,22	0,45110	0,47	1,06810	0,72	2,14359	0,98	25,2522
0,23	0,47273	0,48	1,09788	0,73	2,21425	0,99	50,2421
0,24	0,49453	0,49	1,12828	0,74	2,28930	1,00	∞

Приложение VI. Функция распределения Мизеса F (θ/180°, k) с круговым средним направлением μ=180°

θ	F (θ)
θ	k = 0	k = 0,2	k = 0,4	k = 0,6	k = 0,8	k = 1,0	k = 1,2	k = 1,4
0	0,00000	0,00000	0,00000	0,00000	0,00000	0,00000	0,00000	0,00000
5	0,01389	0,01126	0,00895	0,00699	0,00536	0,00404	0,00301	0,00221
10	0,02778	0,02254	0,01793	0,01400	0,01074	0,00811	0,00604	0,00444
15	0,04167	0,03385	0,02697	0,02108	0,01620	0,01225	0,00913	0,00672
20	0,05556	0,04522	0,03608	0,02826	0,02175	0,01647	0,01230	0,00907
25	0,06944	0,05665	0,04531	0,03557	0,02744	0,02083	0,01559	0,01153
30	0,08333	0,06816	0,054467	0,04304	0,03329	0,02535	0,01903	0,01411
35	0,09722	0,07978	0,06420	0,05071	0,03936	0,03007	0,02266	0,01686
40	0,11111	0,09152	0,07392	0,05861	0,04567	0,03504	0,02650	0,01981
45	0,12500	0,10338	0,08386	0,06679	0,05228	0,04029	0,03062	0,02299
50	0,13889	0,11540	0,09405	0,07527	0,05921	0,04587	0,03505	0,02647
55	0,15278	0,12757	0,10452	0,08409	0,06653	0,05184	0,03985	0,03028
60	0,16667	0,13992	0,11529	0,09331	0,07428	0,05825	0,04509	0,03450
65	0,18056	0,15246	0,12639	0,10295	0,08251	0,06517	0,05082	0,03919
70	0,19444	0,16520	0,13784	0,11306	0,09128	0,07265	0,05711	0,04442
75	0,20833	0,17815	0,14968	0,12368	0,10064	0,08078	0,06407	0,05030
80	0,22222	0,19132	0,16192	0,13485	0,11066	0,08962	0,07176	0,05690
85	0,23611	0,20471	0,17460	0,14662	0,12139	0,09925	0,08028	0,06436
90	0,25000	0,21834	0,18772	0,15901	0,13289	0,10975	0,08974	0,07277
95	0,26389	0,23222	0,20130	0,17206	0,14522	0,12122	0,10025	0,08228
100	0,27778	0,24633	0,21537	0,18582	0,15844	0,13372	0,11191	0,09302
105	0,29167	0,26069	0,22992	0,20030	0,17260	0,14734	0,12483	0,10514
110	0,30556	0,27529	0,24498	0,21554	0,18774	0,16217	0,13913	0,11876
115	0,31944	0,29014	0,26054	0,23154	0,20392	0,17825	0,15491	0,13405
120	0,33333	0,30522	0,27659	0,24832	0,22114	0,19566	0,17226	0,15112
125	0,34722	0,32053	0,29314	0,26587	0,23944	0,21444	0,19125	0,17009
130	0,36111	0,33606	0,31017	0,28420	0,25882	0,23460	0,21194	0,19106
135	0,37500	0,35180	0,32766	0,30327	0,27926	0,256165	0,23435	0,21408
140	0,38889	0,36774	0,34559	0,32306	0,30073	0,27909	0,25849	0,23918
145	0,40278	0,38385	0,36392	0,34353	0,32319	0,30334	0,28431	0,26633
150	0,41667	0,40013	0,38263	0,36463	0,34656	0,32883	0,31172	0,29544
155	0,43056	0,41655	0,40166	0,38628	0,37077	0,35546	0,34060	0,32638
160	0,44444	0,43309	0,42098	0,40841	0,30570	0,38309	0,37079	0,35897
170	0,47222	0,46644	0,46025	0,45379	0,44722	0,44066	0,43423	0,42800
175	0,48611	0,48321	0,49009	0,47684	0,47353	0,47022	0,46696	0,46381
180	0,50000	0,50000	0,50000	0,50000	0,50000	0,50000	0,50000	0,50000

Приложение VII. Критические значения статистики X-критерия Ван-дер-Вардена для односторонних границ

N	α = 0,025			α = 0,001			α = 0,1
N	m = 0 m = 1	m = 2 m = 3	m = 4 m = 5	m = 0 m = 1	m = 2 m = 3	m = 4 m = 5	m = 0 m = 1	m = 2 m = 3	m = 4 m = 5
1	2	3	4	5	6	7	8	9	10
2	–	–	–	–	–	–	0,10	–	–
3	–	–	–	–	–	–	0,50	–	–
4	–	–	–	–	–	–	0,73	0,64	–
5	–	–	–	–	–	–	0,90	0,74	–
6	–	–	–	–	–	–	1,10	1,04	0,82
7	–	–	–	–	–	–	1,25	1,14	0,89
8	2,40	2,30	–	1,42	1,37	1,23	1,42	1,37	1,23
9	2,38	2,20	–	1,56	1,48	1,30	1,56	1,48	1,30
10	2,60	2,49	2,30	1,71	1,67	1,57	1,71	1,67	1,57
11	2,72	2,58	2,40	1,83	1,77	1,64	1,83	1,77	1,64
12	2,86	2,79	2,68	1,98	1,94	1,87	1,98	1,94	1,87
13	2,96	2,91	2,78	2,09	2,03	1,93	2,09	2,03	1,93
14	3,11	3,06	3,00	2,22	2,19	2,12	2,22	2,19	2,12
15	3,24	3,19	3,06	2,33	2,28	2,20	2,33	2,28	2,20
16	3,39	3,36	3,28	2,44	2,42	2,36	2,44	2,42	2,36
17	3,49	3,44	3,36	2,54	2,51	2,44	2,54	2,51	2,44
18	3,63	3,60	3,53	2,65	2,64	2,59	2,65	2,64	2,59
19	3,73	3,69	3,61	2,76	2,72	2,66	2,76	2,72	2,66
20	3,86	3,84	3,78	2,85	2,84	2,80	2,85	2,84	2,80
21	3,96	3,92	3,85	2,95	2,92	2,87	2,95	2,92	2,87
22	4,08	4,06	4,01	3,05	3,04	3,00	3,05	3,04	3,00
23	4,18	4,15	4,08	3,14	3,12	3,06	3,14	3,12	3,06
24	4,29	4,27	4,23	3,23	3,22	3,19	3,23	3,22	3,19
25	4,39	4,36	4,30	3,33	3,29	3,26	3,33	3,29	3,26
26	4,50	4,48	4,44	3,41	3,39	3,37	3,41	3,39	3,37
27	4,59	4,56	4,51	3,49	3,47	3,43	3,49	3,47	3,43
28	4,69	4,68	4,64	3,57	3,57	3,54	3,57	3,57	3,54
29	4,78	4,76	4,72	3,66	3,64	3,60	3,66	3,64	3,60
30	4,88	4,87	4,84	3,74	3,73	3,70	3,74	3,73	3,70
31	4,97	4,95	4,91	3,82	3,80	3,76	3,82	3,80	3,76
32	5,07	5,06	5,03	3,89	3,88	3,86	3,88	3,89	3,86
33	5,15	5,13	5,10	3,96	3,95	3,92	3,96	3,95	3,92
34	5,25	5,24	5,21	4,05	4,05	4,02	4,05	4,05	4,02
35	5,33	5,31	5,28	4,12	4,11	4,08	4,12	4,11	4,08
36	5,42	5,41	5,38	4,19	4,19	4,16	4,19	4,19	4,16
37	5,50	5,48	5,45	4,26	4,25	4,24	4,26	4,25	4,24
38	5,59	5,58	5,55	4,33	4,33	4,32	4,33	4,33	4,32
39	5,67	5,65	5,62	4,40	4,39	4,38	4,40	4,33	4,38
40	5,75	5,74	5,72	4,48	4,48	4,46	4,48	4,39	4,46

Продолжение приложения VII

1	2	3	4	5	6	7	8	9	10
41	5,83	5,81	5,79	4,54	4,53	4,50	4,45	4,53	4,50
42	5,91	5,90	5,88	4,62	4,62	4,59	4,62	4,62	4,59
43	5,99	5,97	5,95	4,68	4,67	4,66	4,68	4,67	4,66
44	6,06	6,06	6,04	4,76	4,74	4,73	4,76	4,74	4,73
45	6,14	6,12	6,10	4,81	4,80	4,78	4,81	4,80	4,78
46	6,21	6,21	6,19	4,88	4,86	4,86	4,88	4,86	4,86
47	6,29	6,27	6,25	4,93	4,93	4,90	4,93	4,93	4,90
48	6,36	6,35	6,34	5,00	5,00	4,99	5,00	5,00	4,99
49	6,43	6,42	6,39	5,07	5,05	5,04	5,07	5,05	5,04
50	6,50	6,50	6,48	5,14	5,13	5,11	5,14	5,13	5,11

Приложение VIII. Критические значения статистик W1 и 2MW критерия Вилкоксона для односторонних границ

N₁	N₂	W₁		2MW	N₁	N₂	W₁		2MW
N₁	N₂	α = 0,025	α = 0,10	2MW	N₁	N₂	α = 0,025	α = 0,10	2MW
1	2	3	4	5	6	7	8	9	10
10	10	78	87	210	11	11	96	106	253
	11	81	91	220		12	99	110	264
	12	84	94	230		13	103	114	275
	13	88	98	240		14	106	118	286
	14	91	102	250		15	110	123	297
	15	94	106	260		16	113	127	308
	16	97	109	270		17	117	131	319
	17	100	113	280		18	121	135	330
	18	103	117	290		19	124	139	341
	19	107	121	300		20	128	144	352
	20	110	125	310		21	131	148	363
	21	113	128	320		22	135	152	374
	22	116	132	330		23	139	156	385
	23	119	136	340		24	142	161	396
	24	122	140	350		25	146	165	407
	25	126	144	360
					13	13	136	149	351
12	12	115	127	300		14	141	154	364
	13	119	131	312		15	145	159	377
	14	123	136	314		16	150	165	390
	15	127	141	336		17	154	170	403
	16	131	145	348		18	158	175	416
	17	135	150	360		19	163	180	429
	18	139	155	372		20	167	185	442
	19	143	159	384		21	171	190	455
	20	147	164	396		22	176	195	468
	21	151	169	400		23	180	200	481
	22	155	173	420		24	185	205	494
	23	159	178	432		25	189	211	507
	24	163	183	444
	25	167	187	456

Продолжение приложения VIII

1	2	3	4	5	6	7	8	9	10
					15	15	184	200	465
						16	190	206	480
14	14	160	174	406		17	195	212	495
	15	164	179	420		18	200	218	510
	16	169	185	434		19	205	224	525
	17	174	190	448		20	210	230	540
	18	179	196	462		21	216	236	555
	19	183	202	476		22	221	242	570
	20	188	207	490		23	226	248	585
	21	193	213	504		24	231	254	600
	22	198	218	518		25	237	260	615
	23	203	224	532
	24	207	229	543
	25	212	235	560
16	16	211	229	528	17	17	240	259	595
	17	217	235	544		18	246	266	612
	18	222	242	560		19	252	273	629
	19	228	248	576		20	258	280	646
	20	234	255	592		21	264	287	663
	21	239	261	608		22	270	294	680
	22	245	267	624		23	276	300	697
	23	251	274	640		24	282	307	714
	24	256	280	656		25	288	314	731
	25	262	287	672
					19	19	303	325	741
18	18	270	291	666		20	309	333	760
	19	277	299	684		21	316	341	779
	20	283	306	702		22	323	349	798
	21	290	313	720		23	330	357	817
	22	296	321	738		24	337	364	836
	23	303	328	756		25	344	372	855
	24	309	335	774
	25	316	343	792	21	21	373	399	903
						22	381	408	924
20	20	337	361	820		23	388	417	945
	21	344	370	840		24	396	425	966
	22	351	378	860		25	404	434	987
	23	359	386	880
	24	366	394	900	23	23	451	481	1081
	25	373	403	920		24	459	491	1104
						25	468	500	1127
22	22	411	439	990
	23	419	448	1012	24	24	492	525	1176
	24	427	457	1034		25	501	535	1200
	25	435	467	1056	25	25	536	570	1275

Приложение IX. Критические значения критерия Ватсона-Вильямса при n₁=n₂(а) и n₂=2n₁(б)

Приложение X. Значения F-критерия Фишера для 5%-ного уровня значимости

f₁	1	2	3	4	5	6	12	24	∞
f₂	1	2	3	4	5	6	12	24	∞
1	164,4	199,5	215,7	224,6	230,2	234,0	244,9	249,0	254,3
2	18,5	19,2	19,3	19,3	19,3	19,3	19,4	19,5	19,5
3	10,1	9,6	9,3	9,1	9,0	8,9	8,7	8,6	8,5
4	7,7	6,9	6,6	6,4	6,3	6,2	5,9	5,8	5,6
5	6,6	5,8	5,4	5,2	5,1	5,0	4,7	4,5	4,4
6	6,0	5,1	4,8	4,5	4,4	4,3	4,0	3,8	3,7
7	5,6	4,7	4,4	4,1	4,0	3,9	3,6	3,4	3,2
8	5,3	4,5	4,1	3,8	3,7	3,6	3,3	3,1	2,9
9	5,1	4,3	3,9	3,6	3,5	3,4	3,1	2,9	2,7
10	2,0	4,1	3,7	3,5	3,3	3,2	2,9	2,7	2,5
11	4,8	4,0	3,6	3,4	3,2	3,1	2,8	2,6	2,4
12	4,8	3,9	3,5	3,3	3,1	3,0	2,7	2,5	2,3
13	4,7	3,8	3,4	3,2	3,0	2,9	2,6	2,4	2,2
14	4,6	3,7	3,3	3,1	3,0	2,9	2,5	2,3	2,1
15	4,5	3,7	3,3	3,1	2,9	2,8	2,5	2,3	2,1
16	4,5	3,6	3,2	3,0	2,9	2,7	2,4	2,2	2,0
17	4,5	3,6	3,2	3,0	2,8	2,7	2,4	2,2	2,0
18	4,4	3,6	3,2	2,9	2,8	2,7	2,3	2,1	1,9
19	4,4	3,5	3,1	2,9	2,7	2,6	2,3	2,1	1,9
20	4,4	3,5	3,1	2,9	2,7	2,6	2,3	2,1	1,8
22	4,4	3,4	3,0	2,8	2,7	2,6	2,2	2,0	1,8
24	4,3	3,4	3,0	2,8	2,6	2,5	2,2	2,0	1,7
26	4,2	3,4	3,0	2,7	2,6	2,5	2,2	2,0	1,7
28	4,2	3,3	3,0	2,7	2,6	2,4	2,1	1,9	1,7
30	4,2	3,3	2,9	2,7	2,5	2,4	2,1	1,9	1,6
40	4,1	3,2	2,9	2,6	2,5	2,3	2,0	1,8	1,5
60	4,0	3,2	2,8	2,5	2,4	2,3	1,9	1,7	1,4
120	3,9	3,1	2,7	2,5	2,3	2,2	1,8	1,6	1,3
∞	3,8	3,0	2,6	2,4	2,2	2,1	1,8	1,5	1,0

Примечание

f₁ = n₁ – 1 – число степеней свободы для большей дисперсии; f₂ = n₂ – 1 – число степеней свободы для меньшей дисперсии.

Приложение XI. Критические значения критерия Краскала-Уоллиса

N₁	N₂	N₃	Уровень значимости			N₁	N₂	N₃	Уровень значимости
N₁	N₂	N₃	α = 0,10	α = 0,05	α = 0,01	N₁	N₂	N₃	α = 0,10	α = 0,05	α = 0,01
2	2	2	4,57	–	–	5	3	1	4,01	4,96	–
3	2	2	4,50	4,71	–	5	3	2	4,65	5,25	6,82
3	3	2	4,55	5,36	–	5	3	3	4,53	5,34	6,98
3	3	3	4,62	5,60	7,20	5	4	1	3,98	4,98	6,95
4	2	2	4,37	5,33	–	5	4	2	4,54	5,27	7,11
4	3	2	4,51	5,44	6,44	5	4	3	4,54	5,63	7,44
4	3	3	4,70	5,72	6,74	5	4	4	4,61	5,61	7,76
4	4	1	4,16	4,96	6,66	5	5	1	4,10	5,12	7,30
4	4	2	4,55	5,45	7,03	5	5	2	4,50	5,33	7,33
4	4	3	4,54	5,59	7,14	5	5	3	4,54	5,70	7,57
4	4	4	4,65	5,69	7,65	5	5	4	4,52	5,66	7,82
5	2	2	4,37	5,16	6,53	5	5	5	4,56	5,78	7,98

Приложение XII. Критические значения критерия Фридмана

Q	P	Уровень значимости
Q	P	α = 0,05	α = 0,02	α = 0,01	α = 0,005
3	3	6,000	–	–	–
3	4	6,500	8,000	8,000	8,000
3	5	6,400	6,400	8,400	10,000
3	6	7,000	8,333	9,000	10,333
3	7	7,143	8,000	8,857	10,286
3	8	6,250	7,750	9,000	9,750
3	9	6,222	8,000	8,667	10,667
4	2	6,000	–	–	–
4	3	7,400	8,200	9,000	9,000
4	4	7,800	8,400	9,600	10,200

Приложение XIII. Англо-русский словарь терминов пакета STATISTICA и статистических терминов

Термин	Перевод
1	2
Accept	Принять
Action	Действие
Add Cases	Добавить наблюдения
Add Variables	Добавить переменные
Adjust	Корректировка
Advisor	Советник
Alert Always	Сообщать всегда
ANOVA, analysis of variance	Однофакторный дисперсионный анализ
Appearance	Представление
Apply	Применить
Area Under Curve	Площадь под кривой
Assigned Cases	Связанные наблюдения
Assignment	Назначение, задание, новые данные
Assign Rank 1 to	Установить значение ранга 1 для
Associate	Связать
Attempt	Попытка
Automatic update on Exit	Автоматически обновлять при выходе
Auxiliary	Дополнительно
Background	Фон
Bands	Полосы
Banner	Заголовок
Banners	Флажки
Bar	Линейка
Baseline Errors	Исходные ошибки
Basic	Основной
Batch	Пакетный
Baund rate	Скорость передачи (бит в секунду)
Beyond	За, вне, свыше
Bias	Смещение
Biases	Склонность, предубеждение
Bivariate Distribution	Двумерное распределение
Blank	Пустой
Bookmark	Закладка
Boot	Запуск системы
Border	Рамка
Branch	Ветвь
Breakdown	Разбиение
Browse	Просмотр
Brushing	Окраска
Buttons	Кнопки
Canonical Analyses	Канонический анализ
Canonical Reduction	Каноническое преобразование
Case Name	Имена случаев (наблюдений)
1	2
Case Selection Conditions	Условия выбора случаев (наблюдений)
Cauchy distribution	Распределение Коши
Centering (of the data)	Центрирование (данных)
Character	Литера (опция, в которой выбираются гарнитура, начертание и размер (кегль) шрифта)
Chat	Электронный телефон
Check	Контроль
Chi- Squared Distribution	Распределение хи-квадрат
Clicking	Нажатие на кнопку мыши
Clipboard	Буфер промежуточного хранения
Clip Book-Viewer	Программа просматривает содержимое буфера Clipboard, сохраняет его или удаляет
Coefficient of multiple determination	Множественный коэффициент детерминации: квадрат коэффициента множественной корреляции
Collapse	Свернуть
Collapse Branch	Свернуть ветвь
Comparison	Сравнение
Compatibility	Совместимость
Complexity	Сложность
Condition Expectation	Условное матем. ожидание
Confidence interval	Доверительный интервал
Confidence Limit	Доверительный предел
Connect	Присоединять
Content	Содержание
Contiguous	Смежный
Continuity Correction	Поправка на непрерывность
Continuous Distribution	Непрерывное распределение
Control Box	Кнопка управления
Convert	Преобразовывать
Correlation Analysis	Корреляционный анализ
Correlation Coefficient	Коэффициент корреляции
Correlation Matrix	Матрица (коэффициентов) корреляции, корреляционная матрица
Covariance	Ковариация
Create Data Set	Создать набор данных
Critical Value	Критическое значение
Cumulative Probability	Интегральная (накопленная) вероятность
Cumulative Probability Distribution	Кумулятивное (накопленное) распределение вероятностей
Currency	Денежный формат (данных)
Current	Текущий
Current Spec...	Текущая спецификация
Custom Colors	Пользовательские цвета
Custom Graphs	Пользовательский график
Cut	Урезание
Data Management	Управление данными
1	2
Data Matrix	Матрица данных
Data Set Datasheet	Таблица данных
Data Set Editor	Редактор данных
Data Set Shuffle	Переметать данные
Data Values	Значение данных, данные
Decimals	Десятичные знаки
Default	По умолчанию
Define	Определять
Definition	Определение
Degrees of freedom (d.f.)	Степени свободы; число степеней свободы
Delete Cases	Удалить случаи (наблюдения)
Delimiter	Разделитель
Density Function	Функция плотности распределения вероятностей
Dependent variable	Зависимая переменная; отклик
Discrepancy	Расхождение (разность)
Discrete distribution	Дискретное распределение
Descriptive Statistics	Описательные статистики
Detail Shown	Степень подробности
Detrended Data	Данные с исключенным трендом
Deviation	Отклонение
Dial	Способ
Deletion	Вычеркивание; стирание; удаление; исключение; ликвидация; уничтожение
Destination Variables	Создаваемые переменные
Direct	Прямой
Discard	Отвергнуть
Distribution of Error	Распределение ошибок
Division	Деление
Division of Cases	Разбиение наблюдений
Double Precision Arithmetic	Вычисления с удвоенной точностью
Download	Загрузить
Draft	Чертеж
Dragging	Протягивание (мыши)
Drop-down	«Выпадающий»
Durbin–Watson test	Критерии Дарбина–Уотсона
Edit Case Names	Редактировать имена наблюдений
Eigenvalues	Собственные значения
Embedding	Встраивание (объектов)
Enlarge Set	Увеличить набор
Enough	Достаточно
Ensure	Гарантировать
Envelopes	Конверты
Error	Ошибка
Error Function	Функция ошибки
Error Mean	Среднее ошибки
Estimate	Оценка, оценивать; приблизительно подсчитывать
1	2
Estimation	Оценивание (подсчет, вычисление)
Except	Исключать
Exclude if...	Удалить, если...
Expect	Ждать; предполагаемый
Expectation	Математическое ожидание
Expected value	Математическое ожидание, среднее значение
Exponential distribution	Экспоненциальное распределение
Extreme Value	Экстремальное значение
Facile	Легкий
Feature Selection	Отбор признаков
Field	Поле
Fill Block	Заполнить блок
Fill Random Values	Заполнить значения переменных случайными величинами – числами, имеющими равномерное распределение от 0 до 1
Fit the Model	Подбор модели, подгонка модели
Flash	Мерить
Flow Control	Протокол
Fonts	Шрифт
Forward Selection Procedure	Метод включения (в регрессионном анализе)
Fractional	Дробный (ранг от 0 до 1)
Frequency	Частота
Frequency Function	Функция частот
General	Общие
Glossary	Специальный толковый словарь
Graduation	Сглаживание, нанесение кривой по точкам
Grate	Решетка
Handshake	Подтверждение
Header	Заголовок
Hidden	Скрытый
Hidden Units	Скрытые элементы
Highlight Counts	Выделить числа
Hypothesis	Гипотеза
Hypothesis Testing	Проверка гипотезы
Icon	Пиктограмма
Imaginary	Мнимая часть
Inactive	Неактивный
Include if	Включить, если
Incorrelated	Некоррелированный
Independent Samples	Независимые выборки
Independent Variable	Независимая переменная, фактор
Index	Оглавление
Input Data Matrix	Матрица исходных данных
Inputs Datasheet	Таблица входных значений
Input Variable	Входная переменная
Insertion	Выделение
1	2
Insert Object	Вставка объекта
Insufficient	Недостаточный, неподходящий
Integer	Целый
Interaction	Взаимодействие
Intercept	Свободный член (в уравнении регрессии)
Interrupted	Прерванный
Inverse of Matrix	Обращение матрицы
Involve	Включить, вовлекать
Item	Элемент данных
Iterations	Число итераций
Jittering	Разгонка (точек)
Joining	Соединение
Kurtosis	Эксцесс
Kurtosis of Frequency	Эксцесс кривой плотности распределения
Lag-1 Serial Correlation	Сериальная корреляция с единичным сдвигом
Latent Variable	Латентная (скрытая) переменная
Layout	Расположение, разметка
Least	Наименьший
Least Squares Method	Метод наименьших квадратов
Least Squares Method Equation	МНК уравнение
Least Squares Method Estimate	МНК оценка
Level of Factor	Уровень фактора
Linear Regression (Model)	Линейная регрессия (модель)
Relationship	Линейная зависимость
Trend	Тренд (временного ряда)
Links	Связи
Lock	Защитить, блокировать
Logistic	Логистический
Logistic Regression	Логистическая регрессия
Log-normal Variable	(Случайная) величина, распределенная по логарифмически нормальному закону
Loss Coefficient	Коэффициент потерь
Loss Matrix	Матрица потерь
Lower-Tailer	Односторонний критерий для нижнего «хвоста» распределения
Manuel	Руководство, инструкция
Margin	Край, граница, поле (печатной страницы)
Match Case	Учет регистра
Max/SD	Максимальное/(стандартное отклонение)
Maximum Likelihood	Максимальное правдоподобие
Mean Square	Средний квадрат
Mean Square Error	Средний квадрат ошибки
Mean Square About Regression	Средний квадрат отклонений относительно регрессии
Mean Square About Regression Due to Lack of Fit	Средний квадрат, обусловленный неадекватностью
1	2
Mean Square About Regression Due to Regression	Средний квадрат обусловленный регрессией
Mean Square About Regression Due to Residual Variation	Остаточный средний квадрат (средний квадрат, обусловленный остаточной вариацией)
Mean Square About Regression For Pure Error	Средний квадрат, характеризующий «чистую» ошибку
Mean/SD	Среднее/стандартное отклонение)
Means	Среднее
Measure	Мера
Median	Медиана
Medium	Средняя (длительность поиска)
Merge	Объединить
Message	Сообщение, поручение
Method for Discriminating	Метод дискриминации (моделей)
Method for Discriminating of Least Squares	Метод наименьших квадратов (МНК)
Min Proportion	Минимальная доля
Mini max	Минимаксное
Missing Observations	Пропущенные наблюдения
Model Validation Technique	Метод обоснования модели
Modes	Режимы
Missing Data	Пропущенные значения
Momentum	Инерция
Mouse Pointer	Курсор мыши
Multiple Regression Calculation Correlation Coefficient	Множественный коэффициент корреляции
Multiple Regression	Множественная регрессия
Multiplicative Model	Мультипликативная модель
Multivariate	Многомерный
Move Cases	Перемещение случаев (наблюдений)
N-dimensional Multivariate Normal Distribution	N-мерное нормальное распределение
Negative Serial Correlation Between Successive Residuals	Отрицательная сериальная корреляция между последовательными (соседними) остатками
Neighborhood	Окрестность
Newton–Raphson Technique	Метод Ньютона–Рафсона
Nonlinear	Нелинейный
Nonlinear Estimation	Нелинейное оценивание
Nonlinear Growth Model	Нелинейная модель роста
Nonsingular Matrix	Невырожденная матрица
Normal Deviate	Нормальное отклонение
Normal Deviate Distribution Random Variable	Нормально распределенная случайная величина
Normal Deviate Equations	Нормальные уравнения (МНК)
Normal Deviate Plot of Residuals	График остатков
Normal Distribution	Нормальное распределение
Normalization	Нормировка, стандартизация (данных)
1	2
Observations	Наблюдения
One–sided Test	Односторонний критерий
One–Way	Односторонний; однонаправленный
One-way Classification	Односторонняя классификация, классификация по одному признаку
Optimum Threshold	Оптимальный порог
Order of the Model	Порядок модели
Original Data	Исходные данные
Orthogonal Column	Ортогональные столбцы (матрицы)
Outlier	Выброс; резко выделяющееся значение
Output	Выходные данные; результат вычислений
Output Variable	Выходная переменная
Outputs Datasheet	Таблица выходных значений
Outputs Shown	Показывать при выводе
Overview	Общее представление (о каком-либо предмете); обзор
Packager	Упаковщик (объектов)
Padding	Добавление нулей (например, в ряд)
Page Layout	Просмотр пакета
Partial Correlation	Частная корреляция
Paste Special	Специальная вставка
Percentage	Проценты (представление данных в процентах); относительная (ошибка)
Percentage Point of the Distribution	Процентная точка распределения
Performance	Качество
Plot	График; кривая; диаграмма
Power	Степень
Precision	Точность
Predict	Прогнозировать, предсказывать
Predictability	Предсказуемость
Predicted (mean) Value	Предсказанное (среднее) значение
Predictive Discrepancy Sum of Squares	Сумма квадратов предсказанных расхождений
Predictive Equation (model)	Предсказывающее уравнение (модель)
Principal Components Analysis	Анализ главных компонент
Principal Component Regression	Регрессия на главных компонентах
Prior probabilities	Априорные вероятности
Probability Calculator	Вероятностный калькулятор
Probability Level	Уровень вероятности
Prompt	Подсказывать
Properties	Свойство, собственность, характеристики
Prune	Удалить
Pure Error	«Чистая ошибка» (ошибка опыта)
Pure Error Mean Square	Средний квадрат, связанный с «чистой» ошибкой
Pure Error Sum of Squares	Сумма квадратов, связанная с «чистой» ошибкой (обусловленная «чистой» ошибкой)
Raise	Увеличение
1	2
Random	Случайный
Random Arrangement of Signs	Случайное расположение знаков
Random Deviation	Случайное отклонение
Random Search	Случайный поиск
Random Variation	Случайный разброс
Range selection	Выделение диапазона ячеек
Ranks For Ties	Ранги для совпадающих значений
Rank Variables	Присвоение рангов значениям переменной
Rate	Цена, расценка
Ratio	Отношение
Raw	Исходный
Real number fields	Поля для вещественных чисел
Recalculate Variables	Пересчитать значения переменных
Receive	Получать
Recede Variables	Перекодировать переменные ;
Redundance	Чрезмерность, избыточность
Redial	Повторить
Refresh	Обновлять
Regression	Регрессия, зависимость
Regression Curve	Регрессионная кривая
Regression Equation	Уравнение регрессии
Regression Estimate	Регрессионная оценка
Regression Mean Squares	Средний квадрат, обусловленный регрессией
Regular	Регулярный (ранг от 0 до 1)
Reject	Отвергнуть
Reyleigh distribution	Релеевское распределение
Remove	Удалить
Repeatability	Воспроизводимость
Replace existing	Заменить существующий
Representation	Представление
Reset	Восстановить
Residual	Остаток
Residual Mean Squares	Остаточный средний квадрат
Residual Sum of Squares	Остаточная сумма квадратов
Resolution	Разрешение – количество точек на дюйм
Response	Отклик
Restore	Восстановить в прежнем размере
Resume	Возобновить, продолжить
Retrieve Defaults	Применить установки по умолчанию
Ribbon	Линейка форматирования
Ridge Regression	Гребневая регрессия, ридж-регрессия
Rounding Error	Ошибка округления
Row vector	Вектор-строка
Ruler	Координатная линейка
Run	Запустить
Run All Cases	Прогнать все наблюдения
Running	Бегущий
1	2
Runs Test	Критерий знаков
Sample	Выборка
Sample Coefficient	Выборочный коэффициент, оценка коэффициента
Sample Estimate	Выборочная оценка
Sample Size	Объем (размер) выборки
Save Defaults	Сохранить по умолчанию
Scalable	Масштабируемый
Scaled	Нормированный
Scatter Diagramm (SD)	Диаграмма рассеяния
Scientific	Научная нотация (представление чисел в научной нотации, например, 5.0314 Е-02)
Scroll Bars	Линейка просмотра
S.D. (Standard Deviation) Ratio	Отношение стандартных отклонений
Selecting	Выбор
Send	Передать
Set	Множество; совокупность; семейство; ряд; последовательность
Sequential	Последовательное (приписывание рангов)
Set Cake Types	Задать типы наблюдений
Screen Catcher	Команда захвата экрана (Alt + F3)
Serial Correlation of Residuals	Сериальная корреляция остатков
Settings	Установки
Setup	Установка
Shared	Разделяемая
Shift (Lag) Variables	Сдвиг переменной
Shuffle Cases	Перемешать наблюдения
Significance Level	Уровень значимости
Significance of Regression	Значимость регрессии
Significance Test	Критерий значимости
Single Case	Одно наблюдение
Skewness of Distribution	Асимметрия распределения
Skip	Пропустить
Slope	Угловой коэффициент (наклон) (регрессии)
Smoothing Constant	Константа сглаживания
Sort Ascending	Сортировать но возрастанию
Son Descending	Сортировать по убыванию
Source	Подача (бумаги), источник
Source Variables	Исходные переменные
Split	Разделение
Spread	Распахнуть; разброс, вариация
Square of Multiple Correlation Coefficient	Квадрат множественного коэффициента корреляции (множественный коэффициент детерминации)
Stagewise	Ступенчатый
Standard Deviation (SD)	Стандартное отклонение (среднее квадратическое отклонение)
Standardize Columns	Команда стандартизации столбцов
1	2
Startup Panel	Стартовая панель модуля
Statistically Valid	Статистически обоснованный
Stats Graphs	Статистические графики
Status Bar	Строка состояния
Stepwise	Шаговый
Stepwise Regression Procedure	Шаговый регрессионный метод
Stopping Conditions	Условия остановки
Subset	Подмножество
Sum of Squares (SS)	Сумма квадратов
Swap file	Файл подкачки
Sweep	Размах, кругозор
Switch to	Переход к другой программе
T-distribution	T –распределение
T-test	T –критерий
Target Error	Целевая ошибка
Template	Шаблон
Test	Критерии, тест, проверка
Test of Hypothesis	Проверка гипотезы
Test of Significance	Проверка значимости
Test Statistic for Ho	Статистика для проверки гипотезы Но
Text Transfer	Режим подачи текста
Text Value Labels	Метки текстовых значений
Tile	Элемент мозаичного изображения
Time Sequence	Временная последовательность
Time Series	Временной ряд
Title Bar	Линейка заголовка
Tolerance	Допустимое отклонение
Toolbar	Панель (инструментов)
Total	Всего; общий
Transformation	Преобразование
Transformation on the Observations	Преобразование наблюдений
Transpose Block	Команда для транспонирования выделенного блока (контекстное меню при нажатии правой кнопки мыши)
Transpose Data File	Команда для транспонирования файла данных (переменные становятся случаями, а случаи – переменными)
Transpose of Matrix	Транспонирование матрицы
Trial	Испытание, проба
True Model	«Истинная» модель
Truncate	Урезать
Turn-key	Под ключ
Two-State Conversion	Преобразование в два значения
Two-tailed (-side) Test	Двусторонний критерий
Two-way Table	Таблица сопряженности, таблица с двумя входами
Unadjusted	Нескорректированный, без поправок
Unexplained Variation	Необъясненная вариация
1	2
Undo	Отмена
Uniform Distribution	Равномерное распределение
Unit Number	Номер элемента
Unknown	Неизвестно
Unknown Parameters	Неизвестные параметры
Unlisted	Неизвестный
Unlock	Разблокировать
Untitled	Неопределенный, неизвестный
Update	Актуализация (выбор режима)
Updated	Модернизированный, усовершенствованный
Upper–tailed Test	Односторонний критерий для верхнего «хвоста»распределения
Valid	Действительный
Validation	Обоснованность
Validation Technique	Метод перепроверки (проверки) состоятельности
Value Label	Значение меток
Variable (dependent)	Отклик, зависимая переменная
Variable (independent)	Фактор, независимая переменная
Variance about the Regression	Дисперсия относительно регрессии
Variance about Covariance Matrix	Матрица дисперсий-ковариаций
Variation	Вариация, разброс
Vector of Error	Вектор ошибок (остатков)
Vector of Observation	Вектор наблюдений
Vector of Parameters to be Estimated	Вектор оцениваемых параметров
Verbose	Подробно
Variable Definition	Определение переменной
Verify	Проверка
View	Вид
Weibull distribution	Распределение Вейбулла
Weighted Least Squares	Взвешенный метод наименьших квадратов
Win Frequencies Datasheet	Таблица частот выигрышей
Workbook	Рабочая тетрадь, рабочий журнал
Wrap	Верстка, оболочка

Приложение XIV. Краткий справочник по функциям Excel

ABS (ABS)

Возвращает модуль (абсолютную величину) числа. Абсолютная величина числа - это число без знака.

Синтаксис:

ABS(число)

Число – это действительное число, модуль которого требуется найти.

FРАСПОБР (FINV)

Возвращает обратное значение для F-распределения вероятностей. Если p = FРАСП(x;...), то FРАСПОБР(p;...) = x.

Синтаксис:

FРАСПОБР(вероятность;степени_свободы1;степени_свободы2)

Вероятность – это вероятность, связанная с F-распределением.
Степени_свободы1 – это числитель степеней свободы.
Степени_свободы2 – это знаменатель степеней свободы.

ВПР (VLOOKUP)

Ищет значение в крайнем левом столбце таблицы и возвращает значение в той же строке из указанного столбца таблицы. Функция ВПР используется вместо функции ГПР, когда сравниваемые значения расположены в столбце слева от искомых данных.

Буква «В» в имени функции ВПР означает «вертикальный».

Синтаксис:

ВПР(искомое_значение;таблица;номер_столбца;интервальный_просмотр)

Искомое_значение – это значение, которое должно быть найдено в первом столбце массива. Искомое_значение может быть значением, ссылкой или текстовой строкой.
Таблица – таблица с информацией, в которой ищутся данные. Можно использовать ссылку на интервал или имя интервала, например БазаДанных или Список.
Номер_столбца – это номер столбца в массиве «таблица», в котором должно быть найдено соответствующее значение. Если «номер_столбца» равен 1, то возвращается значение из первого столбца аргумента «таблица»; если «номер_столбца» равен 2, то возвращается значение из второго столбца аргумента «таблица» и так далее. Если «номер_столбца» меньше 1, то функция ВПР возвращает значение ошибки #ЗНАЧ!; если «номер_столбца» больше, чем количество столбцов в аргументе «таблица», то функция ВПР возвращает значение ошибки #ССЫЛ!.
Интервальный_просмотр – это логическое значение, которое определяет, нужно ли, чтобы ВПР искала точное или приближенное соответствие. Если этот аргумент имеет значение ИСТИНА или опущен, то возвращается приблизительно соответствующее значение; другими словами, если точное соответствие не найдено, то возвращается наибольшее значение, которое меньше, чем искомое_значение. Если этот аргумент имеет значение ЛОЖЬ, то функция ВПР ищет точное соответствие. Если таковое не найдено, то возвращается значение ошибки #Н/Д.

ГРАДУСЫ (DEGREES)

Преобразует радианы в градусы.

Синтаксис:

ГРАДУСЫ(угол)

Угол – это угол в радианах, преобразуемый в градусы.

ГПР (HLOOKUP)

Ищет значение в верхней строке таблицы или массива значений и возвращает значение в том же столбце из заданной строки таблицы или массива. Функция ГПР используется, когда сравниваемые значения расположены в верхней строке таблицы данных, а возвращаемые значения расположены на несколько срок ниже. Если сравниваемые значения расположены в столбце слева от искомых данных, то следует использовать функцию ВПР.

Буква Г в ГПР означает «горизонтальный».

Синтаксис:

ГПР(искомое_значение;таблица;номер_строки;интервальный_просмотр)

Искомое_значение – это значение, которое требуется найти в первой строке таблицы. Искомое_значение может быть значением, ссылкой или текстовой строкой.
Таблица – это таблица с информацией, в которой ищутся данные. Можно использовать ссылку на интервал или имя интервала.
Номер_строки – это номер строки в массиве «таблица», из которой будет возвращено сопоставляемое значение. Если «номер_строки» равен 1, то возвращается значение из первой строки аргумента «таблица», если «номер_строки» равен 2, то возвращается значение из второй строки аргумента «таблица», и так далее. Если «номер_строки» меньше 1, то функция ГПР возвращает значение ошибки #ЗНАЧ!; если «номер_строки» больше, чем количество строк в аргументе «таблица», то функция ГПР возвращает значение ошибки #ССЫЛ!.
Интервальный_просмотр – это логическое значение, которое определяет, нужно ли, чтобы функция ГПР искала точное или приближенное соответствие. Если этот аргумент имеет значение ИСТИНА или опущен, то возвращается приблизительно соответствующее значение; другими словами, если точное соответствие не найдено, то возвращается наибольшее значение, которое меньше, чем искомое_значение. Если этот аргумент имеет значение ЛОЖЬ, то функция ГПР ищет точное соответствие. Если таковое не найдено, то возвращается значение ошибки #Н/Д.

ДИСП (VAR)

Оценивает дисперсию по выборке.

Синтаксис:

ДИСП(число1;число2; ...)

Число1, число2, ... – это от 1 до 30 числовых аргументов, соответствующих выборке из генеральной совокупности.

ДИСПА (VARA)

Оценивает дисперсию по выборке. В расчете помимо численных значений учитываются также текстовые и логические значения, такие как ИСТИНА или ЛОЖЬ.

Синтаксис:

ДИСПА(значение1;значение2;...)

Значение1, значение2, ... – это от 1 до 30 числовых аргументов, соответствующих выборке из генеральной совокупности.

ДИСПР (VARP)

Вычисляет дисперсию для генеральной совокупности.

Синтаксис:

ДИСПР(число1;число2; ...)

Число1, число2, ... – это от 1 до 30 числовых аргументов, соответствующих генеральной совокупности.

ДИСПРА (VARPА)

Вычисляет дисперсию для генеральной совокупности. В расчете помимо численных значений учитываются также текстовые и логические значения, такие как ИСТИНА или ЛОЖЬ.

Синтаксис:

ДИСПРА(значение1;значение2;...)

Значение1,значение2,... – это от 1 до 30 числовых аргументов, соответствующих генеральной совокупности.

ДОВЕРИТ (CONFIDENCE)

Возвращает доверительный интервал для среднего генеральной совокупности. Доверительный интервал – это интервал с обеих сторон от среднего выборки.

Синтаксис:

ДОВЕРИТ(альфа;станд_откл;размер)

Альфа – это уровень значимости используемый для вычисления уровня надежности. Уровень надежности равняется 100*(1 - альфа) процентам, или, другими словами, альфа равное 0,05 означает 95-процентный уровень надежности.
Станд_откл – это стандартное отклонение генеральной совокупности для интервала данных, предполагается известным.
Размер – это размер выборки.

ЕСЛИ (IF)

Возвращает одно значение, если заданное условие при вычислении дает значение ИСТИНА, и другое значение, если ЛОЖЬ.

Функция ЕСЛИ используется при проверке условий для значений и формул.

Синтаксис:

ЕСЛИ(лог_выражение;значение_если_истина;значение_если_ложь)

Лог_выражение – это любое значение или выражение, принимающее значения ИСТИНА или ЛОЖЬ.
Значение_если_истина – это значение, которое возвращается, если лог_выражение равно ИСТИНА.
Значение_если_ложь – это значение, которое возвращается, если лог_выражение равно ЛОЖЬ.

КОВАР (COVAR)

Возвращает ковариацию, то есть среднее произведений отклонений для каждой пары точек данных. Ковариация используется для определения связи между двумя множествами данных. Например, можно проверить, соответствует ли более высокому уровню доходов более высокий уровень образования.

Синтаксис:

КОВАР(массив1; массив2)

Массив1 – это первый массив или интервал данных.
Массив2 – это второй массив или интервал данных.

КОРРЕЛ (CORREL)

Возвращает коэффициент корреляции меду интервалами ячеек массив1 и массив2. Коэффициент корреляции используется для определения наличия взаимосвязи между двумя свойствами.

Синтаксис:

КОРРЕЛ(массив1;массив2)

Массив1 – это ячейка интервала значений.
Массив2 – это второй интервал ячеек со значениями.

КОРЕНЬ (SQRT)

Возвращает положительное значение квадратного корня.

Синтаксис:

КОРЕНЬ(число)

Число – число, для которого вычисляется квадратный корень.

ЛИНЕЙН (LINEST)

Рассчитывает статистику для ряда с применением метода наименьших квадратов, чтобы вычислить прямую линию, которая наилучшим образом аппроксимирует имеющиеся данные. Функция возвращает массив, который описывает полученную прямую. Поскольку возвращается массив значений, функция должна задаваться в виде формулы массива.

Уравнение для прямой линии имеет следующий вид:

y = mx + b или

y = m1x1 + m2x2 + ... + b (в случае нескольких диапазонов значений x),

где зависимое значение y – функция независимого значения x, значения m – коэффициенты, соответствующие каждой независимой переменной x, а b – постоянная. y, x и m могут быть векторами. Функция ЛИНЕЙН возвращает массив {mn;mn-1;...;m1;b}. ЛИНЕЙН может также возвращать дополнительную регрессионную статистику.

Синтаксис:

ЛИНЕЙН(известные_значения_y;известные_значения_x;конст;статистика)

Известные_значения_y – множество значений y, которые уже известны для соотношения y = mx + b.

Если массив известные_значения_y имеет один столбец, то каждый столбец массива известные_значения_x интерпретируется как отдельная переменная.

Если массив известные_значения_y имеет одну строку, то каждая строка массива известные_значения_x интерпретируется как отдельная переменная.

Известные_значения_x – необязательное множество значений x, которые уже известны для соотношения y = mx + b.

Массив известные_значения_x может содержать одно или несколько множеств переменных. Если используется только одна переменная, то известные_значения_y и известные_значения_x могут иметь любую форму, при условии, что они имеют одинаковую размерность. Если используется более одной переменной, то известные_значения_y должны быть вектором (то есть интервалом высотой в одну строку или шириной в один столбец).

Если известные_значения_x опущены, то предполагается, что это массив {1;2;3;...} такого же размера, как и известные_значения_y.

Конст – логическое значение, которое указывает, требуется ли, чтобы константа b была равна 0.

Если конст имеет значение ИСТИНА или опущено, то b вычисляется обычным образом.

Если аргумент конст имеет значение ЛОЖЬ, то b полагается равным 0 и значения m подбираются так, чтобы выполнялось соотношение y = mx.

Статистика – логическое значение, которое указывает, требуется ли вернуть дополнительную статистику по регрессии.

Если аргумент статистика имеет значение ИСТИНА, то функция ЛИНЕЙН возвращает дополнительную регрессионную статистику, так что возвращаемый массив будет иметь вид: {mn;mn-1;...;m1;b:sen;sen-1;...;se1;seb:r2;sey:F;df:ssreg;ssresid}.

Если аргумент статистика имеет значение ЛОЖЬ или опущен, то функция ЛИНЕЙН возвращает только коэффициенты m и постоянную b.

Дополнительная регрессионная статистика:

Величина	Описание
se1,se2,...,sen	Стандартные значения ошибок для коэффициентов m1,m2,...,mn.
seb	Стандартное значение ошибки для постоянной b (seb = #Н/Д, если конст имеет значение ЛОЖЬ).
r2	Коэффициент детерминированности. Сравниваются фактические значения y и значения, получаемые из уравнения прямой; по результатам сравнения вычисляется коэффициент детерминированности, нормированный от 0 до 1. Если он равен 1, то имеет место полная корреляция с моделью, т. е. нет различия между фактическим и оценочным значениями y. В противоположном случае, если коэффициент детерминированности равен 0, то уравнение регрессии неудачно для предсказания значений y. Для получения информации о том, как вычисляется r2, см. «Заметки» в конце данного раздела.
sey	Стандартная ошибка для оценки y.
F	F-статистика, или F-наблюдаемое значение. F-статистика используется для определения того, является ли наблюдаемая взаимосвязь между зависимой и независимой переменными случайной или нет.
df	Степени свободы. Степени свободы полезны для нахождения F-критических значений в статистической таблице. Для определения уровня надежности модели нужно сравнить значения в таблице с F-статистикой, возвращаемой функцией ЛИНЕЙН.
ssreg	Регрессионная сумма квадратов.
ssresid	Остаточная сумма квадратов.

ЛГРФПРИБЛ (LOGEST)

В регрессионном анализе вычисляется экспоненциальная кривая, аппроксимирующая данные и возвращается массив значений, описывающий эту кривую. Поскольку данная функция возвращает массив значений, она должна вводиться как формула массива.

Уравнение кривой имеет вид

y = b*m^x или

y = (b*(m1^x1)*(m2^x2)*_) (в случае нескольких значений x),

где зависимые значения y являются функцией независимых значений x. Значения m являются основанием, возводимым в степень x, а значения b постоянны. y, x и m могут быть векторами. Функция ЛГРФПРИБЛ возвращает массив {mn;mn-1;...;m1;b}.

Синтаксис:

ЛГРФПРИБЛ(известные_значения_y;известные_значения_x;конст;статистика)

Известные_значения_y – множество значений y, которые уже известны в соотношении y = b*m^x.

Известные_значения_x – необязательное множество значений x, которые уже известны для соотношения y = b*m^x.

Массив известные_значения_x может включать одно или более множеств переменных. Если используется только одна переменная, то известные_значения_y и известные_значения_x могут быть диапазонами любой формы, если только они имеют одинаковые размерности. Если используется более одной переменной, то аргумент известные_значения_y должен быть диапазоном ячеек высотой в одну строку или шириной в один столбец (так называемым вектором).

Конст – логическое значение, которое указывает, требуется ли, чтобы константа b была равна 1.

Если конст имеет значение ИСТИНА или опущено, то b вычисляется обычным образом.

Если конст имеет значение ЛОЖЬ, то b полагается равным 1 и значения m подбираются так, чтобы удовлетворить соотношению y = m^x.

Статистика – логическое значение, которое указывает, требуется ли вернуть дополнительную статистику по регрессии.

Если статистика имеет значение ИСТИНА, то функция ЛГРФПРИБЛ возвращает дополнительную статистику по регрессии, то есть возвращает массив {mn;mn-1;...;m1;b:sen;sen-1;...;se1;seb:r 2;sey;F;df:ssreg;ssresid}.

Если статистика имеет значение ЛОЖЬ или опущено, то функция ЛГРФПРИБЛ возвращает только коэффициенты m и константу b.

Для получения более подробной информации о дополнительной статистике по регрессии, см. справку по функции ЛИНЕЙН.

МАКС (MAX)

Возвращает наибольшее значение из набора значений.

Синтаксис:

МАКС(число1;число2; ...)

Число1, число2, ... – от 1 до 30 чисел, среди которых требуется найти наибольшее.

МАКСА (MAXA)

Возвращает наибольшее значение в списке аргументов. Наряду с числовыми значениями выполняется также сравнение текстовых и логических (таких как ИСТИНА и ЛОЖЬ) значений.

Функция МАКСА родственна функции МИНА.

Синтаксис:

МАКСА(значение1;значение2;...)

Значение1, значение2,... – от 1 до 30 значений, среди которых требуется найти наибольшее.

МЕДИАНА (MEDIAN)

Возвращает медиану заданных чисел. Медиана – это число, которое является серединой множества чисел, то есть половина чисел имеют значения большие, чем медиана, а половина чисел имеют значения меньшие, чем медиана.

Синтаксис:

МЕДИАНА(число1;число2;...)

Число1, число2, ... – от 1 до 30 чисел, для которых определяется медиана.

МИН (MIN)

Возвращает наименьшее значение в списке аргументов.

Синтаксис:

МИН(число1;число2; ...)

Число1, число2, ... – от 1 до 30 чисел, среди которых требуется найти наименьшее.

МИНА (MINA)

Возвращает наименьшее значение в списке аргументов. Наряду с числовыми значениями выполняется также сравнение текстовых и логических, таких как ИСТИНА и ЛОЖЬ, значений.

Синтаксис:

МИНА (значение1;значение2;...)

Значение1, значение2,... – от 1 до 30 значений, среди которых требуется найти наименьшее.

МОБР (MINVERSE)

Возвращает обратную матрицу для матрицы, хранящейся в массиве.

Синтаксис:

МОБР(массив)

Массив – числовой массив с равным количеством строк и столбцов.

МОДА (MODE)

Возвращает наиболее часто встречающееся или повторяющееся значение в массиве или интервале данных. Как и функция МЕДИАНА, функция МОДА является мерой взаимного расположения значений.

Синтаксис:

МОДА(число1;число2; ...)

Число1, число2, ... – от 1 до 30 аргументов, для которых вычисляется мода. Можно использовать один массив или одну ссылку на массив вместо аргументов, разделяемых точкой с запятой.

МОПРЕД (MDETERM)

Возвращает определитель матрицы (матрица хранится в массиве).

Синтаксис:

МОПРЕД(массив)

Массив – числовой массив с равным количеством строк и столбцов.

МУМНОЖ (MMULT)

Возвращает произведение матриц (матрицы хранятся в массивах). Результатом является массив с таким же числом строк, как массив1 и с таким же числом столбцов, как массив2.

Синтаксис:

МУМНОЖ(массив1;массив2)

Массив1, массив2 – перемножаемые массивы.

НАИБОЛЬШИЙ (LARGE)

Возвращает k-ое по величине значение из множества данных. Эта функция позволяет выбрать значение по его относительному местоположению.

Синтаксис:

НАИБОЛЬШИЙ(массив;k)

Массив – массив или интервал данных, для которых определяется k-ое наибольшее значение.
k – позиция (начиная с наибольшей) в массиве или интервале ячеек данных.

НАИМЕНЬШИЙ (SMALL)

Возвращает k-ое наименьшее значение в множестве данных. Эта функция используется для определения значения, занимающего определенное относительное положение в множестве данных.

Синтаксис:

НАИМЕНЬШИЙ(массив;k)

Массив – массив или диапазон числовых данных, для которого определяется k-ое наименьшее значение.
k – позиция (начиная с наименьшей) в массиве или интервале ячеек данных.

НАКЛОН (SLOPE)

Возвращает наклон линии линейной регрессии для точек данных в аргументах известные_значения_y и известные_значения_x. Наклон определяется как частное от деления расстояния по вертикали на расстояние по горизонтали между двумя любыми точками прямой, то есть наклон – это скорость изменения значений вдоль прямой.

Синтаксис:

НАКЛОН(известные_значения_y;известные_значения_x)

Известные_значения_y – массив или интервал ячеек, содержащих числовые зависимые точки данных.
Известные_значения_x – множество независимых точек данных.

НОРМРАСП (NORMDIST)

Возвращает нормальную функцию распределения для указанного среднего и стандартного отклонения. Эта функция имеет очень широкий круг приложений в статистике, включая проверку гипотез.

Синтаксис:

НОРМРАСП(x;среднее;стандартное_откл;интегральная)

x – значение, для которого строится распределение.
Среднее – среднее арифметическое распределения.
Стандартное_откл – стандартное отклонение распределения.
Интегральная – логическое значение, определяющее форму функции. Если интегральная имеет значение ИСТИНА, то функция НОРМРАСП возвращает интегральную функцию распределения; если это аргумент имеет значение ЛОЖЬ, то возвращается функция плотности распределения.

НОРМСТОБР (NORMSINV)

Возвращает обратное значение стандартного нормального распределения. Это распределение имеет среднее равное нулю и стандартное отклонение равное единице.

Синтаксис:

НОРМСТОБР(вероятность)

Вероятность – вероятность, соответствующая нормальному распределению.

НОРМСТРАСП (NORMSDIST)

Возвращает стандартное нормальное интегральное распределение. Это распределение имеет среднее, равное нулю, и стандартное отклонение, равное единице. Эта функция используется вместо таблицы для стандартной нормальной кривой.

Синтаксис:

НОРМСТРАСП(z)

z – значение, для которого строится распределение.

ОТРЕЗОК (INTERCEPT)

Вычисляет точку пересечения линии с осью y, используя известные_значения_x и известные_значения_y. Точка пересечения находится на оптимальной линии регрессии, проведенной через известные_значения_x и известные_значения_y. Функция ОТРЕЗОК используется, когда нужно определить значение зависимой переменной при значении независимой переменной, равном 0 (нулю).

Синтаксис:

ОТРЕЗОК(известные_значения_x;известные_значения_y)

Известные_значения_y – это зависимое множество наблюдений или данных.
Известные_значения_x – это независимое множество наблюдений или данных.

ПИ (PI)

Возвращает число 3,14159265358979, математическую константу «пи» с точностью до 15 цифр.

Синтаксис:

ПИ( )

ПРЕДСКАЗ (FORECAST)

Вычисляет или предсказывает будущее значение по существующим значениям. Предсказываемое значение – это y-значение, соответствующее заданному x-значению. Известные значения – это x- и y-значения, а новое значение предсказывается с использованием линейной регрессии. Эту функцию можно использовать для предсказания будущих продаж, потребностей в оборудовании или тенденций потребления.

Синтаксис:

ПРЕДСКАЗ(x;известные_значения_y;известные_значения_x)

x – это точка данных, для которой предсказывается значение.
Известные_значения_y – это зависимый массив или интервал данных.
Известные_значения_x – это независимый массив или интервал данных.

ПУАССОН (POISSON)

Возвращает распределение Пуассона. Обычное применение распределения Пуассона состоит в предсказании количества событий, происходящих за определенное время.

Синтаксис:

ПУАССОН(x;среднее;интегральная)

x – количество событий.
Среднее – ожидаемое численное значение.
Интегральная – логическое значение, определяющее форму возвращаемого распределения вероятностей. Если аргумент «интегральная» имеет значение ИСТИНА, то функция ПУАССОН возвращает интегральное распределение Пуассона, то есть вероятность того, что число случайных событий будет от 0 до x включительно. Если этот аргумент имеет значение ЛОЖЬ, то возвращается функция плотности распределения Пуассона, то есть вероятность того, что событий будет в точности x.

РАДИАНЫ (RADIANS)

Преобразует градусы в радианы.

Синтаксис:

РАДИАНЫ(угол)

Угол – величина угла в градусах, которую требуется преобразовать.

РОСТ (GROWTH)

Рассчитывает прогнозируемый экспоненциальный рост на основании имеющихся данных. Функция РОСТ возвращает значения y для последовательности новых значений x, задаваемых с помощью существующих x- и y-значений. Функция рабочего листа РОСТ может применяться также для для аппроксимации существующих x- и y-значений экспоненциальной кривой.

Синтаксис:

РОСТ(известные_значения_y;известные_значения_x;новые_значения_x;конст)

Известные_значения_y – это множество значений y, которые уже известны в соотношении y = b*m^x.

Если какие-либо числа в массиве известные_значения_y равны 0 или отрицательны, то функция РОСТ возвращает значение ошибки #ЧИСЛО!.

Известные_значения_x – это необязательное множество значений x, которые уже известны для соотношения y = b*m^x.

Новые_значения_x – это новые значения x, для которых РОСТ возвращает соответствующие значения y.

Новые_значения_x должны содержать столбец (или строку) для каждой независимой переменной, как и известные_значения_x. Таким образом, если известные_значения_y — это один столбец, то известные_значения_x и новые_значения_x должны иметь такое же количество столбцов. Если известные_значения_y — это одна строка, то известные_значения_x и новые_значения_x должны иметь такое же количество строк.

Если аргумент новые_значения_x опущен, то предполагается, что он совпадает с аргументом известные_значения_x.

Если оба аргумента известные_значения_x и новые_значения_x опущены, то предполагается, что это массив {1;2;3;...} такого же размера, как и известные_значения_y.

Конст – это логическое значение, которое указывает, требуется ли, чтобы константа b была равна 1.

Если конст имеет значение ИСТИНА или опущено, то b вычисляется обычным образом.

Если конст имеет значение ЛОЖЬ, то b полагается равным 1, а значения m подбираются так, чтобы y = m^x.

СКОС (SKEW)

Возвращает асимметрию распределения. Асимметрия характеризует степень несимметричности распределения относительно его среднего. Положительная асимметрия указывает на отклонение распределения в сторону положительных значений. Отрицательная асимметрия указывает на отклонение распределения в сторону отрицательных значений.

Синтаксис:

СКОС(число1;число2; ...)

Число1, число2, ... – от 1 до 30 аргументов, для которых вычисляется асимметрия. Можно использовать один массив или одну ссылку на массив вместо аргументов, разделяемых точкой с запятой.

СРЗНАЧ (AVERAGE)

Возвращает среднее (арифметическое) своих аргументов.

Синтаксис:

СРЗНАЧ(число1; число2; ...)

Число1, число2, ... – это от 1 до 30 аргументов, для которых вычисляется среднее.

СРЗНАЧА (AVERAGEA)

Вычисляет среднее арифметическое значений, заданных в списке аргументов. Помимо чисел в расчете могут участвовать текст и логические значения, такие как ИСТИНА и ЛОЖЬ.

Синтаксис:

СРЗНАЧА(значение1; значение2;...)

Значение1, значение2,... – это от 1 до 30 ячеек, интервалов ячеек или значений, для которых вычисляется среднее.

СРОТКЛ (AVEDEV)

Возвращает среднее абсолютных значений отклонений точек данных от среднего. СРОТКЛ является мерой разброса множества данных.

Синтаксис:

СРОТКЛ(число1; число2; ...)

Число1, число2, ... – это от 1 до 30 аргументов, для которых определяется среднее абсолютных отклонений. Можно использовать массив или ссылку на массив вместо аргументов, разделяемых точкой с запятой.

СТАНДОТКЛОН (STDEV)

Оценивает стандартное отклонение по выборке. Стандартное отклонение – это мера того, насколько широко разбросаны точки данных относительно их среднего.

Синтаксис:

СТАНДОТКЛОН(число1; число2; ...)

Число1, число2, ... – от 1 до 30 числовых аргументов, соответствующих выборке из генеральной совокупности. Вместо аргументов, разделенных точкой с запятой, можно также использовать массив или ссылку на массив.

СТАНДОТКЛОНА (STDEVA)

Оценивает стандартное отклонение по выборке. Стандартное отклонение – это мера того, насколько широко разбросаны точки данных относительно их среднего. В расчете также учитываются текстовые и логические значения, такие как ИСТИНА или ЛОЖЬ.

Синтаксис:

СТАНДОТКЛОНА(значение1;значение2,...)

Значение1, значение2, ... – от 1 до 30 значений, соответствующих выборке из генеральной совокупности. Вместо аргументов, разделяемых точкой с запятой, можно также использовать массив или ссылку на массив.

СТАНДОТКЛОНП (STDEVP)

Вычисляет стандартное отклонение по генеральной совокупности. Стандартное отклонение – это мера того, насколько широко разбросаны точки данных относительно их среднего.

Синтаксис:

СТАНДОТКЛОНП(число1; число2; ...)

Число1, число2, ... – от 1 до 30 числовых аргументов, соответствующих генеральной совокупности. Вместо аргументов, разделяемых точкой с запятой, также можно использовать массив или ссылку на массив.

Текст и логические значения, такие как ИСТИНА или ЛОЖЬ игнорируются. Если текст и логические значения игнорироваться не должны, следует использовать функцию рабочего листа СТАНДОТКЛОНА.

СТАНДОТКЛОНПА (STDEVPA)

Вычисляет стандартное отклонение по генеральной совокупности, заданной аргументами, которые могут включать текст и логические значения. Стандартное отклонение – это мера того, насколько широко разбросаны точки данных относительно их среднего. В расчете также учитываются текстовые и логические значения, такие как ИСТИНА или ЛОЖЬ.

Синтаксис:

СТАНДОТКЛОНПА(значение1;значение2;...)

Значение1, значение2, ... – от 1 до 30 значений, соответствующих генеральной совокупности. Вместо аргументов, разделяемых точкой с запятой, можно также использовать массив или ссылку на массив.

СТЬЮДРАСПОБР (TINV)

Возвращает t-значение распределения Стьюдента как функцию вероятности и числа степеней свободы.

Синтаксис:

СТЬЮДРАСПОБР(вероятность;степени_свободы)

Вероятность – вероятность, соответствующая двустороннему распределению Стьюдента.
Степени_свободы – число степеней свободы, характеризующее распределение.

СУММ (SUM)

Суммирует все числа в интервале ячеек.

Синтаксис:

СУММ(число1;число2; ...)

Число1, число2, ... – от 1 до 30 аргументов, для которых требуется определить итог или сумму.

СЧЕТ (COUNT)

Подсчитывает количество чисел в списке аргументов. Функция СЧЁТ используется для получения количества числовых ячеек в интервалах или массивах ячеек.

Синтаксис:

СЧЁТ(значение1; значение2; ...)

Значение1, значение2, ... – это от 1 до 30 аргументов, которые могут содержать или ссылаться на данные различных типов, но в подсчете участвуют только числа.

СЧЕТЗ (COUNTA)

Подсчитывает количество непустых значений в списке аргументов. Функция СЧЁТЗ используется для подсчета количества ячеек с данными в интервале или массиве.

Синтаксис:

СЧЁТЗ(значение1; значение2; ...)

Значение1, значение2, ... – это от 1 до 30 аргументов, количество которых требуется сосчитать. В данном случае значением считается значение любого типа, включая пустую строку (""), но не включая пустые ячейки. Если аргументом является массив или ссылка, то пустые ячейки в массиве или ссылке игнорируются.

ТЕНДЕНЦИЯ (TREND)

Возвращает значения в соответствии с линейным трендом. Аппроксимирует прямой линией (по методу наименьших квадратов) массивы известные_значения_y и известные_значения_x. Возвращает значения y, в соответствии с этой прямой для заданного массива новые_значения_x.

Синтаксис:

ТЕНДЕНЦИЯ(известные_значения_y;известные_значения_x;новые_значения_x;конст)

Известные_значения_y – множество значений y, которые уже известны для соотношения y = mx + b.

Известные_значения_x – необязательное множество значений x, которые уже известны для соотношения y = mx + b.

Новые_значения_x – новые значения x, для которых ТЕНДЕНЦИЯ возвращает соответствующие значения y.

Если новые_значения_x опущены, то предполагается, что они совпадают с известные_значения_x.

Если опущены оба массива известные_значения_x и новые_значения_x, то предполагается, что это массив {1;2;3;...} такого же размера, что и известные_значения_y.

Конст – логическое значение, которое указывает, требуется ли, чтобы константа b была равна 0.

Если конст имеет значение ИСТИНА или опущено, то b вычисляется обычным образом.

Если конст имеет значение ЛОЖЬ, то b полагается равным 0, и значения m подбираются таким образом, чтобы выполнялось соотношение y = mx.

ТТЕСТ (TTEST)

Возвращает вероятность, соответствующую критерию Стьюдента. Функция ТТЕСТ используется, чтобы определить, насколько вероятно, что две выборки взяты из генеральных совокупностей, которые имеют одно и то же среднее.

Синтаксис:

ТТЕСТ(массив1;массив2;хвосты;тип)

Массив1 – первое множество данных.
Массив2 – второе множество данных.
Хвосты – число хвостов распределения. Если хвосты = 1, то функция ТТЕСТ использует одностороннее распределение. Если хвосты = 2, то функция ТТЕСТ использует двустороннее распределение.

Тип – вид исполняемого t-теста.

Тип	Выполняемый тест
1	Парный
2	Двухвыборочный с равными дисперсиями (гомоскедастический)
3	Двухвыборочный с неравными дисперсиями (гетероскедастический)

ФТЕСТ (FTEST)

Возвращает результат F-теста. F-тест возвращает одностороннюю вероятность того, что дисперсии аргументов массив1 и массив2 различаются несущественно. Эта функция используется для того, чтобы определить, имеют ли две выборки различные дисперсии.

Синтаксис:

ФТЕСТ(массив1;массив2)

Массив1 – это первый массив или интервал данных.
Массив2 – это второй массив или интервал данных.

ХИ2ОБР (CHIINV)

Возвращает значение, обратное к односторонней вероятности распределения γ2 (хи-квадрат). Если вероятность = ХИ2РАСП(x;...), то ХИ2ОБР(вероятность;...) = x. функция используется для сравнения наблюдаемых результатов с ожидаемыми, для того, чтобы решить была ли исходная гипотеза обоснованной.

Синтаксис:

ХИ2ОБР(вероятность;степени_свободы)

Вероятность – это вероятность, связанная с распределением c2 (хи-квадрат).
Степени_свободы – это число степеней свободы.

ХИ2ТЕСТ (CHITEST)

Возвращает тест на независимость. ХИ2ТЕСТ возвращает значение для распределения хи-квадрат (γ2). Критерий γ2 используется для определения того, подтверждается ли гипотеза экспериментом.

Синтаксис:

ХИ2ТЕСТ(фактический_интервал;ожидаемый_интервал)

Фактический_интервал – это интервал данных, которые содержат наблюдения, подлежащие сравнению с ожидаемыми значениями.
Ожидаемый_интервал – это интервал данных, который содержит отношение произведений итогов по строкам и столбцам к общему итогу.

ЧАСТОТА (FREQUENCY)

Вычисляет частоту появления значений в интервале значений и возвращает массив цифр. Поскольку данная функция возвращает массив, она должна задаваться в качестве формулы массива.

Синтаксис:

ЧАСТОТА(массив_данных;массив_интервалов)

Массив_данных – массив или ссылка на множество данных, для которых вычисляются частоты. Если массив_данных не содержит значений, то функция ЧАСТОТА возвращает массив нулей.
Массив_интервалов – массив или ссылка на множество интервалов, в которые группируются значения аргумента массив_данных. Если массив_интервалов не содержит значений, то функция ЧАСТОТА возвращает количество элементов в аргументе массив_данных.

ЭКСЦЕСС (KURT)

Возвращает эксцесс множества данных. Эксцесс характеризует относительную остроконечность или сглаженность распределения по сравнению с нормальным распределением. Положительный эксцесс обозначает относительно остроконечное распределение. Отрицательный эксцесс обозначает относительно сглаженное распределение.

Синтаксис:

ЭКСЦЕСС(число1;число2; ...)

Приложение XV. Средства статистического анализа данных в Excel

В состав Microsoft Excel входит набор средств анализа данных (так называемый пакет анализа), предназначенный для решения сложных статистических и инженерных задач. Для анализа данных с помощью этих инструментов следует указать входные данные и выбрать параметры; анализ будет выполнен с помощью подходящей статистической или инженерной макрофункции, а результат будет помещен в выходной диапазон. Другие средства позволяют представить результаты анализа в графическом виде.

Обращение к средствам анализа данных. Средства, которые включены в пакет анализа данных доступны через команду Анализ данных меню Сервис. Если этой команды нет в меню, необходимо загрузить надстройку Пакет анализа (Надстройки меню Сервис).

Дисперсионный анализ

Существует несколько видов дисперсионного анализа. Требуемый вариант выбирается с учетом числа факторов и имеющихся выборок из генеральной совокупности.

Однофакторный дисперсионный анализ. Однофакторный дисперсионный анализ используется для проверки гипотезы о сходстве средних значений двух или более выборок, принадлежащих одной и той же генеральной совокупности. Этот метод распространяется также на тесты для двух средних (к которым относится, например, t-критерий).

Двухфакторный дисперсионный анализ с повторениями. Представляет собой более сложный вариант однофакторного анализа с несколькими выборками для каждой группы данных.

Двухфакторный дисперсионный анализ без повторения. Представляет собой двухфакторный анализ дисперсии, не включающий более одной выборки на группу. Используется для проверки гипотезы о том, что средние значения двух или нескольких выборок одинаковы (выборки принадлежат одной и той же генеральной совокупности). Этот метод распространяется также на тесты для двух средних, такие как t-критерий.

Корреляционный анализ

Корреляционный анализ применяется для количественной оценки взаимосвязи двух наборов данных, представленных в безразмерном виде. Коэффициент корреляции выборки представляет отношение ковариации двух наборов данных к произведению их стандартных отклонений и рассчитывается по следующим формулам.

Корреляционный анализ дает возможность установить, ассоциированы ли наборы данных по величине, то есть, большие значения из одного набора данных связаны с большими значениями другого набора (положительная корреляция), или, наоборот, малые значения одного набора связаны с большими значениями другого (отрицательная корреляция), или данные двух диапазонов никак не связаны (нулевая корреляция).

Примечание. Для вычисления коэффициента корреляции между двумя наборами данных на листе используется статистическая функция КОРРЕЛ.

Ковариационный анализ

Ковариация является мерой связи между двумя диапазонами данных. Используется для вычисления среднего произведения отклонений точек данных от относительных средних по следующей формуле.

Ковариационный анализ дает возможность установить, ассоциированы ли наборы данных по величине, то есть, большие значения из одного набора данных связаны с большими значениями другого набора (положительная ковариация), или, наоборот, малые значения одного набора связаны с большими значениями другого (отрицательная ковариация), или данные двух диапазонов никак не связаны (ковариация близка к нулю).

Примечание. Вычисления ковариации для отдельной пары данных производятся с помощью статистической функции КОВАР.

Описательная статистика

Это средство анализа служит для создания одномерного статистического отчета, содержащего информацию о центральной тенденции и изменчивости входных данных.

Экспоненциальное сглаживание

Применяется для предсказания значения на основе прогноза для предыдущего периода, скорректированного с учетом погрешностей в этом прогнозе. При анализе используется константа сглаживания a, по величине которой определяется степень влияния на прогнозы погрешностей в предыдущем прогнозе.

Двухвыборочный F-тест для дисперсии

Двухвыборочный F-тест применяется для сравнения дисперсий двух генеральных совокупностей.

Например, F-тест можно использовать для выявления различия в дисперсиях временных характеристик, вычисленных по двум выборкам.

Анализ Фурье

Предназначается для решения задач в линейных системах и анализа периодических данных на основе метода быстрого преобразования Фурье (БПФ). Эта процедура поддерживает также обратные преобразования, при этом, инвертирование преобразованных данных возвращает исходные данные.

Гистограмма

Используется для вычисления выборочных и интегральных частот попадания данных в указанные интервалы значений. При этом рассчитываются числа попаданий для заданного диапазона ячеек.

Например, необходимо выявить тип распределения успеваемости в группе из 20 студентов. Таблица гистограммы состоит из границ шкалы оценок и количеств студентов, уровень успеваемости которых находится между самой нижней границей и текущей границей. Наиболее часто повторяемый уровень является модой интервала данных.

Скользящее среднее

Скользящее среднее используется для расчета значений в прогнозируемом периоде на основе среднего значения переменной для указанного числа предшествующих периодов. Скользящее среднее, в отличие от простого среднего для всей выборки, содержит сведения о тенденциях изменения данных. Этот метод может использоваться для прогноза сбыта, запасов и других процессов.

Генерация случайных чисел

Используется для заполнения диапазона случайными числами, извлеченными из одного или нескольких распределений. С помощью данной процедуры можно моделировать объекты, имеющие случайную природу, по известному распределению вероятностей.

Ранг и персентиль

Используется для вывода таблицы, содержащей порядковый и процентный ранги для каждого значения в наборе данных. Данная процедура может быть применена для анализа относительного взаиморасположения данных в наборе.

Регрессия

Линейный регрессионный анализ заключается в подборе графика для набора наблюдений с помощью метода наименьших квадратов. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или более независимых переменных.

Выборка

Создает выборку из генеральной совокупности, рассматривая входной диапазон как генеральную совокупность. Если совокупность слишком велика для обработки или построения диаграммы, можно использовать представительную выборку. Кроме того, если предполагается периодичность входных данных, то можно создать выборку, содержащую значения только из отдельной части цикла.

T-тест

Этот вид анализа используется для проверки средних для различных типов генеральных совокупностей.

Двухвыборочный t-тест с одинаковыми дисперсиями. Двухвыборочный t-тест Стьюдента служит для проверки гипотезы о равенстве средних для двух выборок. Эта форма t-теста предполагает совпадение дисперсий генеральных совокупностей и обычно называется гомоскедастическим t-тестом.

Двухвыборочный t-тест с разными дисперсиями. Двухвыборочный t-тест Стьюдента используется для проверки гипотезы о равенстве средних для двух выборок данных из разных генеральных совокупностей. Эта форма t-теста предполагает несовпадение дисперсий генеральных совокупностей и обычно называется гетероскедастическим t-тестом. Если тестируется одна и та же генеральная совокупность, используйте парный тест.

Парный двухвыборочный t-тест для средних. Парный двухвыборочный t-тест Стьюдента используется для проверки гипотезы о различии средних для двух выборок данных. В нем не предполагается равенство дисперсий генеральных совокупностей, из которых выбраны данные. Парный тест используется, когда имеется естественная парность наблюдений в выборках, например, когда генеральная совокупность тестируется дважды – до и после эксперимента.

Z-тест

Двухвыборочный z-тест для средних с известными дисперсиями. Используется для проверки гипотезы о различии между средними двух генеральных совокупностей.

<<< < Предыдущая 1 23 / 33

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
04.06.2015198.14 Кб19Morfemika_zhurnalisty1.doc
#
04.06.201518.53 Mб364Moya_SES.docx
#
13.09.20191.6 Mб4Moya_zapiska_tmmpppp.docx
#
04.06.20153.06 Mб7MSFO_prezentacija.pdf
#
09.11.20194.26 Mб70MU_Geo_new_1.doc
#
09.11.20194.51 Mб29MU_Geo_new_2.doc
#
04.06.2015272.57 Кб49MU_kr_UCHR_2013111111.pdf
#
04.06.20151.09 Mб205MU_Stroit_mashiny_15_10_12.docx
#
04.06.2015174.26 Кб4mz220_2003.pdf
#
24.09.2019541.76 Кб4nashi_otvety_po_VssT.docx
#
21.09.2019202.24 Кб1not bad.DOC