Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
MU_Geo_new_2.doc
Скачиваний:
29
Добавлен:
09.11.2019
Размер:
4.51 Mб
Скачать

6) Вроцлавская таксономия

Результатом работы программы, использующей метод максимального корреляционного пути, являются пары чисел, указывающие порядок «соединения» подлежащих классификации параметров или объектов, наиболее близких попарно. Получающийся кратчайший замкнутый путь можно отобразить графически в виде оптимального дерева (дендрита), как это описано в следующем разделе.

Классифицируемы могут быть параметры либо объекты. Метод похож на метод ближайшей связи, однако относится к алгоритмам типа разрезания графа и напоминает методы вроцлавской таксономии. Если в качестве меры сходства применяется коэффициент корреляции, получается метод максимального корреляционного пути.

Методы иерархической группировки (численной таксономии) исходных множеств получили название кластер-анализа, то есть анализа групп. Первоначально они применялись в биологии и палеонтологии, а в настоящее время широко используются в различных отраслях геолого-минералогических наук, в частности, при классификации парагенетических ассоциаций элементов земной коры.

Термин кластерный анализ (впервые ввел Tryon, 1939) в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, то есть развернуть таксономии. Например, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соответствии с современной системой, принятой в биологии, человек принадлежит к приматам, млекопитающим, амниотам, позвоночным и животным. Заметьте, что в этой классификации, чем выше уровень агрегации, тем меньше сходства между членами в соответствующем классе. Человек имеет больше сходства с другими приматами (то есть с обезьянами), чем с «отдаленными» членами семейства млекопитающих (например, собаками) и т.д. Фактически, кластерный анализ является не столько обычным статистическим методом, сколько «набором» различных алгоритмов «распределения объектов по кластерам». Существует точка зрения, что в отличие от многих других статистических процедур, методы кластерного анализа используются в большинстве случаев тогда, когда вы не имеете каких-либо априорных гипотез относительно классов, но все еще находитесь в описательной стадии исследования. Следует понимать, что кластерный анализ определяет «наиболее возможно значимое решение». Поэтому проверка статистической значимости в действительности здесь неприменима, даже в случаях, когда известны p-уровни (как, например, в методе K-средних).

Задача кластер-анализа сводится к разбиению множества элементов корреляционной матрицы признаков [R] на группы таким образом, чтобы в них объединялись объекты с наивысшими значениями характеристик сходства, а разобщенные группы оставались бы при этом максимально изолированными по данному признаку. В качестве меры сходства могут использоваться непосредственно парные коэффициенты корреляции, m-мерное эвклидово расстояние или другие дистанционные коэффициенты.

МЕТРИКИ

Мера сходства между элементами множеств (типа расстояния) называется метрикой, если она удовлетворяет определенным условиям: симметрии, неравенству треугольника, различимости нетождественных объектов и неразличимости тождественных объектов.

Метрика Минковского

Наиболее общей метрикой является метрика Минковского. Степень разности значений можно выбрать в пределах от 1 до 4. Если эту степень взять равной 2, то получим евклидово расстояние. Расстояние Минковского равно корню r-ой степени из суммы абсолютных разностей пар значений взятых в r-ой степени:

distance(x,y) = {i (xi - yi)r }1/r

Евклидова метрика

Это наиболее часто выбираемый тип расстояния. Это просто геометрическое расстояние в многомерном пространстве. Евклидова дистанция между двумя точками х и у – это наименьшее расстояние  между ними. В двух- или трёхмерном случае – это прямая, соединяющая данные точки. Если в метрике Минковского положить r=2, мы получим стандартное евклидово расстояние (евклидову метрику)

distance(x,y) = {i (xi - yi)2 }½

Квадратная евклидова метрика (квадрат евклидова расстояния)

Дает больший по сравнению с евклидовой метрикой вес объектов, которые размещаются более обособленно. Благодаря возведению в квадрат при расчёте лучше учитываются большие разности

distance(x,y) = i (xi - yi)2

Манхеттенское расстояние

Это расстояние просто среднее различие поперечных измерений. При r=1 метрика Минковского дает манхеттенское расстояние (метрику города, city block, Manhattan distance). Эта дистанционная мера, называемая также дистанцией Манхэттена или в шутку – дистанцией таксиста, определяется суммой абсолютных разностей пар значений. Для двумерного пространства это не прямолинейное евклидова расстояние между двумя точками, а путь, который должен преодолеть Манхэттенский таксист, чтобы проехать от одного дома к другому по улицам, пересекающимся под прямым углом

distance(x,y) = i |xi - yi|

Чебышевское расстояние

Эта мера расстояния может быть соответствующая в случаях, когда каждый хочет определить два объекта как «различные», если они различны на любом из измерений. Разностью двух наблюдений является абсолютное значение максимальной разности последовательных пар переменных, соответствующих этим наблюдениям.

distance(x,y) = Maximum|xi - yi|

Пользовательская метрика (степенное расстояние)

Это обобщенный вариант расстояния Минковского. Это расстояние, называемое также степенным расстоянием, равно корню r-ой степени из суммы абсолютных разностей пар значений взятой в р-ой степени:

distance(x,y) = (i |xi - yi|p)1/r,

где r и p - определяемые пользователем параметры. Здесь как для корня, так и для степени суммы можно выбирать значения от 1 до 4. Параметр p ответственен за постепенное взвешивание разностей по отдельным координатам, параметр r ответственен за прогрессивное взвешивание больших расстояний между объектами. Если r и p равны 2, то это расстояние равно евклидовому расстоянию.

Процент различия (несогласия)

Эта мера используется в тех случаях, когда данные являются категориальными. Это расстояние вычисляется как:

distance(x,y) = (Number of xi  yi)/i

ПРАВИЛА ОБЪЕДИНЕНИЯ ИЛИ СВЯЗИ

На первом шаге, когда каждый объект представляет собой отдельный кластер, расстояния между этими объектами определяются выбранной мерой. Однако когда связываются вместе несколько объектов, возникает вопрос, как следует определить расстояния между кластерами? Другими словами, необходимо правило объединения или связи для двух кластеров. Здесь имеются различные возможности: например, вы можете связать два кластера вместе, когда любые два объекта в двух кластерах ближе друг к другу, чем соответствующее расстояние связи. Другими словами, вы используете «правило ближайшего соседа» для определения расстояния между кластерами; этот метод называется методом одиночной связи. Это правило строит «волокнистые» кластеры, то есть кластеры, «сцепленные вместе» только отдельными элементами, случайно оказавшимися ближе остальных друг к другу. Как альтернативу вы можете использовать соседей в кластерах, которые находятся дальше всех остальных пар объектов друг от друга. Этот метод называется метод полной связи. Существует также множество других методов объединения кластеров, подобных тем, что были рассмотрены.

Одиночная связь (метод ближайшего соседа). Как было описано выше, в этом методе расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах. Это правило должно, в известном смысле, нанизывать объекты вместе для формирования кластеров, и результирующие кластеры имеют тенденцию быть представленными длинными «цепочками».

Полная связь (метод наиболее удаленных соседей). В этом методе расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (то есть «наиболее удаленными соседями»). Этот метод обычно работает очень хорошо, когда объекты происходят на самом деле из реально различных «рощ». Если же кластеры имеют в некотором роде удлиненную форму или их естественный тип является «цепочечным», то этот метод непригоден.

Невзвешенное попарное среднее. В этом методе расстояние между двумя различными кластерами вычисляется как среднее расстояние между всеми парами объектов в них. Метод эффективен, когда объекты в действительности формируют различные «рощи», однако он работает одинаково хорошо и в случаях протяженных («цепочного» типа) кластеров. Отметим, что в своей книге Снит и Сокэл (Sneath, Sokal, 1973) вводят аббревиатуру UPGMA для ссылки на этот метод, как на метод невзвешенного попарного арифметического среднего - unweighted pair-group method using arithmetic averages.

Взвешенное попарное среднее. Метод идентичен методу невзвешенного попарного среднего, за исключением того, что при вычислениях размер соответствующих кластеров (то есть число объектов, содержащихся в них) используется в качестве весового коэффициента. Поэтому предлагаемый метод должен быть использован (скорее даже, чем предыдущий), когда предполагаются неравные размеры кластеров. В книге Снита и Сокэла (Sneath, Sokal, 1973) вводится аббревиатура WPGMA для ссылки на этот метод, как на метод взвешенного попарного арифметического среднего - weighted pair-group method using arithmetic averages.

Невзвешенный центроидный метод. В этом методе расстояние между двумя кластерами определяется как расстояние между их центрами тяжести. Снит и Сокэл (Sneath and Sokal (1973)) используют аббревиатуру UPGMC для ссылки на этот метод, как на метод невзвешенного попарного центроидного усреднения - unweighted pair-group method using the centroid average.

Взвешенный центроидный метод (медиана). Этот метод идентичен предыдущему, за исключением того, что при вычислениях используются веса для учёта разницы между размерами кластеров (то есть числами объектов в них). Поэтому, если имеются (или подозреваются) значительные отличия в размерах кластеров, этот метод оказывается предпочтительнее предыдущего. Снит и Сокэл (Sneath, Sokal 1973) использовали аббревиатуру WPGMC для ссылок на него, как на метод невзвешенного попарного центроидного усреднения - weighted pair-group method using the centroid average.

Метод Варда. Этот метод отличается от всех других методов, поскольку он использует методы дисперсионного анализа для оценки расстояний между кластерами. Метод минимизирует сумму квадратов (SS) для любых двух (гипотетических) кластеров, которые могут быть сформированы на каждом шаге. Подробности можно найти в работе Варда (Ward, 1963). В целом метод представляется очень эффективным, однако он стремится создавать кластеры малого размера.

ВИЗУАЛИЗАЦИЯ РЕЗУЛЬТАТОВ КЛАСТЕРНОГО АНАЛИЗА

После проведения классификации рекомендуется визуализировать результаты кластеризации путем построения дендрограммы (дендограммы). Для большого числа объектов такая визуализация является единственным способом получить представление об общей конфигурации объектов.

Хотя от графического представления данных во многих методах можно отказаться, иерархические методы кластерного анализа становятся более наглядными, если результаты расчета представить в виде специального графика, называемого дендрограммой (дендограммой).

Предположим, после применения одного из иерархических методов получены результаты классификации в виде величин связи для пар объектов. Идея построения дендрограммы очевидна – пары объектов соединяются в соответствии с уровнем связи, отложенным по оси ординат (рис. VII.1).

Рис. VII.1. Дендрограмма иерархического метода

Диаграмма начинается с каждого объекта в классе (в нижней части диаграммы). Теперь представим себе, что постепенно (очень малыми шагами) вы «ослабляете» ваш критерий о том, какие объекты являются уникальными, а какие нет. Другими словами, вы понижаете порог, относящийся к решению об объединении двух или более объектов в один кластер. В результате, вы связываете вместе всё большее и большее число объектов и агрегируете (объединяете) все больше и больше кластеров, состоящих из все сильнее различающихся элементов. Окончательно, на последнем шаге все объекты объединяются вместе. На этих диаграммах вертикальные оси представляют расстояние объединения (в горизонтальных древовидных диаграммах горизонтальные оси представляют расстояние объединения). Так, для каждого узла в графе (там, где формируется новый кластер) вы можете видеть величину расстояния, для которого соответствующие элементы связываются в новый единственный кластер. Когда данные имеют ясную «структуру» в терминах кластеров объектов, сходных между собой, тогда эта структура, скорее всего, должна быть отражена в иерархическом дереве различными ветвями. В результате успешного анализа методом объединения появляется возможность обнаружить кластеры (ветви) и интерпретировать их.

По оси абсцисс располагаются символические обозначения объектов исследования (векторов матрицы), а по оси ординат – минимальные значения дистанционных коэффициентов, соответствующих каждому шагу классифицирующей процедуры. Таким образом, ось ординат используется для масштабного представления иерархических уровней группирования.

Наглядность и содержательная ценность древовидных графов существенно повышаются, если в них отражена информация не только о тесноте внутригрупповых связей, но и о межгрупповых расстояниях h. Такой дендровидный граф, учитывающий не только внутригрупповые расстояния, но и средние расстояния между группами, называется дендрографом.

Рудные тела редкометалльного месторождения приурочены к зонам натровых метасоматитов (альбититов). В результате детального изучения минерального состава метасоматитов было установлено, что на месторождении развиты альбититы двух типов. Причем редкометалльное оруденение характерно лишь для одного из них. По химическому составу рудные и безрудные альбититы весьма близки, поэтому различить их по содержанию отдельных химических элементов не удается. Однако некоторые различия в минеральном составе проявляются в особенностях корреляционных связей между элементами. Наглядно эти различия отражаются на графах (рис. VII.2, а, б) и дендрограммах (рис. VII.2, в, г). В качестве меры близости элементов при построении дендрограмм в данном случае используются непосредственно парные коэффициенты корреляции, рассчитанные по 50 пробам, отобранным из рудных и безрудных альбититов, тип которых однозначно определен минералогическими исследованиями. Предельное значение коэффициента корреляции для доверительной вероятности 0,95 при объеме выборок в 50 проб равен 0,28. Поэтому для целей классификации целесообразно сравнивать лишь те группы, для которых коэффициенты корреляции, отражающие тесноту внутригрупповой связи, превышают эту величину.

Для обеих дендрограмм характерна группа, объединяющая фосфор и редкоземельные элементы, что, по-видимому, обусловлено присутствием в альбититах обоих типов апатита, в составе которого отмечены повышенные концентрации этих элементов.

Основной отличительной особенностью безрудных альбититов является тесная ассоциация сидерофильных элементов (Ni—Cr—Ti—Со), которая в рудных альбититах распадается.

Для рудных альбититов характерна ассоциация халькофильных элементов (Pb—Zn), в то время как в безрудных альбититах корреляционная связь между этими элементами отрицательная. Таким образом кластер-анализ позволяет оперативно и достаточно надежно определить тип альбититов по результатам спектральных анализов, не прибегая к детальному изучению шлифов.

Рис VII.2. Характеристики корреляционных связей между содержаниями химических элементов в альбититах:

а—граф по безрудным альбититам; б—граф по рудным альбититам; в—дендрограмма по безрудным альбититам; г—дендрограмма по рудным альбититам

МЕТОД K-СРЕДНИХ

Этот метод кластеризации существенно отличается от таких агломеративных методов, как древовидная кластеризация. Предположим, вы уже имеете гипотезы относительно числа кластеров (по наблюдениям или по переменным). Вы можете указать системе образовать ровно три кластера так, чтобы они были настолько различны, насколько это возможно. Это именно тот тип задач, которые решает алгоритм метода K-средних. В общем случае метод K-средних строит ровно K различных кластеров, расположенных на возможно больших расстояниях друг от друга.

С вычислительной точки зрения вы можете рассматривать этот метод, как дисперсионный анализ «наоборот». Программа начинает с K случайно выбранных кластеров, а затем изменяет принадлежность объектов к ним, чтобы: (1) - минимизировать изменчивость внутри кластеров, и (2) - максимизировать изменчивость между кластерами. Данный способ аналогичен методу «дисперсионный анализ наоборот» в том смысле, что критерий значимости в дисперсионном анализе сравнивает межгрупповую изменчивость с внутригрупповой при проверке гипотезы о том, что средние в группах отличаются друг от друга. В кластеризации методом K-средних программа перемещает объекты (то есть наблюдения) из одних групп (кластеров) в другие для того, чтобы получить наиболее значимый результат при проведении дисперсионного анализа

Обычно, когда результаты кластерного анализа методом K-средних получены, можно рассчитать средние для каждого кластера по каждому измерению, чтобы оценить, насколько кластеры различаются друг от друга. В идеале вы должны получить сильно различающиеся средние для большинства, если не для всех измерений, используемых в анализе. Значения F-статистики, полученные для каждого измерения, являются другим индикатором того, насколько хорошо соответствующее измерение дискриминирует кластеры.

ФАКТОРНЫЙ АНАЛИЗ

Основным объектом исследования методами факторного анализа является корреляционная матрица, построенная с использованием коэффициента корреляционного отношения Пирсона (для количественных признаков). Предлагается также использование других коэффициентов типа корреляции, предназначенных для порядковых, качественных и смешанных признаков, но опыта в этой области пока недостаточно. Основным требованием к построенной матрице является ее положительная полуопределенность. Эрмитова матрица называется положительно полуопределенной, если все ее главные миноры неотрицательны. Из данного свойства как раз и следует неотрицательность всех собственных значений.

Методами факторного анализа решаются три основных вида задач:

  • отыскание скрытых, но предполагаемых закономерностей, которые определяются воздействием внутренних или внешних причин на изучаемый процесс;

  • выявление и изучение статистической связи признаков с факторами или главными компонентами;

  • сжатие информации путем описания процесса при помощи общих факторов или главных компонент, число которых меньше количества первоначально взятых признаков (параметров), однако с той или иной степенью точности обеспечивающих воспроизведение корреляционной матрицы.

Следует пояснить, что в факторном анализе понимается под сжатием информации. Дело в том, что корреляционная матрица получается путем обработки исходного массива данных. Предполагался, что та же самая корреляционная матрица может быть получена с использованием тех же объектов, но описанных меньшим числом параметров. Таким образом, якобы происходит уменьшение размерности задачи, хотя на самом деле это не так. Это не сжатие информации и в общепринятом смысле – восстановить исходные данные по корреляционной матрице нельзя.

Коэффициенты корреляции, составляющие корреляционную матрицу, по умолчанию вычисляются между параметрами (признаками, тестами), а не между объектами (индивидуумами, лицами), поэтому размерность корреляционной матрицы равна числу параметров. Это так называемая техника R. Однако может быть, например, изучена корреляция между объектами (точнее, их состояниями, описываемыми векторами параметров). Эта методика называется техникой Q. Проведение факторного анализа техникой Q обосновано тем, что состояния объектов могут иметь общую побудительную причину (причины), которая (которые) как раз и может быть выявлена с помощью факторного анализа. Существует также техника Р, предполагающая анализ исследований, выполненных на одном и том же индивидууме в различные промежутки времени («объекты» – один и тот же индивидуум в различные промежутки времени), причем изучаются корреляции между состояниями индивидуума. Аналог техники Q для последнего случая составляет предмет исследования техники O.

В основе всех методов факторного анализа лежит предположение, что изучаемая зависимость носит линейный характер. Основное требование к исходным данным – это то, что они должны подчиняться многомерному нормальному распределению. По крайней мере, должно быть сделано допущение о многомерном нормальном распределении совокупности.

Редуцированием корреляционной матрицы называется процесс замены единиц на главной диагонали корреляционной матрицы некоторыми величинами, называемыми общностями. Общность – сумма квадратов факторных нагрузок. Общность данной переменной – та часть ее дисперсии, которая обусловлена общими факторами. Это вытекает из предположения что полная дисперсия складывается из общей дисперсии, обусловленной общими для всех переменных факторами, а также специфичной дисперсии, обусловленной факторами, специфичными только для данной переменной, и дисперсии, обусловленной ошибкой.

Получение матрицы факторного отображения в принципе является целью факторного анализа. Ее строки представляют собой координаты концов векторов, соответствующих т переменным в r-мерном факторном пространстве. Близость концов этих векторов дает представление о взаимной зависимости переменных. Каждый вектор в сжатой, концентрированной форме несет информацию о процессе. Близость этих векторов дает представление о взаимной зависимости переменных. Дополнительно, если число выделенных факторов больше единицы, обычно производится вращение матрицы факторного отображения с целью получения так называемой простой структуры.

Для наглядности результаты можно изобразить графически, что, однако, проблематично для трех и более выделенных факторов. Поэтому обычно дают изображение r -мерного факторного пространства в двумерных срезах.

В процессе решения задачи факторного анализа нужно быть готовы к тому, что иногда решение получить не удается. Это вызвано сложностью решаемой проблемы собственных значений корреляционной матрицы. Например, корреляционная матрица может оказаться вырожденной, что может быть вызвано совпадением или полной линейной корреляцией параметров. Для матриц высоко порядка может произойти потеря значимости в процессе вычислений. Поэтому теоретически нельзя исключить ситуацию, когда методы факторного анализа, к сожалению, окажутся неприменимы, по крайней мере до тех пор, пока исходные данные не удастся «исправить». Исправлены данные могут быть следующим образом. Выявите линейно зависимые параметры с помощью, например, метода и корреляционных плеяд (возможно применение и других методов) и оставьте в исходных данных только один из группы линейно зависимых параметров.

МЕТОД ГЛАВНЫХ КОМПОНЕНТ

С увеличением размерности признакового пространства возрастают трудности изучения геологических объектов, и возникает проблема замены многочисленных наблюдаемых признаков меньшим их числом, без существенной потери полезной информации. Одним из наиболее распространенных методов решения этой задачи является метод главных компонент.

Основой метода главных компонент является линейное преобразование т исходных переменных (признаков) в т новых переменных, где каждая новая переменная представляет собой линейное сочетание исходных. В процессе преобразования векторы наблюдаемых переменных заменяются новыми векторами (главными компонентами), которые вносят резко различные вклады в суммарную дисперсию многомерных признаков. Сокращение пространства признаков достигается путем отбора нескольких наиболее информативных компонент, обеспечивающих основную долю суммарной дисперсии, что приводит к заметному уменьшению их общего числа за счет наименее информативных компонент, отражающих малые доли суммарной дисперсии.

Главные компоненты – это собственные векторы ковариационных матриц исходных признаков. Число собственных векторов ковариационной матрицы определяется числом изучаемых признаков, то есть равно числу ее столбцов (или строк). Каждый собственный вектор (главная компонента) характеризуется собственным значением и координатами.

Собственные значения ковариационной матрицы (λj) – это длины ее собственных векторов, то есть их дисперсии. Суммы собственных значений ковариационной матрицы равны ее следу, то есть сумме ее диагональных элементов.

Координаты собственного вектора ковариационной матрицы (ωij) – это числовые коэффициенты, характеризующие его положение в т мерном признаковом пространстве. Число точечных координат каждого собственного вектора (ωij) – ω1, ω2, ..., ωm определяется размерностью пространства, а их численные значения – это коэффициенты линейных уравнений данного собственного вектора.

Собственные значения ковариационной матрицы находятся как характеристические корни полиномиальных уравнений путем их решения. Однако осуществить это для больших значений т очень сложно. Поэтому в вычислительной практике их определяют методами матричных преобразований (путем последовательных приближений к собственным значениям), которые могут быть реализованы только с помощью ЭВМ. Методы отыскания координат собственных векторов симметричных матриц также сложны и требуют применения ЭВМ.

Поскольку ковариационные матрицы исходных признаков симметричны, их собственные векторы всегда ортогональны, а составляющие их переменные взаимонезависимы, то есть не коррелированы между собой.

В методе главных компонент координаты собственных векторов рассматриваются как нагрузки соответствующих переменных на тот или иной фактор. Они используются для расчета матриц нового (множества совокупностей путем проектирования векторов исходных данных (признаков х1, х2, …, хm) на оси собственных векторов (γ1, γ2, …, γm):

, (VII.1)

где нагрузки j-й компоненты в i-й переменной признака. С помощью формулы (VII.1) исходная матрица наблюденных признаков размерности п x т пересчитывается в матрицу новых переменных (той же размерности), учитывающих собственные значения каждой из компонент. Если статистические (корреляционные) связи между наблюденными признаками многомерного пространства проявляются достаточно отчетливо, то разложение исходной матрицы наблюдений на т новых компонент приводит к заметному возрастанию контрастности распределения дисперсий по новым компонентам, в сравнении с исходными векторами. Как правило, дисперсия одной из главных компонент достигает половины и более от суммарной дисперсии признаков, а в совокупности с дисперсиями еще одной-двух последующих компонент, их общий вклад в суммарную дисперсию превышает 90%.

Таким образом, без существенной потери информации об изменчивости наблюденных признаков можно заметно сократить размерность пространства наблюденных признаков (до pm), ограничившись данными по двум-трем наиболее информативным главным компонентам. Это позволяет считать, что вместо исходной матрицы размерностью п x m, для целей геологического анализа может использоваться матрица главных компонент размерностью п x p (где p, как правило не превышает 2 – 3). Поскольку новые переменные в этой матрице представлены некоррелированными величинами, метод главных компонент может рассматриваться как мощное средство определения истинного числа линейно независимых векторов, содержащихся в исходной матрице.

Рассмотрим подробнее метод главных компонент – вариант метода главных факторов. Основная модель метода главных компонент записывается в матричном виде следующим образом:

Z = A P,

где Z – матрица стандартизованных исходных данных,

A – факторное отображение,

P – матрица значений факторов.

Матрица Z имеет размер т х п, матрица A имеет размер т х r, матрица P имеет размер r х п,

где т – количество переменных (векторов данных),

n – количество индивидуумов (элементов одного вектора),

r – количество выделенных факторов.

Как видно из приведенного выше выражения, модель компонентного анализа содержит только общие для имеющихся векторов факторы.

Матрица стандартизованных исходных данных определяется из матрицы исходных данных Y (ее размер т х п) по формуле

, i = 1, 2, …, m, j = 1, 2, …, n,

где – элемент матрицы исходных данных,

– среднее значение,

– стандартное отклонение.

Для вычисления корреляционной матрицы – основного элемента факторного анализа – имеет место простое соотношение

,

где R корреляционная матрица; она имеет размер т х т,

' – символ транспонирования.

На главной диагонали матрицы R стоят значения, равные 1. Эти значения называются общностями и обозначаются как , являясь мерой полной дисперсии переменной.

Неизвестными являются матрицы A и P. Матрица A может быть найдена из основной теоремы факторного анализа

R = A C A'

где C корреляционная матрица, отражающая связь между факторами.

Если C = I, то говорят об ортогональных факторах, если С ≠ I, говорят о косоугольных факторах. Здесь I – единичная матрица. Для матрицы C справедливо соотношение

.

Нами рассматривается только случай ортогональных факторов, для которых

R = A A'

Модель классического факторного анализа содержит ряд общих факторов и по одному характерному фактору на каждую переменную.

Первая из приведенных в разделе формул является основной моделью факторного анализа для метода главных компонент. Число главных компонент всегда меньше либо равно числу переменных.

ПРОБЛЕМА ВРАЩЕНИЯ

Оси координат, соответствующие выделенным факторам, ортогональны, и их направления устанавливаются последовательно, по максимуму оставшейся дисперсии. Но полученные таким образом координатные оси большей частью содержательно не интерпретируются. Поэтому получают более предпочтительное положение системы координат путем вращения этой системы вокруг ее начала. Пространственная конфигурация векторов в результате применения этой процедуры остается неизменной. Целью вращения является нахождение одной из возможных систем координат для получения так называемой простой факторной структуры. Применяется популярный метод вращения VARIMAX.

КРИТЕРИИ МАКСИМАЛЬНОГО ЧИСЛА ФАКТОРОВ

Существует несколько критериев оценки максимального числа удерживаемых факторов. Критерии, основанные на анализе определителей (детерминантов) исходной и воспроизведенной корреляционной матриц, не показывают стабильности. Критерии, основанные на величине собственных значений корреляционной матрицы, в конечном счете приводят к анализу процента дисперсии, выделенной факторами. Все общие факторы, число которых равно числу параметров, выделяют 100% дисперсии. Если сумма процентов дисперсии превышает величину 100%, то это означает: при вычислении собственных значений корреляционной матрицы были получены отрицательные собственные значения и, как следствие, комплексные собственные вектора, что может означать некорректную редукцию исходной корреляционной матрицы.

ВИЗУАЛИЗАЦИЯ РЕЗУЛЬТАТОВ ФАКТОРНОГО АНАЛИЗА

Пусть в эксперименте получены некоторые опытные данные, представляющие собой измерения трех параметров, обозначенных цифрами 1, 2 и 3. В результате проведенных расчетов были выделены два фактора (две главные компоненты), обозначенные буквами A и B.

Из рис. VII.3 видно, что вектора данных четко распадаются на две группы: одну группу, включающую в себя параметр 1 и параметр 2 и другую группу, включающую в себя параметр 3. Таким образом, по результатам расчета можно выдвинуть гипотезы:

  1. Параметр 1 и параметр 2 имеют сильную взаимную линейную корреляцию.

  2. Параметр 3 слабо зависит от параметров 1 и 2 в рассматриваемых сериях эксперимента.

Указание

В эксперименте достаточно измерять не три параметра, а только два: параметр 1 (или 2) и параметр 3. Это послужит снижению стоимости эксперимента практически без потери точности выводов.

Рис. VII.3. Изученные параметры 1, 2 и 3 в пространстве главных компонент, которым соответствуют фактор A и фактор B

ПРИМЕР VII.1

В одном из районов выявлено месторождение золота, приуроченное к зоне развития калиевых метасоматитов, а также ряд непромышленных по масштабу проявлений золоторудной и полиметаллической минерализации.

В рудах месторождения и окружающих их ореолах рассеяния золото ассоциирует с оловом и мышьяком, а на верхних горизонтах также с серебром, свинцом и сурьмой. Для окружающих неизмененных пород характерна положительная корреляционная связь между калием, ураном и торием. Непосредственно вблизи рудных тел в результате калиевого метасоматоза эта связь нарушается.

Данные особенности месторождения могут быть использованы для разбраковки многочисленных геохимических аномалий, выявленных в этом районе при проведении металлометрической съемки.

К перспективным объектам должны быть отнесены в первую очередь комплексные аномалии с характерными для месторождения ассоциациями элементов, пространственно совпадающие с участками проявления калиевого метасоматоза.

В табл. VII.1 приведены содержания химических элементов в пробах метасоматитов по одному из аномальных участков района.

Таблица VII.1. Содержание типоморфных элементов в метасоматитах

проб

Ag

Pb

Sn

As

Sb

Au

K

U

Th

1

0,1

0,8

1

5

3

0,01

20

30

5

2

13

17

2

1

0,2

2

120

35

15

3

0,2

0,8

10

0,5

2

0,1

43

55

10

4

0,5

1

45

25

0,1

3

320

77

35

5

0,6

0,5

40

40

0,1

4

175

85

42

6

3,5

4,8

1

0,3

0,4

0,1

55

65

17

7

0,5

0,2

0,8

2

0,3

0,2

66

60

21

8

25

53

0,1

0,5

14

6

350

13

6

9

0,3

1

0,5

0,1

0,5

0,1

82

64

26

10

0,2

5

0,1

0,3

0,1

0,01

48

45

16

11

3

6

110

60

0,2

10

270

100

35

12

0,1

0,5

5

0,5

0,8

0,2

35

30

11

13

1

3

0,1

0,7

1

0,1

92

75

28

14

21

45

3

2

15

4

225

80

38

15

47

65

0,5

0,1

23

10

280

15

5

16

0,5

3

0,5

0,2

1

0,1

83

63

25

17

2

4

145

90

0,1

12

280

50

25

18

0,7

1

0,3

0,1

0,2

0,01

45

40

15

19

0,4

2

0,5

0,1

0,1

0,1

63

55

19

20

0,1

0,5

3

1

0,5

0,3

15

21

3

21

5

12

0,5

0,1

0,1

1

58

75

27

22

0,2

0,1

0,8

0,2

0,4

0,01

36

45

12

23

0,1

0,3

0,6

0,3

0,02

0,03

53

40

15

24

5

10

63

45

0,1

5

80

25

17

25

0,1

0,5

0,5

2

0,01

0,01

60

53

18

26

0,2

0,3

0,1

0,5

0,1

0,1

45

30

10

27

0,1

0,6

0,1

0,6

0,02

0,02

38

25

12

28

4

5

0,3

0,1

0,2

1

125

10

3

29

0,2

0,1

3

0,1

1

1

52

45

15

30

0,6

0,1

1

0,2

0,2

0,5

30

25

8

31

0,3

1

4

1

0,1

0,01

42

35

13

32

0,1

0,1

2

3

0,3

0,1

60

53

16

33

4

7

15

5

0,1

1

160

10

15

34

0,6

0,2

1

3

0,5

0,5

70

62

20

35

0,2

1

3

0,5

0,2

0,1

55

43

18

36

10

20

5

3

0,7

3

180

50

25

Требуется

1) выявить геохимические ассоциации элементов;

2) определить, относятся ли данные метасоматиты к рудоносным;

3) оценить уровень эрозионного среза рудной зоны;

4) на поисковом профиле определить наиболее перспективные участки для первоочередного бурения.

Решение

1. Для выполнения корреляционного анализа введите в диапазон A1:I37 рабочей книги Excel названия столбцов и исходные данные из табл. VII.1 по столбцам: A – Ag, B – Pb, C – Sn, D – As, E – Sb, F – Au, G – K, H – U, I – Th.

Затем в меню Сервис выберите пункт Анализ данных и далее укажите строку Корреляция. В появившемся диалоговом окне укажите Входной интервал A1:I37. Укажите, что данные рассматриваются по столбцам. Установите флажок в поле Метки в первой строке. Укажите выходной диапазон. Для этого поставьте флажок в левое поле Выходной интервал и в правое поле ввода Выходной интервал введите K2. Нажмите кнопку OK.

Результаты анализа. В выходном диапазоне получаем корреляционную матрицу. Подразумевается, что в пустых клетках в правой верхней половине таблицы находятся те же коэффициенты корреляции, что и в нижней левой (симметрично расположенные относительно диагонали).

Интерпретация результатов. По данным расчета матрицы видно, что максимальная корреляция между содержанием Sn и As – 0.9837, то есть существует практически линейная связь между их содержанием. Для более удобной интерпретации корреляционной матрицы скопируйте из каждого столбца данные друг за другом в столбец O, начиная с O14, в столбец N поместите соответствующие обозначения элементов из крайнего левого столбца матрицы, а в столбец M поместите обозначение соответствующего элемента из верхней строки матрицы. Отсортируйте диапазон M14:O58 по столбцу O в порядке убывания. Коэффициенты корреляции с 0,983719 по 0,754787 – высокие, с 0,640942 по 0,501725 – средние, с 0,485918 по 0,381287 – низкие, с 0,298283 и ниже – незначимые (см. табл. VII.2).

Таблица VII.2. Коэффициенты корреляции между элементами месторождения золота в порядке убывания

Ag

Ag

1

Pb

Pb

1

Sn

Sn

1

As

As

1

Sb

Sb

1

Au

Au

1

K

K

1

U

U

1

Th

Th

1

Sn

As

0,983719

Высокие

Ag

Pb

0,970995

Pb

Sb

0,932534

Ag

Sb

0,928558

U

Th

0,873059

Au

K

0,815275

Sn

Au

0,764751

As

Au

0,754787

Pb

K

0,640942

Средние

Ag

K

0,602096

Ag

Au

0,571473

Pb

Au

0,558501

Sb

K

0,54045

Sn

K

0,520355

As

K

0,501725

Sb

Au

0,485918

Низкие

As

Th

0,444563

Sn

Th

0,41351

K

Th

0,381287

As

U

0,298283

Незначимые

Sn

U

0,291818

Au

Th

0,26272

K

U

0,161386

Au

U

0,102603

Pb

Th

-0,05304

Pb

Sn

-0,06861

Ag

Sn

-0,07128

Pb

As

-0,07188

Ag

As

-0,07419

Sb

Th

-0,11928

Ag

Th

-0,11955

Sn

Sb

-0,1316

As

Sb

-0,13211

Sb

U

-0,18041

Pb

U

-0,18825

Ag

U

-0,23653

Связь между золотом (Au) и оловом (Sn) – 0,7647 – высокий коэффициент корреляции, связь между золотом (Au) и мышьяком (As) – 0,7547 – высокий коэффициент корреляции; связь между золотом (Au) и серебром (Ag) – 0,5714 – средний коэффициент корреляции, связь между золотом (Au) и свинцом (Pb) – 0,5585 – средний коэффициент корреляции, связь между золотом (Au) и сурьмой (Sb) – 0,4859 – низкий коэффициент корреляции. Связь между калием (K) и ураном (U) – 0,1613 – незначимый коэффициент корреляции, между калием (K) и торием (Th) – 0,3812 – низкий коэффициент корреляции, между ураном (U) и торием (Th) – 0,8730 – высокий коэффициент корреляции.

Таким образом, можно заключить, что месторождение является рудоносным и рассматриваемый срез относится к верхним горизонтам; для определения на поисковом профиле наиболее перспективных участков для первоочередного бурения следует рассмотреть связь между калием, ураном и торием, так как к перспективным объектам должны быть отнесены в первую очередь комплексные аномалии с характерными для месторождения ассоциациями элементов, пространственно совпадающие с участками проявления калиевого метасоматоза.

2. Скопируйте диапазон A1:B37 в диапазон A41:B77. В столбце C рассчитайте квадраты разностей для значений в столбцах A и B по формуле =(A42-B42)^2 для строки 42. Скопируйте эту формулу методом автозаполнения в диапазон С42:С77. В ячейке С78 найдите через автосумму для диапазона С42:С77 общую сумму. В ячейке С79 найдите квадратный корень из этой суммы по формуле =КОРЕНЬ(C78). Это евклидова метрика для пары Ag–Pb. Аналогично можно рассчитать евклидовы метрики для всех остальных пар и расположить их в общую матрицу наподобие корреляционной – матрицу евклидовых метрик. На основании этой матрицы евклидовых метрик можно позднее вручную построить дендрограмму по результатам расчета, а также выделить заданное число кластеров по построенной дендрограмме. Эту процедуру удобнее осуществить в пакете STATISTICA.

3. Создать в программе Statistica файл данных, используя табл. VII.1.

4. Провести корреляционный анализ всей выборки. Для этого в меню с основными процедурами Statistics выбрать Basic Statistics/Tables, а в появившемся его меню – Correlation matrices.

В появившемся диалоговом окне Product-Moment and Partial Correlations: нажать на вкладке Quick кнопку Summary: Correlation Matrix и в диалоговом окне Select one or two variable lists указать для First variable list: 1–9. Далее нажать OK. Результатом будет расчет коэффициентов корреляции – рис. VII.4. Коэффициенты, указывающие на наличие связи между элементами – выделены красным цветом.

Рис. VII.4. Расчет коэффициентов корреляции

5. Провести кластерный анализ для выделения ассоциаций химических элементов, используя графическую и табличную формы. Для этого в меню с основными процедурами Statistics выбрать Multivariate Exploratory Techniques, а в появившемся его меню – Cluster Analysis.

В появившемся диалоговом окне Clustering Method (см. рис. VII.5) выбрать Joining (tree clustering).

Рис. VII.5. Выбор метода кластеризации

В появившемся диалоговом окне Cluster Analysis: Joining (Tree Clustering): на вкладке Quick нажать кнопку Variables (рис. VII.6) и появившемся диалоговом окне Select variables for the analysis нажать кнопку Select All (рис. VII.7). Вернуться в диалоговое окно Cluster Analysis: Joining (Tree Clustering): и на вкладке Advanced, используя установленные по умолчанию Variables (columns) из раздела Cluster, Complete Linkage (одиночная связь (метод ближайшего соседа)) в разделе Amalgamation (linkage) rule и Euclidean distance (евклидова метрика) в разделе Distance measures, далее нажать кнопку OK (рис. VII.8). В появившемся диалоговом окне Joining Results: установлен по умолчанию флажок Rectangular branches (прямоугольные ветви), нажать кнопку Vertical icicle plot (рис. VII.9). На рис. VII.10 представлена получившаяся в результате дендрограмма. При очищенном переключателе Rectangular branches результатом будет дендрограмма, представленная на рис. VII.11.

Рис. VII.6. Диалоговое окно Cluster Analysis: Joining (Tree Clustering):

Рис. VII.7. Выбор переменных для кластерного анализа

Рис. VII.8. Выбор метода объединения и метрики

Рис. VII.9. Диалоговое окно Joining Results:

Рис. VII.10. Прямоугольная дендрограмма ассоциаций элементов

Рис. VII.11. Дендрограмма ассоциаций элементов

Вы можете масштабировать дендрограмму к стандартизированному масштабу dlink/dmax*100 переключателем. Когда выбираете этот переключатель, горизонтальная ось (или вертикальная ось для вертикальных графиков) будет масштабироваться в процентах, определенных, как dlink/dmax*100. Таким образом, это процент от диапазона от максимального до минимального расстояния в данных. Если этот переключатель очищен, то масштаб будет основан на предварительно выбранной мере расстояния.

Полученная дендрограмма позволяет выделить следующие ассоциации элементов: Au–Sb, Au–Sb–Ag, As–Sn, Au–Sb–Ag–As–Sn, Au–Sb–Ag–As–Sn–Th, Au–Sb–Ag–As–Sn–Th–U, Au–Sb–Ag–As–Sn–Th–U–K.

Вернуться в диалоговое окно Joining Results:, нажать кнопку Amalgamation schedule на вкладке Advanced. На рис. VII.12 представлена получившаяся в результате электронная таблица результатов. Amalgamation schedule перечисляет по строкам объекты (элементы), которые соединены вместе на соответствующих расстояниях (в крайнем левом столбце электронной таблицы).

Рис. VII.12. Результат выполнения Amalgamation schedule

Вернуться в диалоговое окно Joining Results:, нажать кнопку Graph of amalgamation schedule. На рис. VII.13 представлен получившийся в результате график. Этот график может быть очень полезен, предлагая сокращение дендрограммы. В дендрограмме все большие и большие кластеры формируются из большего и большего разнообразия в пределах кластера. Этот же график показывает ровное плато, и это означает, что кластеры были сформированы по существу на одном и том же расстоянии. Это расстояние может быть оптимально сокращено при решении вопроса о том, сколько оставить кластеров, чтобы интерпретировать результаты.

Рис. VII.13. Результат выполнения Graph of amalgamation schedule.

В диалоговом окне Joining Results: нажать кнопку Distance matrix. На рис. VII.14 представлена матрица дистанционных расстояний, рассчитанная на основе евклидовой метрики. Кнопка Descriptive Statistic диалогового окна Joining Results: выводит дескриптивную статистику – средние и стандартные отклонения для изменений (рис. VII.15). Кнопка Matrix диалогового окна Joining Results: выводит дистанционную матрицу и дескриптивную статистику (рис. VII.16). Сравните результат расчета коэффициентов дистанционной матрицы с получившимися в электронных таблицах Excel евклидовыми метриками для соответствующих пар элементов.

Рис. VII.14. Матрица дистанционных расстояний

Рис. VII.15. Дескриптивная статистика

Рис. VII.16. Результат выполнения Matrix

Итак, имеем 3 кластера: (Au–Sb–Ag–Pb), (As–Sn–Th–U) и (K).

6. Провести кластерный анализ для выделения ассоциаций химических элементов методом K-средних. Для этого в меню с основными процедурами Statistics выбрать Multivariate Exploratory Techniques, а в появившемся его меню – Cluster Analysis.

В появившемся диалоговом окне Clustering Method (см. рис. VII.17) выбрать K-means clustering.

Рис. VII.17. Выбор метода кластеризации

В появившемся диалоговом окне Cluster Analysis: K-means clustering: на вкладке Quick нажать кнопку Variables и появившемся диалоговом окне Select variables for the analysis нажать кнопку Select All. Вернуться в диалоговое окно Cluster Analysis: K-means clustering: и на вкладке Advanced, используя установленную по умолчанию в списке Cluster: строку Variables (columns), установить в разделе Number of clusters количество кластеров – 3 (рис. VII.18).

Рис. VII.18. Установка параметров Cluster Analysis: K-means clustering:

Раздел Initial cluster centers – выборы в этой группе управляют способом, которым вычисляются начальные центры кластера. По умолчанию в этом разделе установлен переключатель Sort distances and take observations at constant intervals. Если Вы выбираете этот переключатель, расстояния между всеми объектами будут сначала сортироваться и затем, выраженные в постоянных величинах, будет выбраны как начальные центры кластера.

Переключатель Choose observations to maximize initial between-cluster distances. Если Вы выбираете этот переключатель, наблюдения или объекты будут установлены как начальные центры кластера. (1) программа выберет первые номера кластеров случаев, чтобы быть соответствующими центрами кластера; (2) последующие случаи заменят предыдущие центры кластера, если их самое маленькое расстояние к любому из центров кластера больше, чем самое маленькое расстояние между кластерами; если дело обстоит не так, то (3) последующие случаи заменят начальные центры кластера, если их самое маленькое расстояние от центра кластера большее расстояние того центра кластера от любого другого центра кластера. Эффект этой процедуры выбора должен развернуть начальные расстояния между кластерами. Обратите внимание, что эта процедура может выдавать кластеры с единственными (отдельными) наблюдениями, если есть ясный outliers в данных.

Переключатель Choose the first N (Number of clusters) observations. Если Вы выбираете этот переключатель, первые номера кластеров наблюдений будут начальными центрами кластера. Таким образом, эта опция обеспечивает Вас полным контролем над выбором начальной конфигурации. Это часто полезно, если Вы приносите априорные ожидания относительно характера (природы) кластеров к анализу. В этом случае, переместите случаи, которые Вы хотите выбрать как начальные центры кластера, к началу файла.

Переключатели Casewise deletion of missing data или Mean substitution в разделе MD deletion, первый следует использовать, если в анализ следует включать только случаи, которые имеют для всех переменных все данные, второй следует использовать, когда отсутствующие данные будут заменены средствами для соответствующих переменных (для этого анализа только, но не для файла данных). По умолчанию стоит переключатель Casewise deletion of missing data.

Оставить установленные по умолчанию переключатели и далее, в диалоговом окне Cluster Analysis: K-means clustering: следует нажать кнопку OK.

В появившемся диалоговом окне K-Means clustering Results: нажать кнопку Summary: Clusters means & Euclidean distances (рис. VII.19). В результате расчета получим матрицу дистанционных коэффициентов между кластерами рассчитанных по евклидовым метрикам (см. рис. VII.20). Здесь же рассчитываются средние по всем измерениям для каждого кластера.

Рис. VII.19. Анализ в K-Means clustering Results:

Рис. VII.20. Матрица евклидовых метрик между кластерами

Вернуться в диалоговое окно K-Means clustering Results: и нажать кнопку Analysis of variance. Анализ вариант следует использовать, если следует сравнивать изменчивость в пределах группы (within) (малая, если классификация хорошая) с изменчивостью между группами (between) (большая, если классификация хорошая), то есть выполнить дисперсионный анализ между группами для каждого измерения (рис. VII.21). Можно просмотреть результаты дисперсионного анализа, сравнивая для каждого измерения результаты между группами.

Рис. VII.21. Результат дисперсионного анализа Analysis of variance

Вернуться в диалоговое окно K-Means clustering Results: и нажать кнопку Graph of means. Результатом будет график средних по кластерам (рис. VII.22).

Рис. VII.22. График средних по кластерам

Вернуться в диалоговое окно K-Means clustering Results: и нажать кнопку Descriptive statistics for each cluster на вкладке Advanced. Результатом будет вывод крупноформатных таблиц описательной статистики для каждого измерения по кластерам (рис. VII.23).

Рис. VII.23. Дескриптивная статистика для третьего кластера

Вернуться в диалоговое окно K-Means clustering Results: и нажать кнопку Members of each cluster & distances. Результатом будет расчет евклидовых расстояний от центров кластеров для каждого элемента входящего в кластер (рис. VII.24). Это позволяет идентифицировать потенциальных «плохих» членов кластера.

Рис. VII.24. Евклидовы расстояния для каждого кластера

Вернуться в диалоговое окно K-Means clustering Results: и нажать кнопку Save classifications and distances. Результатом будет краткая электронная таблица содержащая: порядковые номера элементов (1 столбец), номер кластера, в который входит элемент (2 столбец) и евклидовы метрики для каждого элемента от соответствующего центра кластера (3 столбец) – рис. VII.25.

Рис. VII.25. Результат выполнения Save classifications and distances

7. Провести факторный анализ для выделения ассоциаций химических элементов. Для этого в меню с основными процедурами Statistics выбрать Multivariate Exploratory Techniques, а в появившемся его меню – Factor Analysis.

В появившемся диалоговом окне Factor Analysis: (см. рис. VII.26) на вкладке Quick нажать кнопку Variables и появившемся диалоговом окне Select the variables for the factor analysis нажать кнопку Select All (рис. VII.27). Вернуться в диалоговое окно Factor Analysis: и нажать кнопку OK (рис. VII.28).

Рис. VII.26. Диалоговое окно Factor Analysis:

Рис. VII.27. Выбор переменных для факторного анализа

Рис. VII.28. Диалоговое окно Factor Analysis: с выбранными переменными

Появится окно Define Method of Factor Extraction:, где выбираем на вкладке Descriptives (рис. VII.29) кнопку Review correlations, means, standard deviations. В диалоговом окне Review descriptive statistics (рис. VII.30) нажимаем кнопку Correlations. Результатом расчета будет корреляционная матрица (рис. VII.31). Она аналогична матрице, полученной в разделе корреляционного анализа и представленной на рис. VII.4.

Рис. VII.29. Диалоговое окно Define Method of Factor Extraction:

Рис. VII.30. Диалоговое окно Review descriptive statistics

Рис. VII.31. Корреляционная матрица

В диалоговом окне Review descriptive statistics нажимаем кнопку Cancel и возвращаемся в диалоговое окно Define Method of Factor Extraction:, где выбираем на вкладке Advanced в разделе Extraction method установленный по умолчанию метод Principal Components (метод главных компонент или факторов). В разделе Max no. of factors установить число 9 – максимальное число факторов в нашем случае, в разделе Mini. eigenvalue: 0 – минимальное значение для этой опции (рис. VII.32). Нажать кнопку OK. Открывается диалоговое окно Factor Analysis Results:, в котором выбирается вкладка Quick, где нажимается кнопка Eigenvalues (собственные значения) (рис. VII.33). Результатом расчета будет таблица Eigenvalues (частей от общего числа факторов, в данном случае – части от девяти), которая содержит следующие столбцы: собственные значения (Eigenvalues), проценты от полной величины (% Total variance), кумулятивных собственных значений (Cumulative Eigenvalues), и кумулятивного процента (Cumulative %) (рис. VII.34). Первые три фактора дают наибольший вклад в процентном отношении. Основываясь на таблице Eigenvalues, можно предложить рассматривать только эти три фактора.

Рис. VII.32. Выбор параметров в диалоговом окне Define Method of Factor Extraction:

Рис. VII.33. Расчет Explained variance в диалоговом окне Factor Analysis Results:

Рис. VII.34. Расчетная таблица Eigenvalues

В диалоговом окне Factor Analysis Results: выбрать вкладку Explained variance, где нажать кнопку Scree plot. Результатом будет график, основанный на тесте Каттелла (рис. VII.35), иллюстрирующий первый столбец таблицы Eigenvalues. Основанный на методе Монте-Карло, Cattell's scree test предлагает, что в точке, где непрерывное падение Eigenvalues выравнивается, предлагается сокращение остальных дополнительных факторов, так как только случайный «шум» добавляется дополнительными факторами. В нашем примере, эта точка может быть для фактора 3 или фактора 4. Поэтому нужно попробовать оба решения и рассмотреть тот, который выдаст наиболее поддающееся толкованию решение.

Теперь исследуем факторные нагрузки. Сначала следует рассмотреть невращаемые факторные нагрузки для всех 9 факторов. В диалоговом окне Factor Analysis Results: выбрать вкладку Loadings и в разделе Factor rotation: выбрать установленное по умолчанию – Unrotated. Обратите внимание, что считается, что факторы со значением нагрузки более 0,70 – факторы с высокой нагрузкой. Затем нажать на кнопку Summary (рис. VII.36). Результатом расчета будет таблица факторных нагрузок отсортированных так, чтобы последующие факторы составляли все меньшее и меньшее количество разницы (рис. VII.37). Не удивительно видеть, что первый фактор показывает большинство самых высоких нагрузок.

Рис. VII.35. График Scree plot

Рис. VII.36. Выбор Unrotated в диалоговом окне Factor Analysis Results: на вкладке Loadings в разделе Factor rotation:

Рис. VII.37. Таблица факторных нагрузок по методу Unrotated для 10 факторов

Фактическая ориентация факторов в пространстве факториала произвольна и все вращения факторов в пространстве воспроизведут корреляции одинаково хорошо. Поэтому предложено вращать факторы таким образом, чтобы выдать такую структуру фактора, что ее проще интерпретировать. Такая простая структура и была определена Thurstone (1947), чтобы в основном описать состояние, когда факторы отмечены высокими нагрузками для некоторых переменных, низкими нагрузками для других, и когда есть немного высоких перекрестных нагрузок, то есть немного переменных с существенными нагрузками на больше, чем один фактор. Популярный стандартный вычислительный метода вращения, чтобы получить простую структуру – VARIMAX вращение (Kaiser, 1958); Другие, которые были предложены - QUARTIMAX, BIQUARTIMAX, и EQUAMAX (см. Harman, 1967) – все они осуществлены в STATISTICA.

Сначала рассмотрим число факторов, которое хотим вращать. Было предварительно решено, что три фактора являются наиболее влиятельными, но по результатам рассмотрения графика на рис. VII.35 было решено рассматривать четыре фактора. Нажать кнопку Cancel, чтобы возвратиться в окно Define Method of Factor Extraction:, где выбрать вкладку Quick. Установить в разделе Max no. of factors число 4 – число факторов в рассматриваемом случае, в разделе Mini. eigenvalue: 0 – минимальное значение для этой опции (рис. VII.38).

Рис. VII.38. Установка нового числа факторов в Max no. of factors

Нажать кнопку OK. Открывается диалоговое окно Factor Analysis Results:, в котором выбрать вкладку Loadings, и в списке Factor rotation: выбрать Varimax raw (рис. VII.39). Затем нажать на кнопку Summary. Результатом расчета будет таблица Factor Loadings (факторных нагрузок) – см. рис. VII.40. Получится вращаемое решение с четырьмя факторами. Четвертый фактор не дает больших нагрузок. Повторить решение для трех факторов. Результатом расчета будет таблица Factor Loadings (факторных нагрузок) – см. рис. VII.41. Первый фактор показывает большинство самых высоких нагрузок. Для золота (Au) большую нагрузку показывает второй фактор – около 0,82 и достаточно большую – первый фактор – около 0,55. Фактор 1 связан с Ag, Pb и Sb, фактор 2 – с Sn, As и Au, фактор 3 – с U и Th. С K, кажется, связан и фактор 1 и фактор 2: фактор 1 – нагрузка 0,66, фактор 2 – 0,57.

Рис. VII.39. Выбор Varimax raw в диалоговом окне Factor Analysis Results: на вкладке Loadings в разделе Factor rotation:

Рис. VII.40. Таблица факторных нагрузок по методу Varimax для 4 факторов

Рис. VII.41. Таблица факторных нагрузок по методу Varimax для 3 факторов

Щелкнуть в диалоговом окне Factor Analysis Results: на вкладке Loadings кнопкой Plot of loadings, 2D. Откроется диалоговое окно Select two factors for the plot, в котором выберем Factor 1 и Factor 2 (рис. VII.42). Нажать OK. Результатом будет плоский график нагрузок (рис. VII.43). Аналогично построить график нагрузок для Factor 1 и Factor 3 (рис. VII.44). В диалоговом окне Factor Analysis Results: на вкладке Loadings щелкнем кнопкой Plot of loadings, 3D. Результатом будет трехмерный график нагрузок (рис. VII.45).

Рис. VII.42. Диалоговое окно Select two factors for the plot

Рис. VII.43. График нагрузок Plot of loadings, 2D для факторов 1 и 2

Рис. VII.44. График нагрузок Plot of loadings, 2D для факторов 1 и 3

Рис. VII.45. График нагрузок Plot of loadings, 3D для факторов 1, 2 и 3

Графики (рис. VII.43 – VII.45) просто показывают нагрузки для каждой переменной и хорошо иллюстрируют корреляционную матрицу, например, по рис. VII.43 видно, что ассоциированы мышьяк (As) и олово (Sn); серебро (Ag), сурьма (Sb) и свинец (Pb); уран (U) и торий (Th). Фактор 2 – фактор с высокими нагрузками на Au – «рудный» и фактор 3 связан с околорудным метасоматозом. Обратите внимание на нагрузки факторов, для того, чтобы определить, в какой мере данная закономерность характеризует изучаемый объект.

Щелкнуть в диалоговом окне Factor Analysis Results: на вкладке Explained variance кнопкой Reproduced/residual corrs. (рис. VII.46), чтобы получить две матрицы – корреляции и остаточной корреляции (рис. VII.47).

Рис. VII.46. Диалоговое окно Factor Analysis Results: вкладке Explained

Таблица остаточных корреляций может интерпретироваться как «количество» корреляции, которое не может быть объяснено решением с тремя факторами. Диагональные элементы в матрице содержат стандартное отклонение, которое является равным квадратному корню из единицы минус соответствующие общности для двух факторов (общности переменной – разница, которую можно объяснять соответствующим числом факторов). Если рассмотреть тщательно эту матрицу, можно видеть, что нет фактически никаких остаточных корреляций, которые являются большими, чем 0,1, или меньше чем –0,1. Добавить к этому факт, что первые три фактора объясняли почти 95 % полной разницы (см. совокупный % Eigenvalues показанный в таблице Eigenvalues на рис. VII.34). Очень низкие общности для одной или двух переменных (из всех в анализе) могут указывать, что эти переменные плохо объясняются соответствующей моделью фактора.

Рис. VII.47. Таблица остаточных корреляций

Щелкнуть в диалоговом окне Factor Analysis Results: на вкладке Explained variance кнопкой Communalities (рис. VII.46), чтобы получить таблицу общностей для текущего решения, то есть текущего числа факторов (рис. VII.48).

Рис. VII.48. Таблица общностей

Щелкнуть в диалогом окне Factor Analysis Results: на вкладке Scores кнопкой Factor scores coefficients, чтобы получить таблицу со значениями каждого фактора элементов (рис. VII.49). Эти коэффициенты представляют веса, которые используются когда вычисляется зависимость фактора от переменных.

Щелкнуть в диалогом окне Factor Analysis Results: на вкладке Scores кнопкой Factor scores, чтобы получить таблицу со значениями каждого фактора в точках наблюдения (рис. VII.50). Обратите внимание, в каких точках наблюдения значения рудного фактора наибольшие: 4 – 6, 11, 17, 19, 21, 24. Фактор околорудного метасоматоза – 1, 4, 8, 13 – 15, 20, 21, 24, 26 – 28, 31, 33 – 34, 36. Общие: 4, 21, 24.

Рис. VII.49. Таблица Factor scores coefficients

Рис. VII.50. Таблица Factor scores

В таблице Factor scores выделить «рудный» фактор» – 2 и фактор околорудного метасоматоза – 3. Затем выбрать процедуру графического анализа в контекстном меню Graphs of Block Data\Line Plots: Entire Columns. На полученном графике указать места, где максимально проявлены факторы рудного метасоматоза (рис. VII.51).

Рис. VII.51. Результат выполнения процедуры в контекстном меню Graphs of Block Data\Line Plots: Entire Columns.

8. Сделать окончательные выводы о геохимических ассоциациях элементов и прогнозной значимости объекта.

Сравнить результаты корреляционного, кластерного и факторного анализов, их отличия, связанные с возможностями каждого анализа, и общие черты, позволяющие дать взвешенное заключение о закономерных связях между изучаемыми признаками.

ОБЛАСТЬ ПРИМЕНЕНИЯ МНОГОМЕРНЫХ СТАТИСТИЧЕСКИХ МОДЕЛЕЙ В ГЕОЛОГИИ

Возможности применения многомерных статистических моделей для изучения взаимозависимостей комплексов самых различных геологических признаков практически не ограничены для любой отрасли геологии. В палеонтологии они используются для статистического описания морфологических признаков ископаемых форм организмов и сопоставления их групп с литолого-фациальными разрезами осадочных пород, с целью оценки достоверности их стратиграфического положения (или установления групп руководящих ископаемых). Корреляционные методы парагенетического анализа химических элементов и минералов находят широкое применение в геохимии и минералогии. Различные методы многомерного описания самых различных физических свойств, химического и минерального состава осадочных и магматических пород используются в литологии и петрографии для разделения их по фациальным или формационным признакам или для оценок их перспектив на выявление самых различных полезных ископаемых. С каждым годом все шире используются методы «распознавания образов» рудоносных территорий или месторождении полезных ископаемых, основанные на статистических описаниях сочетаний благоприятных элементов геологического строения, влияющих на концентрации полезных ископаемых. В настоящее время алгоритмы «распознавания образов», использующие самые различные статистические, логические и эвристические многомерные модели, реализуются в человеко-машинных информационно-прогнозирующих системах, на шедших широкое применение в геологоразведочной отрасли.

Многомерные статистические описания связей геологических переменных с последующими оценками степени их взаимозависимостей используются в геологической практике с целью идентификации (отождествления), дискриминации (разделения), классификации (группирования) изучаемых объектов или в поисках наиболее информативных комбинаций признаков для решения прогнозных задач.

Задачи идентификации геологических объектов, например, оценки коллекторских свойств или газоносности пород по совокупности скважинно-геофизических характеристик, обычно выполняются с помощью моделей множественной регрессии.

В целях дискриминации геологических объектов на два заранее заданных класса, например, разделение кимберлитовых пород на алмазоносный и неалмазоносный типы, по данным их силикатных анализов может быть использована модель линейной дискриминантной функции.

Классификация геологических объектов, например, иерархическое группирование парагенетических ассоциаций элементов метасоматически измененных пород или руд по данным их полных химических анализов производится с помощью кластер-анализа, других методов многомерного корреляционного анализа или метода факторного анализа.

Конечной целью большинства многомерных статистических методов является предсказание (прогнозирование) тех или иных свойств изучаемых геологических объектов.

Прогнозирование свойств геологических объектов, чаще всего выявление перспектив их рудоносности или оценка вероятных масштабов оруденения проводится с помощью алгоритмов «распознавания образов».

В зависимости от характера исходных данных и целей геологических исследований для составления этих алгоритмов используются самые различные многомерные модели. При этом, как правило, возникает проблема поиска наиболее информативных сочетаний признаков и сокращения размерности их пространства, что достигается с помощью метода главных компонент, R-метода факторного анализа или других логических и эвристических методов.

Возможности использования многомерных статистических моделей для целей решения геологических задач изучены в настоящее время далеко не полностью и несомненно имеют большое будущее.

ЛАБОРАТОРНАЯ РАБОТА № VIII. МНОГОМЕРНЫЕ СТАТИСТИЧЕСКИЕ МОДЕЛИ. ЗАДАЧИ РАСПОЗНАВАНИЯ ОБРАЗОВ В ГЕОЛОГИИ

Многие прогнозные и интерпретационные задачи решаются в практической геологии путем сопоставления комплекса признаков изучаемого объекта с комплексом тех же признаков эталонного объекта. Совокупность подобных методов, основанных на принципе аналогии, получила название методов распознавания образов.

Модели распознавания образов геологических объектов весьма разнообразны. При решении конкретных геологических задач их выбор зависит от природы геологических объектов, числа, полноты описания эталонных объектов, типов и информативности их признаков. В зависимости от типов исходных признаков выделяют две группы моделей: дискретные и непрерывные.

Дискретные модели применяются в тех случаях, когда измеряемые признаки рассматриваются как независимые или частично зависимые детерминированные величины.

Непрерывные модели используются для распознавания образов таких объектов, измеряемые признаки которых могут рассматриваться как случайные величины и поддаются статистическому описанию многомерными функциями плотностей вероятности.

В качестве критериев оптимальности распознавания используются решающие правила, определяющие пороговые значения решающих функций. Они могут определяться статистическими, логическими или эвристическими * методами.

При использовании любых алгоритмов распознавания следует стремиться к построениям решающих функций как можно более простых видов, поскольку они легче поддаются реализации и обеспечивают более устойчивые решения, особенно при малых выборках обучения.

Линейная дискриминантная функция для трех переменных имеет вид

. (VIII.1)

Коэффициенты a1, a2 и a3 находятся из системы уравнений

(VIII.2)

Величины d1, d2 и d3 представляют собой разности оценок средних значений признаков по выборкам A и B.

(VIII.3)

Если обозначить номер строки как i, а столбца как j, то величины sij можно записать в форме матрицы:

. (VIII.4)

Значения sij соответствуют элементам ковариационной матрицы признаков X, Y, Z и вычисляются, как суммы квадратов отклонений или суммы смешанных произведений отклонений:

Приведенные выше выражения для удобства расчетов могут быть заменены на эквивалентные выражения для сумм квадратов вида

, (VIII.5)

и для сумм смешанных произведения вида

, (VIII.6)

где nA и nB – объем выборки для объекта A и B.

После вычисления коэффициентов a1, a2 и a3, необходимо вычислить значение функции D0, относительно которого можно сделать вывод о принадлежности нового неизвестного объекта к тому или иному классу (свите)

. (VIII.6)

В Excel для вычисления ковариации используется процедура Ковариация. Процедура позволяет получить ковариационную матрицу, содержащую коэффициенты ковариации между различными параметрами.

Для реализации процедуры необходимо:

  • выполнить команду Сервис/Анализ данных;

  • в появившемся списке Инструменты анализа выбрать строку Ковариация и нажать кнопку OK;

  • в появившемся диалоговом окне указать Входной интервал, то есть ввести ссылку на ячейки, содержащие анализируемые данные. Для этого следует навести указатель мыши на левую верхнюю ячейку данных, нажать левую кнопку мыши и, не отпуская ее, протянуть указатель мыши к правой нижней ячейке, содержащей анализируемые данные, затем отпустить левую кнопку мыши. Входной интервал должен содержать не менее двух столбцов.

  • в разделе Группировка переключатель установить в соответствии с введенными данными;

  • указать выходной диапазон, то есть ввести ссылку на ячейки, в которые будут выведены результаты анализа. Для этого следует поставить флажок в левое поле Выходной интервал (навести указатель мыши и щелкнуть левой кнопкой), далее навести указатель мыши на правое поле ввода Выходной интервал и щелкнуть левой кнопкой мыши, затем указатель мыши навести на левую верхнюю ячейку выходного диапазона и щелкнуть левой кнопкой мыши. Размер выходного диапазона будет определен автоматически, и на экран будет выведено сообщение в случае возможного наложения выходного диапазона на исходные данные.

  • нажать кнопку OK.

Результаты анализа. В выходной диапазон будет выведена ковариационная матрица, в которой на пересечении каждых строки и столбца находится коэффициент ковариации между соответствующими параметрами.

Отметим, что хотя в результате будет получена треугольная матрица, ковариационная матрица симметрична, и коэффициенты ковариации sij = sji.

ПРИМЕР VIII.1

При геологическом картировании района, в строении которого принимают участие вулканогенно-осадочные породы, выделены две свиты близкого петрографического состава, но занимающие различное стратиграфическое положение. Взаимоотношение свит надежно устанавливается в отдельных «ключевых» участках; в остальной части района обнаружение пород данного состава и облика не позволяет однозначно отнести их к той или иной свите.

Предполагается, что, несмотря на свое визуальное сходство, породы данных свит несколько различаются по содержаниям отдельных породообразующих оксидов и характеру их взаимосвязи. Для установления этих отличий в ключевых участках проведено определение концентраций оксидов в отдельных пробах. В табл. VIII.1 данные опробования верхней свиты обозначены индексом A, а данные нижней свиты – индексом B.

Кроме ключевых участков определение содержаний породообразующих оксидов в сходных породах выполнено по отдельным искусственным обнажениям и скальным выходам в различных частях района, отделенных друг от друга тектоническими нарушениями, площадями с мощным покровом рыхлых отложений, в связи с чем определение их стратиграфического положения затруднено. Данные их изучения приведены в табл. VIII.2.

Требуется

На основе данных о составе свит вычислить уравнение дискриминантной функции и определить принадлежность к каждой из свит пород аналогичного состава.

Указание

Дискриминантную функцию предлагается рассчитать по сочетанию трех признаков из табл. VIII.1 (Na2O, K2O, TiO2), используя данные первых пятнадцати строк. Содержание породообразующих оксидов в сходных породах из табл. VIII.2 предлагается взять также для сочетания трех признаков (Na2O, K2O, TiO2), используя данные первой строки.

Решение

В ячейках A1, B1, C1, F1, G1 и H1 следует разместить обозначения породообразующих оксидов Na2O, K2O, TiO2 так как это показано на рис. VIII.1. Соответственно в столбцах A, B, C, F, G и H – разместить данные первых пятнадцати строк табл. VIII.1 для этих породообразующих оксидов Na2O, K2O, TiO2. В ячейках A17, B17, C17, F17, G17 и H17 следует рассчитать средние значения по каждому породообразующему оксиду. В ячейку A18 ввести формулу =СЧЁТ(A2:A16), а в ячейку F18 – формулу =СЧЁТ(F2:F16) для определения числа измерений концентраций по каждой из свит.

Таблица VIII.1 Данные анализов вулканогенно-осадочных пород верхней (А) и нижней (В) свит – содержания (в %) породообразующих оксидов

Na2O

K2O

TiO2

MgO

CaO

FeO

Na2O

K2O

TiO2

MgO

CaO

FeO

A

B

1

2,37

3,39

1,45

3,72

5,82

4,18

4,49

3,72

1,68

3,95

6,68

5,22

2

4,44

2,64

1,10

3,14

4,68

3,56

4,13

3,55

1,56

4,38

6,20

5,60

3

3,20

2,50

1,14

2,83

4,83

3,50

4,00

3,21

1,37

3,34

5,55

4,52

4

3,71

3,68

1,22

4,15

5,62

3,59

3,48

2,93

1,22

3,94

4,72

3,81

5

5,02

3,00

0,98

3,32

4,75

2,97

3,15

2,32

0,87

3,87

3,20

3,31

6

4,40

3,47

0,83

4,06

4,83

3,00

2,79

2,28

0,92

4,18

3,81

2,62

7

4,72

2,81

1,15

3,22

4,55

3,60

3,08

2,47

1,10

5,17

4,82

3,95

8

3,81

3,07

1,09

3,45

5,31

3,21

3,37

2,96

1,15

4,21

4,31

3,37

9

2,22

3,42

1,22

3,97

5,86

3,62

3,65

2,79

1,03

3,20

4,01

3,00

10

3,58

3,05

1,38

3,49

5,49

4,02

3,84

3,34

1,32

3,92

5,02

4,51

11

3,75

2,73

1,33

3,04

5,12

4,38

3,61

2,52

1,17

3,81

4,95

4,04

12

3,84

3,14

1,48

3,32

5,30

4,31

3,96

2,24

1,45

4,09

5,92

5,07

13

3,80

3,80

1,11

4,95

5,92

3,60

3,78

3,07

1,31

3,23

4,45

3,32

14

3,80

3,15

1,22

3,73

5,32

4,00

3,36

2,49

0,73

3,80

3,14

2,27

15

3,48

3,09

1,34

3,58

5,58

4,11

4,01

2,52

1,53

3,84

5,82

4,78

16

3,42

3,13

1,45

3,48

5,43

4,40

4,40

4,14

1,82

2,38

6,92

4,90

17

3,38

3,58

1,63

4,22

5,80

5,35

4,82

3,87

1,55

3,27

6,40

5,51

18

3,56

2,67

1,72

3,12

5,13

4,50

4,21

3,42

1,48

4,00

6,08

4,63

19

4,12

4,12

1,22

4,31

5,75

3,91

4,16

3,18

1,30

3,50

5,01

4,12

20

4,58

3,27

0,75

3,52

5,40

3,10

3,17

3,41

1,52

4,08

6,12

4,72

21

4,20

3,11

0,72

3,58

5,03

2,62

3,56

2,75

1,12

3,79

4,20

3,00

22

4,38

2,16

0,81

2,38

4,48

3,30

2,97

2,16

0,64

3,38

2,92

2,93

23

3,87

2,70

1,06

3,52

5,02

3,57

2,62

2,33

0,68

4,89

2,70

1,65

24

3,28

3,20

1,10

3,66

5,61

3,65

2,37

1,75

0,85

4,22

3,10

3,40

25

2,87

3,21

1,55

3,83

5,72

4,73

2,90

2,04

0,93

4,17

4,05

3,12

26

2,84

3,39

1,22

3,72

5,79

4,21

3,00

2,61

1,25

3,52

5,40

4,65

27

3,23

2,86

1,77

3,02

5,22

5,54

3,61

2,97

1,34

3,98

4,70

3,30

28

3,72

3,35

1,14

4,21

5,39

4,18

4,12

3,31

1,50

3,40

6,03

5,10

29

4,39

3,76

0,63

3,98

5,90

3,32

4,88

3,82

1,72

3,06

6,52

4,50

30

3,71

2,92

0,58

3,01

5,24

3,38

4,31

3,22

1,41

3,38

5,90

5,30

Таблица VIII.2 Содержания (в %) породообразующих оксидов

Na2O

K2O

TiO2

MgO

CaO

FeO

1

3,60

2,92

1,26

4,51

5,15

4,26

2

3,62

3,10

1,20

3,12

4,83

3,75

3

3,20

3,51

1,46

3,75

5,66

4,31

4

3,98

3,16

1,38

3,56

5,60

4,30

5

3,54

2,95

1,32

4,40

5,03

4,10

6

3,00

3,71

1,52

4,21

6,02

4,72

7

4,31

3,00

0,87

3,36

5,16

3,56

8

4,43

3,30

0,73

3,72

5,21

3,52

9

3,31

2,42

1,01

3,85

4,12

3,20

10

3,09

2,27

0,96

4,53

3,61

2,01

Для построения ковариационной матрицы верхней свиты A в меню Сервис выберите пункт Анализ данных и далее укажите строку Ковариация. В появившемся диалоговом окне укажите Входной интервал A1:C16. Укажите, что данные рассматриваются по столбцам. Установите флажок в поле Метки в первой строке. Укажите выходной диапазон. Для этого поставьте флажок в левое поле Выходной интервал и в правое поле ввода Выходной интервал введите А20. Нажмите кнопку OK.

Для построения ковариационной матрицы верхней свиты B в меню Сервис выберите пункт Анализ данных и далее укажите строку Ковариация. В появившемся диалоговом окне укажите Входной интервал F1:H16. Укажите, что данные рассматриваются по столбцам. Установите флажок в поле Метки в первой строке. Укажите выходной диапазон. Для этого поставьте флажок в левое поле Выходной интервал и в правое поле ввода Выходной интервал введите F20. Нажмите кнопку OK.

В выходных диапазонах получаем ковариационные матрицы. Подразумевается, что в пустых клетках в правой верхней половине таблицы находятся те же коэффициенты ковариации, что и в нижней левой (симметрично расположенные относительно диагонали). Заполните пустые ячейки верхних половин таблицы так, как показано на рис. VIII.1.

Рис. VIII.1. Расчет дискриминантной функции в документе Excel

В диапазон B25:D27 введите табличную формулу {=B21:D23*A18+G21:I23*F18} для расчета выборочной матрицы.

В ячейку F25 введите формулу =A17-F17, в ячейку F26 – формулу =B17-G17, в ячейку F27 – формулу =C17-H17 для вычисления разностей оценок средних d1, d2 и d3 каждого признака по форм. (VIII.3)

В диапазон I25:I27 введите табличную формулу {=МУМНОЖ(МОБР(B25:D27);F25:F27)} для расчета значений коэффициентов a1, a2 и a3 по форм. (VIII.2)

Таким образом, уравнение линейной дискриминантной функции в этом случае будет иметь вид D = 0,005 x + 0,074 y – 0,073 z – по форм. (VIII.1)

Далее необходимо вычислить по форм. (VIII.6) значение функции D0, относительно которого можно сделать вывод о принадлежности нового неизвестного объекта к тому или иному классу (свите).

В ячейку I28 введите формулу =1/2*(I25*(A17+F17)+I26*(B17+G17)+I27*(C17+H17)), результат равен 0,149.

Породы сходного облика, данные опробования которых приведены в табл. VIII.2, могут быть отнесены к верхней свите (объект класса A), если вычисленное для них значение дискриминантной функции D больше D0, в противном случае они должны относиться к нижней свите.

В диапазоне B30:D30 (рис. VIII.1) следует разместить данные первой строки табл. VIII.2 для сочетания трех признаков (Na2O, K2O, TiO2). В ячейке I30 – ввести формулу =I25*B30+I26*C30+I27*D30. Результат равен 0,141 и, следовательно, он может быть отнесен к нижней свите (объект класса В).

ЗАДАЧА VIII.1

Требуется

Используя условия предыдущего ПРИМЕРА VIII.1, рассчитать по форм. (VIII.5) и (VIII.6) элементы матрицы (VIII.4).

Указание

Сначала вычислите следующие данные:

Затем по форм. (VIII.5) и (VIII.6) вычислите элементы матрицы:

;

;

;

;

;

.

В результате получите выборочную матрицу

.

ЗАДАЧА VIII.2

Дискриминантную функцию предлагается рассчитывать по сочетанию любых трех признаков из табл. VIII.1. Расчеты могут проводиться по выборкам сокращенного объема (15 – 20 значений).

ЛАБОРАТОРНАЯ РАБОТА № IX. МОДЕЛИРОВАНИЕ ПРОСТРАНСТВЕННЫХ ПЕРЕМЕННЫХ. АППРОКСИМАЦИЯ ПОВЕРХНОСТЕЙ ТРЕНДА ПОЛИНОМАМИ

При изучении строения земной коры геолога интересуют не только средние характеристики изменчивости и взаимосвязи наблюдаемых значений свойств горных пород, минеральных ассоциаций или полезных ископаемых, но также закономерности их пространственных изменений в исследуемых объемах недр. Статистические модели для этих целей непригодны, поскольку любой статистический показатель отражает лишь средний уровень изменчивости изучаемого свойства, независимо от пространственного размещения точек наблюдений, в то время, как закономерности их пространственного размещения могут оказаться принципиально различными.

К тому же, статистические характеристики обеспечивают объективные оценки уровня наблюдаемой изменчивости признака только в тех случаях, когда выборочные данные представляют собой совокупность независимых случайных величин. Для оценок реальных погрешностей изменчивости корреляционно связанных исходных данных требуется введение поправок за связь.

Для целей математического моделирования закономерностей пространственного размещения изучаемых свойств геологических образований их признаки рассматриваются не как случайные величины, а как пространственные переменные, обладающие рядом специфических характеристик: мерностью, областями существования и воздействия (определения).

Их совокупности образуют поля пространственных переменных, в пределах которых положение каждой переменной определяется координатами пространства.

Геометрические и аналитические методы моделирования геологических, геохимических, геофизических и других полей пространственных переменных способствуют объективному выделению и количественному описанию тенденций, наблюдаемых в изменении свойств исследуемых объектов, а в ряде случаев позволяют выявлять новые, ранее неизвестные закономерности. Для целей моделирования при этом используются результаты геологического картирования, геохимических и шлиховых съемок, геофизических наблюдений, геологоразведочных работ и т.д.

Пространственные закономерности изменения гранулометрического и минерального составов терригенных отложений позволяют yстановить направление сноса обломочного материала и восстановить палеогеографическую обстановку периода формирования толщ осадочных пород. По изменениям концентрации различных минералов выявляется зональность интрузивных массивов и месторождений полезных ископаемых. Пространственные закономерности изменения геофизических полей широко используются при геологическом картировании и поисках полезных ископаемых. Выявление закономерностей в изменении параметров рудных тел на ранних стадиях изучения позволяет более обоснованно оценивать не затронутые геологической разведкой фланги и глубокие горизонты месторождений, а также способствует правильному выбору размеров сети наблюдений при продолжении геологоразведочных работ. Математическое моделировавшие геохимических и геофизических полей позволяет более надежно выявлять аномалии, перспективные на обнаружение месторождений полезных ископаемых.

С помощью моделирования дискретных геологических полей устанавливаются закономерности расположения месторождений и рудопроявлений определенного генетического типа относительно интрузий, тектонических нарушений или других элементов геологического строения.

ГЕОЛОГИЧЕСКИЕ ОБЪЕКТЫ, КАК ПОЛЯ ПРОСТРАНСТВЕННЫХ ПЕРЕМЕННЫХ

Полем пространственной переменной называется область пространства, каждой точке которого поставлено в соответствие некоторое значение изучаемой переменной. В качестве геологического поля может рассматриваться область пространства, при этом каждому элементу последнего соответствует определенное значение изучаемого геологического признака.

В зависимости от природы моделируемых признаков различают геофизические, геохимические, минералогические, морфометрические и другие геологические поля, которые по размерности изучаемого пространства подразделяются на одномерные, двумерные, трехмерные и многомерные.

Непрерывные и дискретные геологические пространственные переменные. По характеру распространения (областям существования) и земной коре геологические пространственные переменные разделяются на непрерывные и дискретные.

Непрерывные пространственные переменные выражают свойства горных пород, минеральных ассоциаций или полезных ископаемых, проявленные в любой точке поля, то есть на всей площади (во всем объеме) исследуемого блока земной коры или геологического тела. К числу этих переменных относятся концентрации химических элементов в горных породах, их физические свойства, мощность изучаемых геологических тел и многие другие свойства пород и руд.

К числу дискретных пространственных переменных относятся пространственно ограниченные геологические образования, области существования (размеры) которых пренебрежимо малы по сравнению с исследуемыми площадями или объемами недр. Они представлены геологическими телами специфического состава (например, отдельными разновидностями пород), месторождениями полезных ископаемых, вкрапленниками отдельных минералов или минеральных агрегатов в породах и др.

Скалярные и векторные поля. По признакам мерности пространственных переменных различают скалярные и векторные геологические поля. Большинство обычно изучаемых геологических переменных относится к скалярным величинам, для задания которых достаточно знать их модуль и знак. Совокупности этих переменных образуют скалярные геологические поля.

Реже в геологической практике используются векторные пространственные переменные, для задания которых в каждой точке пространства необходимо знать не только модуль, но и направление переменной. Векторные случайные поля могут моделироваться как векторы, ориентированные в реальном дву- или трехмерном пространстве (например, магнитные поля) или как комплексы различных скалярных переменных (например, по содержанию нескольких химических элементов в каждой точке). Многие скалярные поля могут быть преобразованы в векторные, если изучать не исходные величины, а их производные, то есть градиенты геологических полей.

ФОН, АНОМАЛИИ И ПОВЕРХНОСТЬ ТРЕНДА

Наиболее распространенной моделью непрерывного скалярного геологического поля является модель аддитивного случайного поля, когда на плоскости с координатами x и y задаются значения непрерывной скалярной переменной , значения которой используются для описания аддитивного скалярного поля , где – функция координат; ε – случайная переменная.

В задачу моделирования поля входит оценка функции f(x,y) в известных предположениях относительно ε и описание случайной части ε при некоторых предположениях относительно f(x,y). Главной задачей изучения пространственных закономерностей является описание неслучайной (закономерной) компоненты поля, отражающей уровень его значений, характерный для отдельных частей изучаемой территории.

Неслучайная компонента, характеризующая основную часть моделируемого геологического поля, называется его фоном. Фоновая часть поля выявляет область относительно повышенных или пониженных значений изучаемого признака и несет в себе полезную геологическую информацию о природе изучаемого геологического объекта. Для выделения фона необходима генерализация основных свойств поля с подавлением более или менее существенных частных отклонений. В каждом конкретном случае отклонения от фона рассматриваются как аномальные.

Методы выделения фоновой части геологического поля с разделением неслучайной и случайной составляющих изучаемых признаков по эмпирическим данным получили название анализа поверхностей тренда.

В геологической практике для целей тренд-анализа используют два разных методических подхода: 1) сглаживание исходных данных скользящими статистическими окнами; 2) аппроксимация полей единой функцией пространственных координат (ортогональными полиномами и др.). Методы скользящих средних более универсальны и обеспечивают лучшие оценки средних параметров пространственно ограниченных участков геологических полей по сравнению с методам полиномиального тренд-анализа исходных данных, которые используются преимущественно для выявления региональных геологических закономерностей.

Относительный характер закономерной и случайной составляющих наблюдаемой изменчивости признаков оказывает заметное влияние на результаты тренд-анализа геологических полей. В связи с этим в зависимости от масштабов, целей, задач и условий исследований под их фонами могут подразумеваться поверхности тренда различной степени плавности, а под аномалиями – любые отклонения от фона, превышающие заданный условный уровень.

Выделение региональных закономерностей путем аппроксимации эмпирических данных функцией координат пространства связано с довольно сложными вычислениями, обычно требующими применения ЭВМ. В качестве аппроксимирующих функций используются ортогональные полиномы различных степеней, уравнение Лапласа, тригонометрические полиномы и др.

Ортогональные полиномы обычно применяются в случае равномерной прямоугольной сети наблюдений. При этом тренд определяется как линейная функция географических координат, построенная по совокупности наблюдений таким образом, что сумма квадратов отклонений значений признака от плоскости тренда минимальна. Такая модель представляет собой вариант статистического метода множественной регрессии, в котором функция , описывающая поверхность тренда, рассматривается как (где x и yкоординаты пространства; β0, β1 и β2 – полиномиальные коэффициенты). Для оценки трех указанных коэффициентов используются уравнения

;

; (IX.1)

;

где п – число точек наблюдения; uзначения признака в точках наблюдений; x и y – координаты точек наблюдений.

Для решения уравнений они записываются в матричной форме:

(IX.2)

и решаются относительно β0, β1 и β2. Такой метод нахождения оценок биномодальных коэффициентов называется методом наименьших квадратов.

ПРИМЕР IX.1

В качестве примера рассмотрим определение плоскости тренда отметок подошвы меловых отложений, экранирующих нефтяную толщу (по Дж. Дэвису). Условные координаты площади и абсолютные отметки подошвы меловых отложений приведены в табл. IX.1.

Требуется

Произвести аппроксимацию поверхностей тренда полиномами и анализ остатков.

Таблица IX.1. Координаты скважин, абсолютные отметки подошвы меловых отложений

п/п

Координаты

Абс. отметка u, м

x, км

y, км

1

10

17

–665

2

21

89

–613

3

33

38

–586

4

35

20

–440

5

47

58

–544

6

60

18

–343

7

65

74

–455

8

82

93

–437

9

89

60

–354

10

97

15

–142

Решение

В ячейку A1 ввести обозначение x, в ячейку B1 ввести обозначение x^2, в ячейку C1 – обозначение y, в ячейку D1 – обозначение y^2, в ячейку E1 – обозначение x*y, в ячейку F1 – обозначение u, в ячейку G1 – обозначение x*u, в ячейку H1 – обозначение y*u. Диапазон A2:A11 заполнить значениями координат скважин x из табл. IX.1, диапазон C2:C11 заполнить значениями координат скважин y из табл. IX.1, диапазон F2:F11 заполнить значениями абсолютных отметок подошвы меловых отложений u из табл. IX.1. В диапазоне B2:B11 рассчитать соответствующие квадраты координат скважин x, в диапазоне D2:D11 рассчитать соответствующие квадраты координат скважин y, в диапазоне E2:E11 рассчитать соответствующие произведения координат x и y, в диапазоне G2:G11 рассчитать соответствующие произведения координаты x и значения абсолютных отметок подошвы меловых отложений u, в диапазоне H2:H11 рассчитать соответствующие произведения координаты y и значения абсолютных отметок подошвы меловых отложений u. В строке 12, используя кнопку Автосумма на панели инструментов Стандартная, рассчитать суммы по столбцам =СУММ(A2:A11) – Σx, =СУММ(B2:B11) – Σx2, =СУММ(C2:C11) – Σy, =СУММ(D2:D11) – Σy2, =СУММ(E2:E11) – Σ(x*y), =СУММ(F2:F11) – Σu, =СУММ(G2:G11) – Σ(x*u), =СУММ(H2:H11) – Σ(y*u). В ячейке A13 рассчитать по формуле =СЧЁТ(A2:A11) число точек наблюдения n. Таким образом, для построения плоскости тренда вычисляются:

В диапазоне B16:D18 составить матрицу системы уравнений (IX.1): в ячейку B16 записать формулу =A13, в ячейку C16 – формулу =A12, в ячейку D16 – формулу =C12, в ячейку B17 – формулу =A12, в ячейку C17 – формулу =B12, в ячейку D17 – формулу =E12, в ячейку B18 – формулу =C12, в ячейку C18 – формулу =E12, в ячейку D18 – формулу =D12. В диапазоне F16:F18 составить вектор свободных членов системы уравнений (IX.1): в ячейку F16 записать формулу =F12, в ячейку F17 – формулу =G12, в ячейку F18 – формулу =H12.

Эти значения записывают систему уравнений (IX.1) в матричной форме (IX.2):

,

Для матричных операций в Excel предусмотрены функции, входящие в категорию «Математические»:

МОПРЕД – вычисление определителя матрицы;

МОБР – вычисление обратной матрицы;

МУМНОЖ – перемножение матриц.

Первая из этих функций возвращает число, поэтому вводится как обычная формула. Остальные функции возвращают блок ячеек, поэтому они должны вводиться как табличные формулы. Первая буква «М» в названии трех функций – сокращение от слова «матрица».

В ячейке A17 вычисляется определитель матрицы системы =МОПРЕД(B16:D18), который отличен от нуля и равен 656509376.

В блок B20:D22 ввести формулу для вычисления обратной матрицы. Для этого выделить блок B20:D22 (он имеет три строки и три столбца, как и исходная матрица). Ввести формулу {=МОБР(B16:D18)}. Даже если Вы используете Мастер функций, нужно завершить ввод нажатием комбинации клавиш Ctrl+Shift+Enter (вместо щелчка по кнопке OK). Если Вы забыли предварительно выделить блок B16:D18, а ввели формулу в ячейку B20 как обычную формулу Excel (закончив ввод нажатием Enter), то не нужно вводить ее заново: выделите B16:D18, нажмите клавишу F2 (редактирование), но не изменяйте формулу, просто нажмите Ctrl+Shift+Enter.

В блок F20:F22 ввести для вычисления коэффициентов β0, β1 и β2 формулу {=МУМНОЖ(B20:D22;F16:F18)}, то есть после решения матричного уравнения получить: β0= –621,04; β1 = 4,78; β2 = –1,96. Подставляя эти значения в уравнение , можно вычислить значения отметок плоскости тренда ( ) для каждой скважины и разности , характеризующие составляющие случайной изменчивости гипсометрической поверхности.

Уравнение функция от двух координат (условных координат площади) описывает поверхность отметки подошвы меловых отложений. Пусть необходимо построить эту поверхность, лежащую в диапазонах: [0; 100], [0; 100] с шагом Δ = 10 для обеих переменных.

Ввести значения переменной х в столбец A. Для этого в ячейку А26 ввести символ х. В ячейку А27 вводится первое значение аргумента – левая граница диапазона (0). В ячейку A28 вводится второе значение аргумента – левая граница диапазона плюс шаг построения (10). Затем, выделив блок ячеек А27:А28, автозаполнением получить все значения аргумента (за правый нижний угол блока протянуть до ячейки А37).

Значения переменной y вводим в строку 26. Для этого в ячейку В26 вводится первое значение переменной – левая граница диапазона (0). В ячейку С26 вводится второе значение переменной – левая граница диапазона плюс шаг построения (10). Затем, выделив блок ячеек В26:С26, автозаполнением получить все значения аргумента (за правый нижний угол блока протягиваем до ячейки L26).

Далее ввести значения переменной . Для этого табличный курсор необходимо поместить в ячейку В27 и записать формулу =$F$20+$F$21*$A27+$F$22*B$26. Обращаем внимание, что символы $ предназначены для фиксации адреса столбца А – переменной х и строки 26 – переменной у. Кроме того, символы $ предназначены для фиксации адресов коэффициентов β0 – $F$20, β1 – $F$21 и β2 – $F$22. Нажать кнопку ОK. Теперь необходимо скопировать функцию из ячейки В27. Для этого автозаполнением (протягиванием вправо) эту формула копируется вначале в диапазон B27:L27, после чего (протягиванием вниз) – в диапазон B28:L37.

Для построения диаграммы необходимо выделить диапазон A26:L37 и на панели инструментов Стандартная необходимо нажать кнопку Мастер диаграмм. В появившемся диалоговом окне Мастер диаграмм (шаг 1 из 4): тип диаграммы указать тип диаграммы – Поверхность, и вид – Контурная диаграмма (левую нижнюю диаграмму в правом окне). После чего нажимаем кнопку Далее в диалоговом окне.

В появившемся диалоговом окне Мастер диаграмм (шаг 2 из 4): источник данных диаграммы необходимо выбрать вкладку Диапазон данных и убедиться, что в поле Диапазон указан правильно интервал данных $A$26:$L$37.

Далее необходимо указать в строках или столбцах расположены ряды данных. Это определит ориентацию осей х и у. В примере переключатель Ряды в с помощью указателя мыши установить положение в столбцах.

Выбрать вкладку Ряд и в поле Подписи оси Х проверить диапазон подписей оси х – $A$27:$A$37.

Проверить также значения подписей оси у. Для этого в рабочем поле Ряд указать первую запись 0 и в рабочее поле Имя, активизировав его указателем мыши, проверить первое значение переменной у $B$26. Затем в поле Ряд указать вторую запись 10 и в рабочем поле Имя увидим второе значение переменной у $С$26, в поле Подписи оси Х проверить диапазон подписей оси х – $A$27:$A$37 Повторить, таким образом, до последней записи – 100. После необходимо нажать кнопку Далее.

В третьем окне требуется ввести заголовок диаграммы и названия осей. Для этого необходимо выбрать вкладку Заголовки, щелкнув на ней указателем мыши. Щелкнув в рабочем поле Название диаграммы указателем мыши, ввести с клавиатуры в поле название: Карта отметок подошвы меловых отложений. Затем аналогичным образом ввести в рабочие поля Ось Х (категорий), Ось Y (рядов данных) и Ось Z (значений) соответствующие названия X, км, Y, км, Абсолютные отметки, м. Далее следует нажать кнопку Готово, и после небольшого редактирования будет получена диаграмма (см. рис. IX.1) изолиний плоскости тренда.

Оценка степени приближения плотности тренда к наблюденным результатам, то есть средняя изменчивость их отклонений может быть охарактеризована величиной SSDD = SSTSSR,

где .

Процент учета общей изменчивости плоскостью тренда осуществляется по формуле .

В ячейку I1 ввести обозначение u', в ячейку J1 ввести обозначение u^2, в ячейку K1 – обозначение u'^2. Диапазон I2:I11 заполнить значениями отметок подошвы меловых отложений, рассчитанными по формуле тренда: в ячейку I2 ввести формулу =$F$20+$F$21*A2+$F$22*C2, которую скопировать во весь диапазон I2:I11. В ячейку J2 ввести формулу =F2^2, которую скопировать во весь диапазон J2:J11. В ячейку K2 ввести формулу =I2^2, которую скопировать во весь диапазон K2:K11. В ячейках диапазона I12:K12 рассчитать с помощью кнопки Автосумма панели инструментов Стандартная соответствующие суммы по столбцам. В ячейку J14 ввести обозначение SST, в ячейку J15 ввести обозначение SSR, ячейку J16 ввести обозначение SSDD, ячейку J17 ввести обозначение K^2. В ячейку K14 ввести формулу =J12-(F12^2/A13), в ячейку K15 ввести формулу =K12-(I12^2/A13), в ячейку K16 ввести формулу =K14-K15, в ячейку K17 ввести формулу =K15/K14 и установить формат числа в процентах (кнопка Процентный формат на панели инструментов Форматирование).

Таким образом, плоскость тренда учитывает 90% общей изменчивости:

.

Рис. IX.1. Карта отметок подошвы меловых отложений в северо-восточной Африке: поверхность тренда первого порядка

Примечание

В приведенном ПРИМЕРЕ IX.1 задача аппроксимации поверхности тренда удовлетворительно решается с применением ортогональных полиномов первой степени. В случаях, когда доля случайной изменчивости остается все же достаточно большей после аппроксимации линейными функциями, для выявления закономерной изменчивости более высокого порядка применяются полиномы второй, третьей и реже – более высоких степеней.

Поверхность тренда второго порядка будет описываться уравнением , а число неизвестных полиномиальных коэффициентов увеличится до пяти. Для перехода к уравнению следующего более высокого порядка каждая географическая координата возводится в заданную степень и добавляются соответствующие смешанные произведения.

Выбор степени аппроксимирующего полинома и оценка значимости выявленных закономерностей могут осуществляться с помощью дисперсионного анализа. Для этого подсчитываются средние квадраты отклонений эмпирических значений исследуемого признака в точках замера от среднего арифметического и от аппроксимирующих поверхностей разного порядка, а также средние квадраты отклонений от среднего арифметического самих аппроксимирующих поверхностей. Значимость закономерностей, описываемых полиномами определенного порядка, проверяется с помощью критерия Фишера.

В геологической практике региональные закономерности обычно удовлетворительно описываются полиномами не выше третьей степени.

Аппроксимация тригонометрическими полиномами позволяет описывать закономерные периодические колебания свойств геологических объектов.

Из всех возможных аппроксимирующих функций выбирается та, которая точнее описывает имеющиеся данные и содержит наименьшее число параметров. Однако вид такой функции нельзя предсказать заранее, что существенно затрудняет практическое использование данных моделей. Аппроксимирующие функции координат пространства как модели геологических объектов имеют и некоторые другие недостатки:

  • допускают существование нереальных значений изучаемых переменных, например, отрицательных значений содержания химических элементов в породах или мощностей рудных тел;

  • не учитывают резких, скачкообразных изменений значений изучаемого свойства по геологическим границам, вследствие чего при моделировании рудных тел высокие содержания полезного компонента иногда распространяются на заведомо безрудные породы, например, на пострудные дайки;

  • непригодны при использовании их для описания прерывистых объектов (например, рудных тел с прерывистым характером оруденения), так как происходит сглаживание исходных данных и искажается представление о степени прерывистости (увеличивается коэффициент рудоносности).

Выделение аномальных значений изучаемого свойства имеет в геологии большое практическое значение, так как с «аномалиями» часто связаны тела полезных ископаемых и другие наиболее интересные геологические объекты.

ЗАДАЧА IX.1

Требуется

Построить схему расположения пробуренных скважин – рис. VIII.2.

Указание

Использовать кнопку Мастер диаграмм панели инструментов Стандартная, выбрав тип диаграммы – Точечная.

Рис. IX.2. Карта отметок подошвы меловых отложений в северо-восточной Африке: расположение скважин с замерами абсолютных отметок подошвы меловых отложений

ПРИМЕР IX.2

Требуется

По исходным данным ПРИМЕРА IX.1 и табл. IX.1. произвести аппроксимацию поверхностей тренда полиномом в пакете Excel с помощью функции ЛИНЕЙН или с помощью процедуры Регрессия из пакета анализа данных.

Решение

Задача нахождения полиномиальных коэффициентов функции , описывающей поверхность тренда, может быть решена проще с помощью функции Excel ЛИНЕЙН или с помощью процедуры Регрессия из пакета анализа данных.

В ячейку A1 ввести обозначение x, в ячейку B1 ввести обозначение y, в ячейку C1 – обозначение u. Диапазон A2:A11 заполнить значениями координат скважин x, диапазон B2:B11 заполнить значениями координат скважин y, диапазон C2:C11 заполнить значениями абсолютных отметок подошвы меловых отложений u из табл. IX.1.

При использовании функции ЛИНЕЙН в свободный диапазон G2:I6 ввести табличную формулу {=ЛИНЕЙН(C2:C11;A2:B11;1;1)}. Первая строка полученного массива данных – это и есть соответствующие полиномиальные коэффициенты: в ячейке I2 – β0, в ячейке H2 – β1 и в ячейке G2 – β2. Ячейка G4 полученного массива данных содержит коэффициент детерминации R2, который равен 0,900. Следовательно, модель в целом адекватна описываемому явлению.

Построение диаграммы поверхности тренда можно осуществить аналогично тому, как это сделано в ПРИМЕРЕ IX.1.

При использовании процедуры Регрессия из пакета анализа данных в пункте меню Сервис выберите строку Анализ данных и далее укажите курсором мыши на строку Регрессия.

В появившемся диалоговом окне задайте Входной интервал Y. Для этого наведите указатель мыши на верхнюю ячейку столбца зависимых данных (C1), нажмите левую кнопку мыши и, не отпуская ее, протяните указатель мыши к нижней ячейке (C11), затем отпустите левую кнопку мыши. (Обратите внимание, что зависимые данные – это те данные, которые предполагается вычислять). Так же укажите Входной интервал X, то есть введите ссылку на диапазон независимых данных A1:B11. (Независимые данные – это те данные, которые будут измеряться или наблюдаться).

Установите флажок в поле Метки в первой строке. Установите флажок в поле График подбора. Далее укажите выходной диапазон. Для этого поставьте переключатель в положение Выходной интервал (наведите указатель мыши и щелкните левой кнопкой), затем наведите указатель мыши на правое поле ввода Выходной интервал и, щелкнув левой кнопкой мыши, указатель мыши наведите на левую верхнюю ячейку выходного диапазона (A31). Щелкните левой кнопкой мыши. Нажмите кнопку OK.

Результаты анализа. В выходном диапазоне появятся результаты и графики подбора и остатков.

Интерпретация результатов. В таблице Дисперсионный анализ оценивается общее качество полученной модели ее достоверность по уровню значимости критерия Фишера – р, который должен быть меньше, чем 0,05 (строка Регрессия, столбец Значимость F, в примере 0,0003, то есть p =0,0003 – модель значима, и степень точности описания моделью процесса – R-квадрат (вторая строка сверху в таблице Регрессионная статистика, в примере R-квадрат = 0,900. Следовательно, модель в целом адекватна описываемому явлению.

Далее необходимо определить значения коэффициентов модели. Они определяются из таблицы в столбце Коэффициенты – в строке Y-пересечение приводится свободный член, в строках соответствующих переменных приводятся значения коэффициентов при этих переменных. В столбце p-значение приводится достоверность отличия соответствующих коэффициентов от нуля. В случаях, когда р > 0,05, коэффициент может считаться нулевым. Это означает, что соответствующая независимая переменная практически не влияет на зависимую переменную и коэффициент может быть убран из уравнения. Все рассчитанные коэффициенты значимы.

Таким образом, функция , описывающая поверхность тренда, может быть записана как .

ЗАДАЧА IX.2

Требуется

По исходным данным ПРИМЕРА IX.1 и табл. IX.1. произвести аппроксимацию поверхностей тренда полиномом в пакете Excel с помощью функции ЛИНЕЙН или с помощью процедуры Регрессия из пакета анализа данных.

Указание

Поверхность тренда второго порядка будет описываться уравнением , а число неизвестных полиномиальных коэффициентов увеличится до пяти.

Диапазон A2:A11 заполнить значениями координат скважин x, диапазон B2:B11 заполнить значениями квадратов координат скважин x2, диапазон C2:C11 заполнить значениями координат скважин y, диапазон D2:D11 заполнить значениями координат скважин y2, диапазон E2:E11 заполнить произведениями значений координат скважин xy, диапазон F2:F11 заполнить значениями абсолютных отметок подошвы меловых отложений u из табл. IX.1.

Диаграмма изолиний плоскости тренда второго порядка – см. рис. IX.3.

Исходные данные для построения этой диаграммы можно разместить следующим образом – рис. IX.4.

Рис. IX.3. Карта отметок подошвы меловых отложений в северо-восточной Африке: поверхность тренда второго порядка

Рис. IX.4. Размещение исходных на рабочем листе для построения диаграммы рисунка IX.3

ОБЛАСТИ ПРИМЕНЕНИЯ ГОРНО-ГЕОМЕТРИЧЕСКИХ В МОДЕЛЕЙ И ТРЕНД-АНАЛИЗА В ГЕОЛОГИИ

Большинство геологических задач относится к числу пространственных исследований и имеет цель выявить особенности размещения изучаемых геологических объектов в структурах земной коры или элементов ее строения. Поэтому методы количественного описания и математического моделирования пространственных геологических закономерностей являются ведущими во всех отраслях геологических наук.

В геологической практике издавна исключительно широко распространены методы горно-геометрического моделирования геологических тел и свойств горных пород и полезных ископаемых.

Графические модели различных свойств природных геологических тел широко используются в структурной геологии, геологии полезных ископаемых, рудничной геологии и методике поисков и разведки полезных ископаемых. Методы горно-геометрического моделирования изучаются в курсе геометризации недр. На принципах П.К. Соболевского были разработаны различные аналитические методы описания изменчивости, использующие для этих целей первые или вторые последовательные разности значений показателей изменчивости по смежным пунктам наблюдений.

С помощью горно-геометрических моделей можно выразить особенности пространственной изменчивости свойств геологических образований, установить значение изучаемого свойства в любой точке исследуемого объекта, получить представление об его морфологии и внутреннем строении.

Гипсометрические планы поверхностей контактов, не выходящих на поверхность интрузивных тел и рудных залежей, графики изолиний содержаний полезных компонентов в рудных телах, карты геохимических и геофизических полей широко используются в геологической практике, так как они обеспечивают наглядность изображения и улучшают пространственное восприятие изучаемых закономерностей. Однако требование непрерывности и плавности изменения изучаемого свойства ограничивает область их практического применения объектами с весьма выдержанными в пространстве свойствами. К таким объектам относятся пласты осадочных пород, границы интрузивных образований, рудные тела с простой морфологией и относительно равномерным характером оруденения и т.п.

ЛАБОРАТОРНАЯ РАБОТА № X. ОПТИМИЗАЦИЯ

ОСНОВНЫЕ ПОНЯТИЯ

Под оптимизацией понимают процесс выбора наилучшего варианта из всех возможных. С точки зрения инженерных расчетов методы оптимизации позволяют выбрать наилучший вариант конструкции, наилучшее распределение ресурсов и т.п.

В процессе решения задачи оптимизации обычно необходимо найти оптимальные значения некоторых параметров, определяющих данную задачу. При решении инженерных задач их принято называть проектными параметрами, а в экономических задачах их обычно называют параметрами плана. В качестве проектных параметров могут быть, в частности, значения линейных размеров объекта, массы, температуры и т.п. Число п проектных параметров x1, x2, ..., xn характеризует размерность (и степень сложности) задачи оптимизации.

Выбор оптимального решения или сравнение двух альтернативных решений проводится с помощью некоторой зависимой величины (функции), определяемой проектными параметрами. Эта величина называется целевой функцией (или критерием качества). В процессе решения задачи оптимизации должны быть найдены такие значения проектных параметров, при которых целевая функция имеет минимум (или максимум). Таким образом, целевая функция – это глобальный критерий оптимальности в математических моделях, с помощью которых описываются инженерные или экономические задачи.

Целевую функцию можно записать в виде

u = f(x1, x2, ..., xn). (X.1)

Примерами целевой функции, встречающимися в инженерных и экономических расчетах, являются прочность или масса конструкции, мощность установки, объем выпуска продукции, стоимость перевозок грузов, прибыль и т.п.

В случае одного проектною параметра (n = 1) целевая, функция (X.1) является функцией одной переменной, и ее график – некоторая кривая на плоскости. При п = 2 целевая функция является функцией двух переменных, и ее графиком является поверхность.

Следует отметить, что целевая функция не всегда может быть представлена в виде формулы. Иногда она может принимать только некоторые дискретные значения, задаваться в виде таблицы и т.п. Во всех случаях она должна быть однозначной функцией проектных параметров.

Целевых функций может быть несколько. Например, при проектировании изделий машиностроения одновременно требуется обеспечить максимальную надежность, минимальную материалоемкость, максимальный полезный объем (пли грузоподъемность). Некоторые целевые функции могут оказаться несовместимыми. В таких случаях необходимо вводить приоритет той или иной целевой функции.

ЗАДАЧИ ОПТИМИЗАЦИИ

Можно выделить два типа задач оптимизации – безусловные и условные. Безусловная задача оптимизации состоит в отыскании максимума или минимума действительной функции (X.1) от п действительных переменных и определении соответствующих значений аргументов на некотором множестве σ n-мерного пространства. Обычно рассматриваются задачи минимизации; к ним легко сводятся и задачи на поиск максимума путем замены знака целевой функции на противоположный.

Условные задачи оптимизации, или задачи с ограничениями, – это такие, при формулировке которых задаются некоторые условия (ограничения) на множестве σ. Эти ограничения задаются совокупностью некоторых функций, удовлетворяющих уравнениям или неравенствам.

Ограничения-равенства выражают зависимость между проектными параметрами, которая должна учитываться при нахождении решения. Эти ограничения отражают законы природы, наличие ресурсов, финансовые требования и т.п.

В результате ограничений область проектирования σ, определяемая всеми п проектными параметрами, может быть существенно уменьшена в соответствии с физической сущностью задачи. Число m ограничений-равенств может быть произвольным. Их можно записать в виде

g1(x1, x2, ..., xn) = 0,

g2(x1, x2, ..., xn) = 0, (X.2)

……………………

gm(x1, x2, ..., xn) = 0.

В ряде случаев из этих соотношений можно выразить одни проектные параметры через другие. Это позволяет исключить некоторые параметры из процесса оптимизации, что приводит к уменьшению размерности задачи и облегчает ее решение. Аналогично могут вводиться также ограничения-неравенства имеющие вид

a1 ≤ φ1(x1, x2, ..., xn) b1,

a2 ≤ φ2(x1, x2, ..., xn) b2, (X.3)

…………………………

ak ≤ φk(x1, x2, ..., xn) bk.

Следует отметить особенность в отыскании решения при наличии ограничений. Оптимальное решение здесь может соответствовать либо локальному экстремуму (максимуму или минимуму) внутри области проектирования, либо значению целевой функции на границе области. Если же ограничения отсутствуют, то ищется оптимальное решение на всей области проектирования, то есть глобальный экстремум.

Теория и методы решения задач оптимизации при наличии ограничений составляют предмет исследования одного из важных разделов прикладной математики — математического программирования.

ОДНОМЕРНАЯ ОПТИМИЗАЦИЯ. ЗАДАЧИ НА ЭКСТРЕМУМ

Одномерная задача оптимизации в общем случае формулируется следующим образом. Найти наименьшее (пли наибольшее) значение целевой функции y = f(x), заданной на множестве σ, и определить значение проектного параметра , при котором целевая функция принимает экстремальное значение. Существование решения поставленной задачи вытекает из следующей теоремы.

Теорема Вейерштрасса. Всякая функция f(x), непрерывная на отрезке [a, b], принимает на этом отрезке наименьшее и наибольшее значения, то есть на отрезке [a, b] существуют такие точки x1 и x2, что для любого имеют место неравенства

f(x1)f(x)f(x2).

Эта теорема не доказывает единственности решения. Не исключена возможность, когда равные экстремальные значения достигаются сразу в нескольких точках данного отрезка. В частности, такая ситуация имеет место для периодической функции, рассматриваемой на отрезке, содержащем несколько периодов.

Будем рассматривать методы оптимизации для разных классов целевых функций. Простейшим из них является случай дифференцируемой функции f(x) на отрезке [a, b], причем функция задана в виде аналитической зависимости y=f(x), и может быть найдено явное выражение для ее производной f'(x). Нахождение экстремумов таких функций можно проводить известными из курса высшей математики методами дифференциального исчисления. Напомним вкратце этот путь.

Функция f(x) может достигать своего наименьшего и наибольшего значений либо в граничных точках отрезка [a, b], либо в точках минимума и максимума. Последние точки обязательно должны быть критическими, то есть производная f'(x) в этих точках обращается в нуль, — это необходимое условие экстремума. Следовательно, для определения наименьшего или наибольшего значений функции f(x) на отрезке [a, b] нужно вычислить ее значения во всех критических точках данного отрезка и в его граничных точках и сравнить полученные значения; наименьшее или наибольшее из них и будет искомым значением.

МНОГОМЕРНЫЕ ЗАДАЧИ ОПТИМИЗАЦИИ

Выше мы рассмотрели одномерные задачи оптимизации, в которых целевая функция зависит лишь от одного аргумента. Однако в большинстве реальных задач оптимизации, представляющих практический интерес, целевая функция зависит от многих проектных параметров. Например, минимум дифференцируемой функции многих переменных u = f(x1, x2, ..., xn) можно найти, исследуя ее значения в критических точках, которые определяются из решения системы дифференциальных уравнений

ЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ

В случае, когда оптимизируемая целевая функция и ограничения линейны, задача оптимизации решается методами линейного программирования и обычно называется задачей линейного программирования.

Процесс решения задачи линейного программирования обычно состоит из ряда этапов:

  • 1-й этап: осмысление задачи, выделение наиболее важных качеств, свойств, величин, параметров. Это можно делать, составляя схемы, таблицы, графики и т.п.;

  • 2-й этап: введение обозначений (неизвестных). Желательно ограничиваться как можно меньшим количеством неизвестных, выражая по возможности одни величины через другие;

  • 3-й этап: создание целевой функции. Обычно в качестве цели могут выступать максимальная стоимость всего объема продукции, максимальная прибыль, минимальные затраты и т.п. Целевая функция записывается в виде(X.1);

  • 4-й этап: составление системы ограничений, которым должны удовлетворять введенные величины (X.2) или (X.3);

  • 5-й этап: решение задачи на компьютере.

Инструментом для поиска решений задач оптимизации в Excel служит процедура Поиск решения (Сервис/Поиск решения). При этом открывается диалоговое окно Поиск решения. Оно содержит следующие рабочие поля:

  • Установить целевую ячейку – служит для указания целевой ячейки, значение которой необходимо максимизировать, минимизировать или установить равным заданному числу. Эта ячейка должна содержать формулу;

  • Равной – служит для выбора варианта оптимизации значения целевой ячейки (максимизация, минимизация или подбор заданного числа). Чтобы установить число, необходимо ввести его в поле;

  • Изменяя ячейки – служит для указания ячеек, значения которых изменяются в процессе поиска решения до тех пор, пока не будут выполнены наложенные ограничения и условие оптимизации значения ячейки, указанной в поле Установить целевую ячейку;

  • Предположить – используется для автоматического поиска ячеек, влияющих на формулу, ссылка на которую дана в поле Установить целевую ячейку. Результат поиска отображается в поле Изменяя ячейки;

  • Ограничения – служит для отображения списка граничных условий поставленной задачи;

  • Добавить – используется для отображения диалогового окна Добавить ограничение;

  • Изменить – применяется для отображения диалогового окна Изменить ограничение;

  • Удалить – служит для снятия указанного ограничения;

  • Выполнить – используется для запуска поиска решения поставленной задачи;

  • Закрыть – служит для выхода из окна диалога без запуска поиска решения поставленной задачи. При этом сохраняются установки, сделанные в окнах диалога, появлявшихся после нажатий на кнопки Параметры, Добавить, Изменить или Удалить;

  • Параметры – применяется для отображения диалогового окна Параметры поиска решения, в котором можно загрузить или сохранить оптимизируемую модель и указать предусмотренные варианты поиска решения;

  • Восстановить – служит для очистки полей окна диалога и восстановления значений параметров поиска решения, используемых по умолчанию.

ПРИМЕР X.1

Требуется

На нефтяных месторождениях 1 и 2 поисково-разведочными работами готовятся запасы промышленных категорий X1 и X2 (в млн. т.). Необходимо отыскать значения запасов, приводящие к максимуму стоимости сырья (в тыс. долларов), которое возможно получить на двух месторождениях. В математическом виде – найти максимум прикладной линейной функции Z

при ограничениях:

– объемы работ по экологической реабилитации площади работ;

– стоимость геофизических работ;

– стоимость геохимических работ;

.

Указание

Обозначим: X1 – запасы месторождения 1, X2 – запасы месторождения 2. Значения запасов, приводящие к максимуму стоимости сырья (в тыс. долларов), которое возможно получить на двух месторождениях значения запасов, приводящие к максимуму стоимость сырья (в тыс. долларов), которое возможно получить на двух месторождениях . Функция, для которой ищется экстремум (максимум или минимум), носит название целевой функции. Беспредельному увеличению запасов препятствуют ограничения: – объемы работ по экологической реабилитации площади работ; – стоимость геофизических работ; – стоимость геохимических работ. Кроме того, запасы – неотрицательное число, поэтому .

Формально задача оптимизации записывается так:

Решение

Решим эту задачу в Excel.

Введите в ячейки A1, A2, A4:A8 рабочего листа текст. В ячейки B1, B2, A4:A8 введите нули (рис. X.1).

Рис. X.1. Размещение исходных данных задачи в документе Excel

В ячейку B4 введите формулу =50*B1+40*B2. Это целевая функция. В ячейку B6 введите формулу =2*B1+5*B2. В ячейку B7 введите формулу =8*B1+5*B2. В ячейку B8 введите формулу =5*B1+6*B2. Это ограничения.

Выделим ячейку B4, в которой вычисляется целевая функция, и вызовем Решатель (Сервис/Поиск решения). В диалоговом окне в поле ввода Установить целевую ячейку: уже содержится адрес ячейки с целевой функцией $B$4. Установим переключатель: Равной максимальному значению. Перейдем к полю ввода Изменяя ячейки:. В нашем случае достаточно щелкнуть кнопку Предположить и в поле ввода появится адрес блока $B$1:$B$2.

Перейдем к вводу ограничений. Щелкнем кнопку Добавить. Появится диалоговое окно Добавление ограничения. В поле ввода Ссылка на ячейку: укажите $B$6. Правее расположен выпадающий список с условными операторами (раскройте его и посмотрите). Выберем условие <=. В поле ввода Ограничение: введите число 20. У нас есть еще два ограничения, поэтому, не выходя из этого диалогового окна, щелкните кнопку Добавить и введите ограничение $B$7<=40. Аналогично добавить ограничение $B$8<=30. Ввод ограничений закончен, поэтому нажмите OK. Вы вновь окажитесь в диалоговом окне Поиск решения. Вы увидите введенные ограничения $B$6<=20, $B$7<=40 и $B$8<=30. Справа имеются кнопки Изменить и Удалить. С их помощью Вы можете изменить ограничение или стереть его. (Если Вы используете Excel 5.0/7.0, то Вы должны ввести еще одно ограничение $B$1:$B$2>=0).

Щелкните кнопку Параметры. Вы окажитесь в диалоговом окне Параметры поиска решения. Чтобы узнать назначение полей ввода этого окна, щелкните кнопку Справка. Менять ничего не будем, только установим два флажка: Линейная модель (так как наши ограничения и целевая функция являются линейными по переменным X1 и X2) и Неотрицательные значения (для переменных X1 и X2). В Excel 5.0/7.0 этот последний флажок отсутствует, поэтому и нужно было вводить ограничение $B$1:$B$2>=0. Щелкнем OK и окажемся в исходном окне.

Задача оптимизации полностью подготовлена. Нажимаем кнопку Выполнить. Появляется диалоговое окно Результаты поиска решения. В нем мы читаем сообщение: Решение найдено. Все ограничения и условия оптимальности выполнены. На выбор предлагаются варианты: Сохранить найденное решение или Восстановить исходные значения. Выбираем первое. Можно также вывести отчеты: по результатам, по устойчивости, по пределам.

После нажатия OK вид таблицы меняется: в ячейках X1 и X2 появляются оптимальные значения: X1 – 3,913043 и X2 – 1,73913. Соответственно пересчитываются все формулы. Целевая функция достигает значения 265,2174.

КОНТРОЛЬНЫЕ ВОПРОСЫ

  1. Геологические образования и процессы как объекты изучения. Системы расположения точек наблюдений в геологии.

  2. Погрешности измерений и погрешности аналогий. Шкалы измерений в геологии. «Выборочная», «геологическая» и «опробуемая» совокупности.

  3. Виды моделирования в геологии. Этапы процесса решения геологических задач математическими методами.

  4. Одномерные статистические модели. Числовые диаграммы «стебель с листьями» и «ящик с усами».

  5. Статистические характеристики. Решение геологических задач с помощью гистограмм и кумулят.

  6. Статистические законы распределения, используемые в геологии.

  7. Специфика случайных угловых величин. Круговое среднее направление, круговая мода и круговая медиана.

  8. Точечные и интервальные оценки свойств геологических объектов. Свойства точечных оценок.

  9. Построение доверительных интервалов оценок средних значений.

  10. Статистическая проверка гипотез. Ошибки первого и второго рода при статистической проверке гипотез.

  11. Параметрические и непараметрические критерии согласия.

  12. Проверка гипотезы о типе статистического распределения.

  13. Решение геологических задач путем проверки гипотез о равенстве средних.

  14. Решение геологических задач путем проверки гипотез о равенстве дисперсий.

  15. Решение геологических задач путем проверки гипотезы об однородности выборки.

  16. Решение геологических задач с помощью однофакторного и двухфакторного дисперсионного анализа.

  17. Геологические объекты как двумерная статистическая совокупность. Описание двумерной статистической совокупности с помощью корреляционного поля точек.

  18. Решение геологических задач путем проверки гипотезы о наличии корреляционной связи.

  19. Оценка силы корреляционной связи.

  20. Применение в геологии регрессионного анализа.

  21. Описание характера корреляционной связи свойств геологических объектов уравнениями.

  22. Проверка гипотезы о линейном характере корреляционной связи.

  23. Применение многомерных статистических моделей в геологии.

  24. Понятия парного, частного и множественного коэффициентов корреляции.

  25. Методы выделения ассоциаций. Метод графов.

  26. Принципы и области применения кластер-анализа.

  27. Множественные регрессионные модели и их применение.

  28. Распознавание образов в геологии.

  29. Факторный анализ и метод главных компонент при решении геологических задач.

  30. Моделирование пространственных переменных.

  31. Непрерывные и дискретные геологические пространственные переменные, скалярные и векторные поля.

  32. Фон и аномалия. Решение геологических задач с помощью тренд-анализа.

  33. Способы «сглаживания» случайных полей.

  34. Статистические методы проверки гипотез о наличии тренда.

  35. Метод аппроксимации поверхностей тренда полиномами в геологии.

  36. Моделирование дискретных случайных полей.

  37. Понятие о моделировании с помощью случайных функций.

ЛИТЕРАТУРА

  1. Аветисов А.Г., Булатов А.И., Шаманов Методы прикладной математики в инженерном деле при строительстве нефтяных и газовых скважин. – М.: ООО «Недра-Бизнесцентр», 2003. – 239 с.

  2. Андронов А.М., Копытов Е.А., Гринглаз Л.Я. Теория вероятностей и математическая статистика: Учебник для вузов. – СПб.: Питер, 2004. – 461 с.

  3. Вуколов Э.А. Основы статистического анализа. Практикум по статистическим методам и исследованию операций с использованием пакетов STATISTICA и EXCEL: Учебное пособие. – М.: ФОРУМ: ИНФРА-М, 2004. – 464 с.

  4. Гайдышев И. Анализ и обработка данных: специальный справочник. – СПб.: Питер, 2001. – 752 с.

  5. Гельман В.Я. Решение математических задач средствами Excel: Практикум – СПб: Питер, 2003. – 240 с.

  6. Гмурман В.Е. Теория вероятностей и математическая статистика: Учеб. пособие для вузов. – 10-е изд., стер. – М.: Высш. шк. , 2004. – 479 с.

  7. Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике: Учеб. пособие для студентов вузов. – 9-е изд. стер. – М.: Высш. шк., 2004. – 404 с.

  8. Горелова Г.В., Кацко И.А. Теория вероятностей и математическая статистика в примерах и задачах с применением EXCEL. – Ростов н/Д: Феникс, 2005. – 480 с.

  9. Грановская Н.В., Наставкин А.В. Сборник задач для лабораторных и самостоятельных занятий по дисциплине «Математические методы моделирования в геологии». Для студентов геологических специальностей геолого-географического факультета. – Ростов н/Дону: 2002. – 40 с.

  10. Гуськов О.И., Кушнарев П. И. Таранов С.М.. Математические методы в геологии. Сборник задач. М.: Недра,1991.

  11. Каждан А.Б., Гуськов О.И. Математические методы в геологии. Учебник для вузов. – М.: Недра, 1990.

  12. Лавренов С.М. Excel: Сборник примеров и задач. – М.: Финансы и статистика, 2002. – 336 с.

  13. Мартьянова А.Е. Сборник примеров и задач. Лабораторный практикум по дисциплине «Статистическое моделирование на ЭВМ». /Учебно-методическое пособие для студентов специальности 250400 «Химическая технология природных энергоносителей и углеродных материалов». – Астрахань, 2007, 136 с.

  14. Мартьянова А.Е. Сборник примеров и задач. Лабораторный практикум по дисциплине «Математические методы моделирования в геологии». /Учебное пособие для студентов направления 650100 «Прикладная геология» (электронный вариант). – Астрахань, 2005, 263 с.

  15. Мартьянова А.Е. Математические методы моделирования в геологии. Сборник примеров и задач: Учебное пособие для студентов направления 650100 «Прикладная геология». – Астрахань, 2005, 268 с.

  16. Минько А.А. Статистический анализ в MS EXCEL. – М.: Издательский дом «Вильямс», 2004. – 448 с.

  17. Прозорова Г.Н. Методические указания к выполнению лабораторных работ по курсу «Методы математического моделирования в геологии» (для студентов очной и заочной форм обучения по специальности 08.05.00) – Ростов-на-Дону: Ростовский госуниверситет, 2004. – с. 34.

  18. Теория вероятностей и математическая статистика: Учеб. пособие /Под ред. В.И. Ермакова – М.: ИНФРА-М, 2004. – 287 с.

  19. Турчак Л. И. Основы численных методов: Учеб. пособие. – М.: Наука, 1987. – 320 с.

  20. Microsoft Excel 2000: справочник /Под ред. Ю.В. Колесникова – СПб: Изд-во «Питер», 1999. – 480 с.

  21. www.exponenta.ru

  22. www.statsoft.com

ПРИЛОЖЕНИЯ

Приложение I. Значения функции нормального распределения с параметрами 0 и 1 (для отрицательных значений Z)

Z

0,00

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

-0,0

0,5000

0,4920

0,4929

0,4880

0,4840

0,4801

0,4761

0,4721

0,4681

0,4641

-0,1

0,4602

0,4562

0,4522

0,4483

0,4443

0,4404

0,4364

0,4325

0,4286

0,4247

-0,2

0,4207

0,4168

0,4129

0,4090

0,4052

0,4013

0,3974

0,3936

0,3897

0,3859

-0,3

0,3821

0,3783

0,3745

0,3707

0,3669

0,3632

0,3594

0,3557

0,3520

0,3483

-0,4

0,3446

0,3409

0,3372

0,3336

0,3300

0,3264

0,3228

0,3192

0,3156

0,3121

-0,5

0,3085

0,3050

0,3015

0,2981

0,2946

0,2912

0,2877

0,2843

0,2810

0,2776

-0,6

0,2743

0,2709

0,2676

0,2643

0,2611

0,2578

0,2546

0,2514

0,2483

0,2451

-0,7

0,2420

0,2398

0,2358

0,2327

0,2297

0,2266

0,2236

0,2206

0,2177

0,2148

-0,8

0,2119

0,2090

0,2061

0,2033

0,2005

0,1977

0,1949

0,1922

0,1894

0,1867

-0,9

0,1841

0,1814

0,1788

0,1762

0,1736

0,1711

0,1685

0,1660

0,1635

0,1611

-1,0

0,1587

0,1562

0,1539

0,1515

0,1492

0,1469

0,1446

0,1423

0,1401

0,1379

-1,1

0,1357

0,1335

0,1314

0,1292

0,1271

0,1251

0,1230

0,1210

0,1190

0,1170

-1,2

0,1151

0,1131

0,1112

0,1093

0,1075

0,1056

0,1038

0,1020

0,1003

0,0985

-1,3

0,0968

0,0951

0,0934

0,0918

0,0901

0,0885

0,0869

0,0853

0,0838

0,0823

-1,4

0,0808

0,0793

0,0778

0,0764

0,0749

0,0735

0,0721

0,0708

0,0694

0,0681

-1,5

0,0668

0,0655

0,0643

0,0630

0,0618

0,0606

0,594

0,0582

0,0570

0,0559

-1,6

0,0548

0,0537

0,0526

0,0515

0,0505

0,0495

0,0485

0,0475

0,0465

0,0455

-1,7

0,04046

0,0436

0,0427

0,0418

0,0409

0,0401

0,0392

0,0384

0,0375

0,0367

-1,8

0,0359

0,0351

0,0344

0,0336

0,0329

0,0322

0,0314

0,0307

0,0300

0,0294

-1,9

0,0287

0,0281

0,0274

0,0268

0,0262

0,0256

0,0250

0,0244

0,0238

0,0233

-2,0

0,0227

0,0222

0,0217

0,0212

0,0207

0,0202

0,0197

0,0192

0,0188

0,0183

-2,1

0,0179

0,0174

0,0170

0,0166

0,0162

0,0158

0,0154

0,0150

0,0146

0,0143

-2,2

0,0139

0,0135

0,0132

0,0219

0,0125

0,0122

0,0119

0,0116

0,0113

0,0110

-2,3

0,0107

0,104

0,0102

0,0099

0,0096

0,0094

0,0091

0,0089

0,0087

0,0084

-2,4

0,0082

0,0080

0,0078

0,0075

0,0073

0,0071

0,0069

0,0068

0,0066

0,0064

-2,5

0,0062

0,0060

0,0059

0,0057

0,0055

0,0054

0,0052

0,0051

0,0049

0,0047

-2,6

0,0047

0,0045

0,0044

0,0043

0,0041

0,0040

0,0039

0,0038

0,0037

0,0036

-2,7

0,0035

0,0034

0,0033

0,0032

0,0030

0,0030

0,0029

0,0028

0,0027

0,0026

-2,8

0,0026

0,0025

0,0024

0,0023

0,0023

0,0022

0,0021

0,0020

0,0020

0,0019

-2,9

0,0019

0,0018

0,0017

0,0017

0,0016

0,0016

0,0015

0,0015

0,0014

0,0014

-3,0

0,0013

0,0013

0012

0012

0012

0011

0,0011

0,0011

0,0010

0,0010

-3,1

0,0010

0,0009

0,0009

0,0009

0,0008

0,0008

0,0008

0,0008

0,0007

0,0007

-3,3

0,0005

0,0005

0,0004

0,0004

0,0004

0,0004

0,0004

0,0004

0,0004

0,0003

-3,4

0,0003

0,0003

0,0003

0,0003

0,0003

0,0003

0,0003

0,0003

0,0002

0,0002

-3,5

0,0002

0,0002

0,0002

0,0002

0,0002

0,0002

0,0002

0,0002

0,0002

0,0002

-3,6

0,0002

0,0002

0,0001

0,0001

0,0001

0,0001

0,0001

0,0001

0,0001

0,0001

-3,7

0,0001

0,0001

0,0001

0,0001

0,0001

0,0001

0,0001

0,0001

0,0001

0,0001

-3,8

0,0001

0,0001

0,0001

0,0001

0,0001

0,0001

0,0001

0,0001

0,0000

0,0000

Примечание

Значения функции для положительных Z находятся вычитанием из 1 значений функции для (-Z). Пример: для Z = 0,72 P= 1-0,2358 =0,7642.

Приложение II. Допустимые значения критерия Стьюдента при данном объеме выборки N и уровне значимости α

N

Двусторонняя критическая область

N

Двусторонняя критическая область

α = 0,1

α = 0,05

α = 0,02

α = 0,01

α = 0,001

α = 0,1

α = 0,05

α = 0,02

α = 0,01

α = 0,001

1

6,31

12,71

31,82

63,66

636,62

18

1,73

2,10

2,55

2,88

3,92

2

2,92

4,30

6,97

9,93

31,60

19

1,73

2,09

2,54

2,86

3,88

3

2,35

3,18

4,54

5,84

12,94

20

1,73

2,09

2,53

2,85

3,85

4

2,13

2,78

3,75

4,60

8,61

21

1,72

2,08

2,52

2,83

3,82

5

2,02

2,57

3,37

4,03

6,86

22

1,72

2,07

2,51

2,82

3,79

6

1,94

2,45

3,14

3,71

5,96

23

1,71

2,07

2,50

2,81

3,77

7

1,90

2,37

3,00

3,50

5,41

24

1,71

2,06

2,49

2,80

3,75

8

1,86

2,31

2,90

3,36

5,04

25

1,71

2,06

2,49

2,79

3,73

9

1,83

2,26

2,82

3,25

4,78

26

1,71

2,06

2,48

2,78

3,71

10

1,81

2,23

2,76

3,17

4,59

27

1,70

2,05

2,47

2,77

3,69

11

1,80

2,20

2,72

3,11

4,44

28

1,70

2,05

2,47

2,76

3,67

12

1,78

2,18

2,68

3,06

4,32

29

1,70

2,05

2,46

2,76

3,66

13

1,77

2,16

2,65

3,01

4,22

30

1,70

2,04

2,46

2,75

3,65

14

1,76

2,15

2,62

2,98

4,14

40

1,68

2,02

2,42

2,70

3,55

15

1,75

2,13

2,60

2,95

4,07

60

1,67

2,00

2,39

2,66

3,46

16

1,75

2,12

2,58

2,92

4,02

120

1,66

1,98

2,36

2,62

3,37

17

1,74

2,11

2,57

2,90

3,97

1,65

1,96

2,33

2,58

3,29

N

α = 0,05

α = 0,025

α = 0,01

α = 0,005

α = 0,0005

N

α = 0,05

α = 0,025

α = 0,01

α = 0,005

α = 0,0005

Односторонняя критическая область

Односторонняя критическая область

Приложение III. Критические точки распределения χ2

Число степеней свободы

α

0,01

0,025

0,05

0,95

0,975

0,99

1

6,6

5,0

3,8

0,0039

0,00098

0,00016

2

9,2

7,4

6,0

0,103

0,051

0,020

3

11,3

9,4

7,8

0,352

0,216

0,115

4

13,3

11,1

9,5

0,711

0,484

0,297

5

15,1

12,8

11,1

1,15

0,831

0,554

6

16,8

14,4

12,6

1,64

1,24

0,872

7

18,5

16,0

14,1

2,17

1,69

1,24

8

20,1

17,5

15,5

2,73

2,18

1,65

9

21,7

19,0

16,9

3,33

2,70

2,09

10

23,2

20,5

18,3

3,94

3,25

2,56

11

24,7

21,9

19,7

4,57

3,82

3,05

12

26,2

23,3

21,0

5,23

4,40

3,57

13

27,7

24,7

22,4

5,89

5,01

4,11

14

29,1

26,1

23,7

6,57

5,63

4,66

15

30,6

27,5

25,0

7,26

6,26

5,23

16

32,0

28,8

26,3

7,96

6,91

5,81

17

33,4

30,2

27,6

8,67

7,56

6,41

18

34,8

31,5

28,9

9,39

8,23

7,01

19

36,2

32,9

30,1

10,1

8,91

7,63

20

37,6

34,2

31,4

10,9

9,59

8,26

21

38,9

35,5

32,7

11,6

10,3

8,90

22

40,3

36,8

33,9

12,3

11,0

9,54

23

41,6

38,1

35,2

13,1

11,7

10,2

24

43,0

39,4

36,4

13,8

12,4

10,9

25

44,3

40,6

37,7

14,6

13,1

11,5

26

45,6

41,9

38,9

15,4

13,8

12,2

27

47,0

43,2

40,1

16,2

14,6

12,9

28

48,3

44,5

41,3

16,9

15,3

13,6

29

49,6

45,7

42,6

17,7

16,0

14,3

30

50,9

47,0

43,8

18,5

16,8

15,0

Приложение IV. Критические значения статистики критерия равномерности Релея

n

α

0,1

0,05

0,025

0,01

0,001

5

0,677

0,754

0,816

0,879

0,991

6

0,618

0,69

0,753

0,825

0,94

7

0,572

0,642

0,702

0,771

0,891

8

0,535

0,602

0,66

0,725

0,847

9

0,504

0,569

0,624

0,687

0,808

10

0,478

0,54

0,594

0,655

0,775

11

0,456

0,516

0,567

0,627

0,743

12

0,437

0,494

0,544

0,602

0,716

13

0,42

0,475

0,524

0,58

0,692

14

0,405

0,458

0,505

0,56

0,669

15

0,391

0,443

0,489

0,542

0,649

16

0,379

0,429

0,474

0,525

0,63

17

0,367

0,417

0,46

0,51

0,613

18

0,357

0,405

0,447

0,496

0,597

19

0,348

0,394

0,436

0,484

0,583

20

0,339

0,385

0,425

0,472

0,569

21

0,331

0,375

0,415

0,461

0,556

22

0,323

0,367

0,405

0,451

0,544

23

0,316

0,359

0,397

0,441

0,533

24

0,309

0,351

0,389

0,432

0,522

25

0,303

0,344

0,381

0,423

0,512

30

0,277

0,315

0,348

0,387

0,47

35

0,256

0,292

0,323

0,359

0,436

40

0,24

0,273

0,302

0,336

0,409

45

0,226

0,257

0,285

0,318

0,386

50

0,214

0,244

0,27

0,301

0,367

100

0,15

0,17

0,19

0,21

0,26

4,605

5,991

7,378

9,21

13,816

Приложение V. Параметр концентрации k распределения Мизеса

0,00

0,00000

0,25

0,51649

0,50

1,15932

0,76

2,45490

0,01

0,02000

0,26

0,53863

0,51

1,19105

0,77

2,54686

0,02

0,04001

0,27

0,56097

0,52

1,22350

0,78

2,64613

0,03

0,06003

0,28

0,58350

0,53

1,25672

0,79

2,75382

0,04

0,08006

0,29

0,60625

0,54

1,29077

0,80

2,87129

0,05

0,10013

0,30

0,62922

0,55

1,32570

0,81

3,00020

0,06

0,12022

0,31

0,65242

0,56

1,36156

0,82

3,14262

0,07

0,14034

0,32

0,67587

0,57

1,39842

0,83

3,30114

0,08

0,16051

0,33

0,69958

0,58

1,43635

0,84

3,47901

0,09

0,18073

0,34

0,72356

0,59

1,47543

0,85

3,68041

0,10

0,20101

0,35

0,74783

0,60

1,51574

0,86

3,91072

0,11

0,22134

0,36

0,77241

0,61

1,55738

0,87

4,17703

0,12

0,24175

0,37

0,79730

0,62

1,60044

0,88

4,48876

0,13

0,26223

0,38

0,82253

0,63

1,64506

0,89

4,85871

0,14

0,28279

0,39

0,84812

0,64

1,69134

0,90

5,3047

0,15

0,30344

0,40

0,87408

0,65

1,73945

0,91

5,8522

0,16

0,32419

0,41

0,90043

0,66

1,78953

0,92

6,5394

0,17

0,34503

0,42

0,92720

0,67

1,84177

0,93

7,4257

0,18

0,36599

0,43

0,95440

0,68

1,89637

0,94

8,6104

0,19

0,38707

0,44

0,98207

0,69

1,95357

0,95

10,2716

0,20

0,40828

0,45

1,01022

0,70

2,01363

0,96

12,7661

0,21

0,42962

0,46

1,03889

0,71

2,07685

0,97

16,9266

0,22

0,45110

0,47

1,06810

0,72

2,14359

0,98

25,2522

0,23

0,47273

0,48

1,09788

0,73

2,21425

0,99

50,2421

0,24

0,49453

0,49

1,12828

0,74

2,28930

1,00

Приложение VI. Функция распределения Мизеса F (θ/180°, k) с круговым средним направлением μ=180°

θ

F (θ)

k = 0

k = 0,2

k = 0,4

k = 0,6

k = 0,8

k = 1,0

k = 1,2

k = 1,4

0

0,00000

0,00000

0,00000

0,00000

0,00000

0,00000

0,00000

0,00000

5

0,01389

0,01126

0,00895

0,00699

0,00536

0,00404

0,00301

0,00221

10

0,02778

0,02254

0,01793

0,01400

0,01074

0,00811

0,00604

0,00444

15

0,04167

0,03385

0,02697

0,02108

0,01620

0,01225

0,00913

0,00672

20

0,05556

0,04522

0,03608

0,02826

0,02175

0,01647

0,01230

0,00907

25

0,06944

0,05665

0,04531

0,03557

0,02744

0,02083

0,01559

0,01153

30

0,08333

0,06816

0,054467

0,04304

0,03329

0,02535

0,01903

0,01411

35

0,09722

0,07978

0,06420

0,05071

0,03936

0,03007

0,02266

0,01686

40

0,11111

0,09152

0,07392

0,05861

0,04567

0,03504

0,02650

0,01981

45

0,12500

0,10338

0,08386

0,06679

0,05228

0,04029

0,03062

0,02299

50

0,13889

0,11540

0,09405

0,07527

0,05921

0,04587

0,03505

0,02647

55

0,15278

0,12757

0,10452

0,08409

0,06653

0,05184

0,03985

0,03028

60

0,16667

0,13992

0,11529

0,09331

0,07428

0,05825

0,04509

0,03450

65

0,18056

0,15246

0,12639

0,10295

0,08251

0,06517

0,05082

0,03919

70

0,19444

0,16520

0,13784

0,11306

0,09128

0,07265

0,05711

0,04442

75

0,20833

0,17815

0,14968

0,12368

0,10064

0,08078

0,06407

0,05030

80

0,22222

0,19132

0,16192

0,13485

0,11066

0,08962

0,07176

0,05690

85

0,23611

0,20471

0,17460

0,14662

0,12139

0,09925

0,08028

0,06436

90

0,25000

0,21834

0,18772

0,15901

0,13289

0,10975

0,08974

0,07277

95

0,26389

0,23222

0,20130

0,17206

0,14522

0,12122

0,10025

0,08228

100

0,27778

0,24633

0,21537

0,18582

0,15844

0,13372

0,11191

0,09302

105

0,29167

0,26069

0,22992

0,20030

0,17260

0,14734

0,12483

0,10514

110

0,30556

0,27529

0,24498

0,21554

0,18774

0,16217

0,13913

0,11876

115

0,31944

0,29014

0,26054

0,23154

0,20392

0,17825

0,15491

0,13405

120

0,33333

0,30522

0,27659

0,24832

0,22114

0,19566

0,17226

0,15112

125

0,34722

0,32053

0,29314

0,26587

0,23944

0,21444

0,19125

0,17009

130

0,36111

0,33606

0,31017

0,28420

0,25882

0,23460

0,21194

0,19106

135

0,37500

0,35180

0,32766

0,30327

0,27926

0,256165

0,23435

0,21408

140

0,38889

0,36774

0,34559

0,32306

0,30073

0,27909

0,25849

0,23918

145

0,40278

0,38385

0,36392

0,34353

0,32319

0,30334

0,28431

0,26633

150

0,41667

0,40013

0,38263

0,36463

0,34656

0,32883

0,31172

0,29544

155

0,43056

0,41655

0,40166

0,38628

0,37077

0,35546

0,34060

0,32638

160

0,44444

0,43309

0,42098

0,40841

0,30570

0,38309

0,37079

0,35897

170

0,47222

0,46644

0,46025

0,45379

0,44722

0,44066

0,43423

0,42800

175

0,48611

0,48321

0,49009

0,47684

0,47353

0,47022

0,46696

0,46381

180

0,50000

0,50000

0,50000

0,50000

0,50000

0,50000

0,50000

0,50000

Приложение VII. Критические значения статистики X-критерия Ван-дер-Вардена для односторонних границ

N

α = 0,025

α = 0,001

α = 0,1

m = 0

m = 1

m = 2

m = 3

m = 4

m = 5

m = 0

m = 1

m = 2

m = 3

m = 4

m = 5

m = 0

m = 1

m = 2

m = 3

m = 4

m = 5

1

2

3

4

5

6

7

8

9

10

2

0,10

3

0,50

4

0,73

0,64

5

0,90

0,74

6

1,10

1,04

0,82

7

1,25

1,14

0,89

8

2,40

2,30

1,42

1,37

1,23

1,42

1,37

1,23

9

2,38

2,20

1,56

1,48

1,30

1,56

1,48

1,30

10

2,60

2,49

2,30

1,71

1,67

1,57

1,71

1,67

1,57

11

2,72

2,58

2,40

1,83

1,77

1,64

1,83

1,77

1,64

12

2,86

2,79

2,68

1,98

1,94

1,87

1,98

1,94

1,87

13

2,96

2,91

2,78

2,09

2,03

1,93

2,09

2,03

1,93

14

3,11

3,06

3,00

2,22

2,19

2,12

2,22

2,19

2,12

15

3,24

3,19

3,06

2,33

2,28

2,20

2,33

2,28

2,20

16

3,39

3,36

3,28

2,44

2,42

2,36

2,44

2,42

2,36

17

3,49

3,44

3,36

2,54

2,51

2,44

2,54

2,51

2,44

18

3,63

3,60

3,53

2,65

2,64

2,59

2,65

2,64

2,59

19

3,73

3,69

3,61

2,76

2,72

2,66

2,76

2,72

2,66

20

3,86

3,84

3,78

2,85

2,84

2,80

2,85

2,84

2,80

21

3,96

3,92

3,85

2,95

2,92

2,87

2,95

2,92

2,87

22

4,08

4,06

4,01

3,05

3,04

3,00

3,05

3,04

3,00

23

4,18

4,15

4,08

3,14

3,12

3,06

3,14

3,12

3,06

24

4,29

4,27

4,23

3,23

3,22

3,19

3,23

3,22

3,19

25

4,39

4,36

4,30

3,33

3,29

3,26

3,33

3,29

3,26

26

4,50

4,48

4,44

3,41

3,39

3,37

3,41

3,39

3,37

27

4,59

4,56

4,51

3,49

3,47

3,43

3,49

3,47

3,43

28

4,69

4,68

4,64

3,57

3,57

3,54

3,57

3,57

3,54

29

4,78

4,76

4,72

3,66

3,64

3,60

3,66

3,64

3,60

30

4,88

4,87

4,84

3,74

3,73

3,70

3,74

3,73

3,70

31

4,97

4,95

4,91

3,82

3,80

3,76

3,82

3,80

3,76

32

5,07

5,06

5,03

3,89

3,88

3,86

3,88

3,89

3,86

33

5,15

5,13

5,10

3,96

3,95

3,92

3,96

3,95

3,92

34

5,25

5,24

5,21

4,05

4,05

4,02

4,05

4,05

4,02

35

5,33

5,31

5,28

4,12

4,11

4,08

4,12

4,11

4,08

36

5,42

5,41

5,38

4,19

4,19

4,16

4,19

4,19

4,16

37

5,50

5,48

5,45

4,26

4,25

4,24

4,26

4,25

4,24

38

5,59

5,58

5,55

4,33

4,33

4,32

4,33

4,33

4,32

39

5,67

5,65

5,62

4,40

4,39

4,38

4,40

4,33

4,38

40

5,75

5,74

5,72

4,48

4,48

4,46

4,48

4,39

4,46

Продолжение приложения VII

1

2

3

4

5

6

7

8

9

10

41

5,83

5,81

5,79

4,54

4,53

4,50

4,45

4,53

4,50

42

5,91

5,90

5,88

4,62

4,62

4,59

4,62

4,62

4,59

43

5,99

5,97

5,95

4,68

4,67

4,66

4,68

4,67

4,66

44

6,06

6,06

6,04

4,76

4,74

4,73

4,76

4,74

4,73

45

6,14

6,12

6,10

4,81

4,80

4,78

4,81

4,80

4,78

46

6,21

6,21

6,19

4,88

4,86

4,86

4,88

4,86

4,86

47

6,29

6,27

6,25

4,93

4,93

4,90

4,93

4,93

4,90

48

6,36

6,35

6,34

5,00

5,00

4,99

5,00

5,00

4,99

49

6,43

6,42

6,39

5,07

5,05

5,04

5,07

5,05

5,04

50

6,50

6,50

6,48

5,14

5,13

5,11

5,14

5,13

5,11

Приложение VIII. Критические значения статистик W1 и 2MW критерия Вилкоксона для односторонних границ

N1

N2

W1

2MW

N1

N2

W1

2MW

α = 0,025

α = 0,10

α = 0,025

α = 0,10

1

2

3

4

5

6

7

8

9

10

10

10

78

87

210

11

11

96

106

253

11

81

91

220

12

99

110

264

12

84

94

230

13

103

114

275

13

88

98

240

14

106

118

286

14

91

102

250

15

110

123

297

15

94

106

260

16

113

127

308

16

97

109

270

17

117

131

319

17

100

113

280

18

121

135

330

18

103

117

290

19

124

139

341

19

107

121

300

20

128

144

352

20

110

125

310

21

131

148

363

21

113

128

320

22

135

152

374

22

116

132

330

23

139

156

385

23

119

136

340

24

142

161

396

24

122

140

350

25

146

165

407

25

126

144

360

13

13

136

149

351

12

12

115

127

300

14

141

154

364

13

119

131

312

15

145

159

377

14

123

136

314

16

150

165

390

15

127

141

336

17

154

170

403

16

131

145

348

18

158

175

416

17

135

150

360

19

163

180

429

18

139

155

372

20

167

185

442

19

143

159

384

21

171

190

455

20

147

164

396

22

176

195

468

21

151

169

400

23

180

200

481

22

155

173

420

24

185

205

494

23

159

178

432

25

189

211

507

24

163

183

444

25

167

187

456

Продолжение приложения VIII

1

2

3

4

5

6

7

8

9

10

15

15

184

200

465

16

190

206

480

14

14

160

174

406

17

195

212

495

15

164

179

420

18

200

218

510

16

169

185

434

19

205

224

525

17

174

190

448

20

210

230

540

18

179

196

462

21

216

236

555

19

183

202

476

22

221

242

570

20

188

207

490

23

226

248

585

21

193

213

504

24

231

254

600

22

198

218

518

25

237

260

615

23

203

224

532

24

207

229

543

25

212

235

560

16

16

211

229

528

17

17

240

259

595

17

217

235

544

18

246

266

612

18

222

242

560

19

252

273

629

19

228

248

576

20

258

280

646

20

234

255

592

21

264

287

663

21

239

261

608

22

270

294

680

22

245

267

624

23

276

300

697

23

251

274

640

24

282

307

714

24

256

280

656

25

288

314

731

25

262

287

672

19

19

303

325

741

18

18

270

291

666

20

309

333

760

19

277

299

684

21

316

341

779

20

283

306

702

22

323

349

798

21

290

313

720

23

330

357

817

22

296

321

738

24

337

364

836

23

303

328

756

25

344

372

855

24

309

335

774

25

316

343

792

21

21

373

399

903

22

381

408

924

20

20

337

361

820

23

388

417

945

21

344

370

840

24

396

425

966

22

351

378

860

25

404

434

987

23

359

386

880

24

366

394

900

23

23

451

481

1081

25

373

403

920

24

459

491

1104

25

468

500

1127

22

22

411

439

990

23

419

448

1012

24

24

492

525

1176

24

427

457

1034

25

501

535

1200

25

435

467

1056

25

25

536

570

1275

Приложение IX. Критические значения критерия Ватсона-Вильямса при n1=n2 (а) и n2=2n1 (б)

Приложение X. Значения F-критерия Фишера для 5%-ного уровня значимости

f1

1

2

3

4

5

6

12

24

f2

1

164,4

199,5

215,7

224,6

230,2

234,0

244,9

249,0

254,3

2

18,5

19,2

19,3

19,3

19,3

19,3

19,4

19,5

19,5

3

10,1

9,6

9,3

9,1

9,0

8,9

8,7

8,6

8,5

4

7,7

6,9

6,6

6,4

6,3

6,2

5,9

5,8

5,6

5

6,6

5,8

5,4

5,2

5,1

5,0

4,7

4,5

4,4

6

6,0

5,1

4,8

4,5

4,4

4,3

4,0

3,8

3,7

7

5,6

4,7

4,4

4,1

4,0

3,9

3,6

3,4

3,2

8

5,3

4,5

4,1

3,8

3,7

3,6

3,3

3,1

2,9

9

5,1

4,3

3,9

3,6

3,5

3,4

3,1

2,9

2,7

10

2,0

4,1

3,7

3,5

3,3

3,2

2,9

2,7

2,5

11

4,8

4,0

3,6

3,4

3,2

3,1

2,8

2,6

2,4

12

4,8

3,9

3,5

3,3

3,1

3,0

2,7

2,5

2,3

13

4,7

3,8

3,4

3,2

3,0

2,9

2,6

2,4

2,2

14

4,6

3,7

3,3

3,1

3,0

2,9

2,5

2,3

2,1

15

4,5

3,7

3,3

3,1

2,9

2,8

2,5

2,3

2,1

16

4,5

3,6

3,2

3,0

2,9

2,7

2,4

2,2

2,0

17

4,5

3,6

3,2

3,0

2,8

2,7

2,4

2,2

2,0

18

4,4

3,6

3,2

2,9

2,8

2,7

2,3

2,1

1,9

19

4,4

3,5

3,1

2,9

2,7

2,6

2,3

2,1

1,9

20

4,4

3,5

3,1

2,9

2,7

2,6

2,3

2,1

1,8

22

4,4

3,4

3,0

2,8

2,7

2,6

2,2

2,0

1,8

24

4,3

3,4

3,0

2,8

2,6

2,5

2,2

2,0

1,7

26

4,2

3,4

3,0

2,7

2,6

2,5

2,2

2,0

1,7

28

4,2

3,3

3,0

2,7

2,6

2,4

2,1

1,9

1,7

30

4,2

3,3

2,9

2,7

2,5

2,4

2,1

1,9

1,6

40

4,1

3,2

2,9

2,6

2,5

2,3

2,0

1,8

1,5

60

4,0

3,2

2,8

2,5

2,4

2,3

1,9

1,7

1,4

120

3,9

3,1

2,7

2,5

2,3

2,2

1,8

1,6

1,3

3,8

3,0

2,6

2,4

2,2

2,1

1,8

1,5

1,0

Примечание

f1 = n1 – 1 – число степеней свободы для большей дисперсии; f2 = n2 – 1 – число степеней свободы для меньшей дисперсии.

Приложение XI. Критические значения критерия Краскала-Уоллиса

N1

N2

N3

Уровень значимости

N1

N2

N3

Уровень значимости

α = 0,10

α = 0,05

α = 0,01

α = 0,10

α = 0,05

α = 0,01

2

2

2

4,57

5

3

1

4,01

4,96

3

2

2

4,50

4,71

5

3

2

4,65

5,25

6,82

3

3

2

4,55

5,36

5

3

3

4,53

5,34

6,98

3

3

3

4,62

5,60

7,20

5

4

1

3,98

4,98

6,95

4

2

2

4,37

5,33

5

4

2

4,54

5,27

7,11

4

3

2

4,51

5,44

6,44

5

4

3

4,54

5,63

7,44

4

3

3

4,70

5,72

6,74

5

4

4

4,61

5,61

7,76

4

4

1

4,16

4,96

6,66

5

5

1

4,10

5,12

7,30

4

4

2

4,55

5,45

7,03

5

5

2

4,50

5,33

7,33

4

4

3

4,54

5,59

7,14

5

5

3

4,54

5,70

7,57

4

4

4

4,65

5,69

7,65

5

5

4

4,52

5,66

7,82

5

2

2

4,37

5,16

6,53

5

5

5

4,56

5,78

7,98

Приложение XII. Критические значения критерия Фридмана

Q

P

Уровень значимости

α = 0,05

α = 0,02

α = 0,01

α = 0,005

3

3

6,000

3

4

6,500

8,000

8,000

8,000

3

5

6,400

6,400

8,400

10,000

3

6

7,000

8,333

9,000

10,333

3

7

7,143

8,000

8,857

10,286

3

8

6,250

7,750

9,000

9,750

3

9

6,222

8,000

8,667

10,667

4

2

6,000

4

3

7,400

8,200

9,000

9,000

4

4

7,800

8,400

9,600

10,200

Приложение XIII. Англо-русский словарь терминов пакета STATISTICA и статистических терминов

Термин

Перевод

1

2

Accept

Принять

Action

Действие

Add Cases

Добавить наблюдения

Add Variables

Добавить переменные

Adjust

Корректировка

Advisor

Советник

Alert Always

Сообщать всегда

ANOVA, analysis of variance

Однофакторный дисперсионный анализ

Appearance

Представление

Apply

Применить

Area Under Curve

Площадь под кривой

Assigned Cases

Связанные наблюдения

Assignment

Назначение, задание, новые данные

Assign Rank 1 to

Установить значение ранга 1 для

Associate

Связать

Attempt

Попытка

Automatic update on Exit

Автоматически обновлять при выходе

Auxiliary

Дополнительно

Background

Фон

Bands

Полосы

Banner

Заголовок

Banners

Флажки

Bar

Линейка

Baseline Errors

Исходные ошибки

Basic

Основной

Batch

Пакетный

Baund rate

Скорость передачи (бит в секунду)

Beyond

За, вне, свыше

Bias

Смещение

Biases

Склонность, предубеждение

Bivariate Distribution

Двумерное распределение

Blank

Пустой

Bookmark

Закладка

Boot

Запуск системы

Border

Рамка

Branch

Ветвь

Breakdown

Разбиение

Browse

Просмотр

Brushing

Окраска

Buttons

Кнопки

Canonical Analyses

Канонический анализ

Canonical Reduction

Каноническое преобразование

Case Name

Имена случаев (наблюдений)

1

2

Case Selection Conditions

Условия выбора случаев (наблюдений)

Cauchy distribution

Распределение Коши

Centering (of the data)

Центрирование (данных)

Character

Литера (опция, в которой выбираются гарнитура, начертание и размер (кегль) шрифта)

Chat

Электронный телефон

Check

Контроль

Chi- Squared Distribution

Распределение хи-квадрат

Clicking

Нажатие на кнопку мыши

Clipboard

Буфер промежуточного хранения

Clip Book-Viewer

Программа просматривает содержимое буфера Clipboard, сохраняет его или удаляет

Coefficient of multiple determination

Множественный коэффициент детерминации: квадрат коэффициента множественной корреляции

Collapse

Свернуть

Collapse Branch

Свернуть ветвь

Comparison

Сравнение

Compatibility

Совместимость

Complexity

Сложность

Condition Expectation

Условное матем. ожидание

Confidence interval

Доверительный интервал

Confidence Limit

Доверительный предел

Connect

Присоединять

Content

Содержание

Contiguous

Смежный

Continuity Correction

Поправка на непрерывность

Continuous Distribution

Непрерывное распределение

Control Box

Кнопка управления

Convert

Преобразовывать

Correlation Analysis

Корреляционный анализ

Correlation Coefficient

Коэффициент корреляции

Correlation Matrix

Матрица (коэффициентов) корреляции, корреляционная матрица

Covariance

Ковариация

Create Data Set

Создать набор данных

Critical Value

Критическое значение

Cumulative Probability

Интегральная (накопленная) вероятность

Cumulative Probability Distribution

Кумулятивное (накопленное) распределение вероятностей

Currency

Денежный формат (данных)

Current

Текущий

Current Spec...

Текущая спецификация

Custom Colors

Пользовательские цвета

Custom Graphs

Пользовательский график

Cut

Урезание

Data Management

Управление данными

1

2

Data Matrix

Матрица данных

Data Set Datasheet

Таблица данных

Data Set Editor

Редактор данных

Data Set Shuffle

Переметать данные

Data Values

Значение данных, данные

Decimals

Десятичные знаки

Default

По умолчанию

Define

Определять

Definition

Определение

Degrees of freedom (d.f.)

Степени свободы; число степеней свободы

Delete Cases

Удалить случаи (наблюдения)

Delimiter

Разделитель

Density Function

Функция плотности распределения вероятностей

Dependent variable

Зависимая переменная; отклик

Discrepancy

Расхождение (разность)

Discrete distribution

Дискретное распределение

Descriptive Statistics

Описательные статистики

Detail Shown

Степень подробности

Detrended Data

Данные с исключенным трендом

Deviation

Отклонение

Dial

Способ

Deletion

Вычеркивание; стирание; удаление; исключение; ликвидация; уничтожение

Destination Variables

Создаваемые переменные

Direct

Прямой

Discard

Отвергнуть

Distribution of Error

Распределение ошибок

Division

Деление

Division of Cases

Разбиение наблюдений

Double Precision Arithmetic

Вычисления с удвоенной точностью

Download

Загрузить

Draft

Чертеж

Dragging

Протягивание (мыши)

Drop-down

«Выпадающий»

Durbin–Watson test

Критерии Дарбина–Уотсона

Edit Case Names

Редактировать имена наблюдений

Eigenvalues

Собственные значения

Embedding

Встраивание (объектов)

Enlarge Set

Увеличить набор

Enough

Достаточно

Ensure

Гарантировать

Envelopes

Конверты

Error

Ошибка

Error Function

Функция ошибки

Error Mean

Среднее ошибки

Estimate

Оценка, оценивать; приблизительно подсчитывать

1

2

Estimation

Оценивание (подсчет, вычисление)

Except

Исключать

Exclude if...

Удалить, если...

Expect

Ждать; предполагаемый

Expectation

Математическое ожидание

Expected value

Математическое ожидание, среднее значение

Exponential distribution

Экспоненциальное распределение

Extreme Value

Экстремальное значение

Facile

Легкий

Feature Selection

Отбор признаков

Field

Поле

Fill Block

Заполнить блок

Fill Random Values

Заполнить значения переменных случайными величинами – числами, имеющими равномерное распределение от 0 до 1

Fit the Model

Подбор модели, подгонка модели

Flash

Мерить

Flow Control

Протокол

Fonts

Шрифт

Forward Selection Procedure

Метод включения (в регрессионном анализе)

Fractional

Дробный (ранг от 0 до 1)

Frequency

Частота

Frequency Function

Функция частот

General

Общие

Glossary

Специальный толковый словарь

Graduation

Сглаживание, нанесение кривой по точкам

Grate

Решетка

Handshake

Подтверждение

Header

Заголовок

Hidden

Скрытый

Hidden Units

Скрытые элементы

Highlight Counts

Выделить числа

Hypothesis

Гипотеза

Hypothesis Testing

Проверка гипотезы

Icon

Пиктограмма

Imaginary

Мнимая часть

Inactive

Неактивный

Include if

Включить, если

Incorrelated

Некоррелированный

Independent Samples

Независимые выборки

Independent Variable

Независимая переменная, фактор

Index

Оглавление

Input Data Matrix

Матрица исходных данных

Inputs Datasheet

Таблица входных значений

Input Variable

Входная переменная

Insertion

Выделение

1

2

Insert Object

Вставка объекта

Insufficient

Недостаточный, неподходящий

Integer

Целый

Interaction

Взаимодействие

Intercept

Свободный член (в уравнении регрессии)

Interrupted

Прерванный

Inverse of Matrix

Обращение матрицы

Involve

Включить, вовлекать

Item

Элемент данных

Iterations

Число итераций

Jittering

Разгонка (точек)

Joining

Соединение

Kurtosis

Эксцесс

Kurtosis of Frequency

Эксцесс кривой плотности распределения

Lag-1 Serial Correlation

Сериальная корреляция с единичным сдвигом

Latent Variable

Латентная (скрытая) переменная

Layout

Расположение, разметка

Least

Наименьший

Least Squares Method

Метод наименьших квадратов

Least Squares Method Equation

МНК уравнение

Least Squares Method Estimate

МНК оценка

Level of Factor

Уровень фактора

Linear Regression (Model)

Линейная регрессия (модель)

Relationship

Линейная зависимость

Trend

Тренд (временного ряда)

Links

Связи

Lock

Защитить, блокировать

Logistic

Логистический

Logistic Regression

Логистическая регрессия

Log-normal Variable

(Случайная) величина, распределенная по логарифмически нормальному закону

Loss Coefficient

Коэффициент потерь

Loss Matrix

Матрица потерь

Lower-Tailer

Односторонний критерий для нижнего «хвоста» распределения

Manuel

Руководство, инструкция

Margin

Край, граница, поле (печатной страницы)

Match Case

Учет регистра

Max/SD

Максимальное/(стандартное отклонение)

Maximum Likelihood

Максимальное правдоподобие

Mean Square

Средний квадрат

Mean Square Error

Средний квадрат ошибки

Mean Square About Regression

Средний квадрат отклонений относительно регрессии

Mean Square About Regression Due to Lack of Fit

Средний квадрат, обусловленный неадекватностью

1

2

Mean Square About Regression Due to Regression

Средний квадрат обусловленный регрессией

Mean Square About Regression Due to Residual Variation

Остаточный средний квадрат (средний квадрат, обусловленный остаточной вариацией)

Mean Square About Regression For Pure Error

Средний квадрат, характеризующий «чистую» ошибку

Mean/SD

Среднее/стандартное отклонение)

Means

Среднее

Measure

Мера

Median

Медиана

Medium

Средняя (длительность поиска)

Merge

Объединить

Message

Сообщение, поручение

Method for Discriminating

Метод дискриминации (моделей)

Method for Discriminating of Least Squares

Метод наименьших квадратов (МНК)

Min Proportion

Минимальная доля

Mini max

Минимаксное

Missing Observations

Пропущенные наблюдения

Model Validation Technique

Метод обоснования модели

Modes

Режимы

Missing Data

Пропущенные значения

Momentum

Инерция

Mouse Pointer

Курсор мыши

Multiple Regression Calculation Correlation Coefficient

Множественный коэффициент корреляции

Multiple Regression

Множественная регрессия

Multiplicative Model

Мультипликативная модель

Multivariate

Многомерный

Move Cases

Перемещение случаев (наблюдений)

N-dimensional Multivariate Normal Distribution

N-мерное нормальное распределение

Negative Serial Correlation Between Successive Residuals

Отрицательная сериальная корреляция между последовательными (соседними) остатками

Neighborhood

Окрестность

Newton–Raphson Technique

Метод Ньютона–Рафсона

Nonlinear

Нелинейный

Nonlinear Estimation

Нелинейное оценивание

Nonlinear Growth Model

Нелинейная модель роста

Nonsingular Matrix

Невырожденная матрица

Normal Deviate

Нормальное отклонение

Normal Deviate Distribution Random Variable

Нормально распределенная случайная величина

Normal Deviate Equations

Нормальные уравнения (МНК)

Normal Deviate Plot of Residuals

График остатков

Normal Distribution

Нормальное распределение

Normalization

Нормировка, стандартизация (данных)

1

2

Observations

Наблюдения

One–sided Test

Односторонний критерий

One–Way

Односторонний; однонаправленный

One-way Classification

Односторонняя классификация, классификация по одному признаку

Optimum Threshold

Оптимальный порог

Order of the Model

Порядок модели

Original Data

Исходные данные

Orthogonal Column

Ортогональные столбцы (матрицы)

Outlier

Выброс; резко выделяющееся значение

Output

Выходные данные; результат вычислений

Output Variable

Выходная переменная

Outputs Datasheet

Таблица выходных значений

Outputs Shown

Показывать при выводе

Overview

Общее представление (о каком-либо предмете); обзор

Packager

Упаковщик (объектов)

Padding

Добавление нулей (например, в ряд)

Page Layout

Просмотр пакета

Partial Correlation

Частная корреляция

Paste Special

Специальная вставка

Percentage

Проценты (представление данных в процентах); относительная (ошибка)

Percentage Point of the Distribution

Процентная точка распределения

Performance

Качество

Plot

График; кривая; диаграмма

Power

Степень

Precision

Точность

Predict

Прогнозировать, предсказывать

Predictability

Предсказуемость

Predicted (mean) Value

Предсказанное (среднее) значение

Predictive Discrepancy Sum of Squares

Сумма квадратов предсказанных расхождений

Predictive Equation (model)

Предсказывающее уравнение (модель)

Principal Components Analysis

Анализ главных компонент

Principal Component Regression

Регрессия на главных компонентах

Prior probabilities

Априорные вероятности

Probability Calculator

Вероятностный калькулятор

Probability Level

Уровень вероятности

Prompt

Подсказывать

Properties

Свойство, собственность, характеристики

Prune

Удалить

Pure Error

«Чистая ошибка» (ошибка опыта)

Pure Error Mean Square

Средний квадрат, связанный с «чистой» ошибкой

Pure Error Sum of Squares

Сумма квадратов, связанная с «чистой» ошибкой (обусловленная «чистой» ошибкой)

Raise

Увеличение

1

2

Random

Случайный

Random Arrangement of Signs

Случайное расположение знаков

Random Deviation

Случайное отклонение

Random Search

Случайный поиск

Random Variation

Случайный разброс

Range selection

Выделение диапазона ячеек

Ranks For Ties

Ранги для совпадающих значений

Rank Variables

Присвоение рангов значениям переменной

Rate

Цена, расценка

Ratio

Отношение

Raw

Исходный

Real number fields

Поля для вещественных чисел

Recalculate Variables

Пересчитать значения переменных

Receive

Получать

Recede Variables

Перекодировать переменные ;

Redundance

Чрезмерность, избыточность

Redial

Повторить

Refresh

Обновлять

Regression

Регрессия, зависимость

Regression Curve

Регрессионная кривая

Regression Equation

Уравнение регрессии

Regression Estimate

Регрессионная оценка

Regression Mean Squares

Средний квадрат, обусловленный регрессией

Regular

Регулярный (ранг от 0 до 1)

Reject

Отвергнуть

Reyleigh distribution

Релеевское распределение

Remove

Удалить

Repeatability

Воспроизводимость

Replace existing

Заменить существующий

Representation

Представление

Reset

Восстановить

Residual

Остаток

Residual Mean Squares

Остаточный средний квадрат

Residual Sum of Squares

Остаточная сумма квадратов

Resolution

Разрешение – количество точек на дюйм

Response

Отклик

Restore

Восстановить в прежнем размере

Resume

Возобновить, продолжить

Retrieve Defaults

Применить установки по умолчанию

Ribbon

Линейка форматирования

Ridge Regression

Гребневая регрессия, ридж-регрессия

Rounding Error

Ошибка округления

Row vector

Вектор-строка

Ruler

Координатная линейка

Run

Запустить

Run All Cases

Прогнать все наблюдения

Running

Бегущий

1

2

Runs Test

Критерий знаков

Sample

Выборка

Sample Coefficient

Выборочный коэффициент, оценка коэффициента

Sample Estimate

Выборочная оценка

Sample Size

Объем (размер) выборки

Save Defaults

Сохранить по умолчанию

Scalable

Масштабируемый

Scaled

Нормированный

Scatter Diagramm (SD)

Диаграмма рассеяния

Scientific

Научная нотация (представление чисел в научной нотации, например, 5.0314 Е-02)

Scroll Bars

Линейка просмотра

S.D. (Standard Deviation) Ratio

Отношение стандартных отклонений

Selecting

Выбор

Send

Передать

Set

Множество; совокупность; семейство; ряд; последовательность

Sequential

Последовательное (приписывание рангов)

Set Cake Types

Задать типы наблюдений

Screen Catcher

Команда захвата экрана (Alt + F3)

Serial Correlation of Residuals

Сериальная корреляция остатков

Settings

Установки

Setup

Установка

Shared

Разделяемая

Shift (Lag) Variables

Сдвиг переменной

Shuffle Cases

Перемешать наблюдения

Significance Level

Уровень значимости

Significance of Regression

Значимость регрессии

Significance Test

Критерий значимости

Single Case

Одно наблюдение

Skewness of Distribution

Асимметрия распределения

Skip

Пропустить

Slope

Угловой коэффициент (наклон) (регрессии)

Smoothing Constant

Константа сглаживания

Sort Ascending

Сортировать но возрастанию

Son Descending

Сортировать по убыванию

Source

Подача (бумаги), источник

Source Variables

Исходные переменные

Split

Разделение

Spread

Распахнуть; разброс, вариация

Square of Multiple Correlation Coefficient

Квадрат множественного коэффициента корреляции (множественный коэффициент детерминации)

Stagewise

Ступенчатый

Standard Deviation (SD)

Стандартное отклонение (среднее квадратическое отклонение)

Standardize Columns

Команда стандартизации столбцов

1

2

Startup Panel

Стартовая панель модуля

Statistically Valid

Статистически обоснованный

Stats Graphs

Статистические графики

Status Bar

Строка состояния

Stepwise

Шаговый

Stepwise Regression Procedure

Шаговый регрессионный метод

Stopping Conditions

Условия остановки

Subset

Подмножество

Sum of Squares (SS)

Сумма квадратов

Swap file

Файл подкачки

Sweep

Размах, кругозор

Switch to

Переход к другой программе

T-distribution

T –распределение

T-test

T –критерий

Target Error

Целевая ошибка

Template

Шаблон

Test

Критерии, тест, проверка

Test of Hypothesis

Проверка гипотезы

Test of Significance

Проверка значимости

Test Statistic for Ho

Статистика для проверки гипотезы Но

Text Transfer

Режим подачи текста

Text Value Labels

Метки текстовых значений

Tile

Элемент мозаичного изображения

Time Sequence

Временная последовательность

Time Series

Временной ряд

Title Bar

Линейка заголовка

Tolerance

Допустимое отклонение

Toolbar

Панель (инструментов)

Total

Всего; общий

Transformation

Преобразование

Transformation on the Observations

Преобразование наблюдений

Transpose Block

Команда для транспонирования выделенного блока (контекстное меню при нажатии правой кнопки мыши)

Transpose Data File

Команда для транспонирования файла данных (переменные становятся случаями, а случаи – переменными)

Transpose of Matrix

Транспонирование матрицы

Trial

Испытание, проба

True Model

«Истинная» модель

Truncate

Урезать

Turn-key

Под ключ

Two-State Conversion

Преобразование в два значения

Two-tailed (-side) Test

Двусторонний критерий

Two-way Table

Таблица сопряженности, таблица с двумя входами

Unadjusted

Нескорректированный, без поправок

Unexplained Variation

Необъясненная вариация

1

2

Undo

Отмена

Uniform Distribution

Равномерное распределение

Unit Number

Номер элемента

Unknown

Неизвестно

Unknown Parameters

Неизвестные параметры

Unlisted

Неизвестный

Unlock

Разблокировать

Untitled

Неопределенный, неизвестный

Update

Актуализация (выбор режима)

Updated

Модернизированный, усовершенствованный

Upper–tailed Test

Односторонний критерий для верхнего «хвоста»распределения

Valid

Действительный

Validation

Обоснованность

Validation Technique

Метод перепроверки (проверки) состоятельности

Value Label

Значение меток

Variable (dependent)

Отклик, зависимая переменная

Variable (independent)

Фактор, независимая переменная

Variance about the Regression

Дисперсия относительно регрессии

Variance about Covariance Matrix

Матрица дисперсий-ковариаций

Variation

Вариация, разброс

Vector of Error

Вектор ошибок (остатков)

Vector of Observation

Вектор наблюдений

Vector of Parameters to be Estimated

Вектор оцениваемых параметров

Verbose

Подробно

Variable Definition

Определение переменной

Verify

Проверка

View

Вид

Weibull distribution

Распределение Вейбулла

Weighted Least Squares

Взвешенный метод наименьших квадратов

Win Frequencies Datasheet

Таблица частот выигрышей

Workbook

Рабочая тетрадь, рабочий журнал

Wrap

Верстка, оболочка

Приложение XIV. Краткий справочник по функциям Excel

ABS (ABS)

Возвращает модуль (абсолютную величину) числа. Абсолютная величина числа - это число без знака.

Синтаксис:

ABS(число)

Число – это действительное число, модуль которого требуется найти.

FРАСПОБР (FINV)

Возвращает обратное значение для F-распределения вероятностей. Если p = FРАСП(x;...), то FРАСПОБР(p;...) = x.

Синтаксис:

FРАСПОБР(вероятность;степени_свободы1;степени_свободы2)

  • Вероятность – это вероятность, связанная с F-распределением.

  • Степени_свободы1 – это числитель степеней свободы.

  • Степени_свободы2 – это знаменатель степеней свободы.

ВПР (VLOOKUP)

Ищет значение в крайнем левом столбце таблицы и возвращает значение в той же строке из указанного столбца таблицы. Функция ВПР используется вместо функции ГПР, когда сравниваемые значения расположены в столбце слева от искомых данных.

Буква «В» в имени функции ВПР означает «вертикальный».

Синтаксис:

ВПР(искомое_значение;таблица;номер_столбца;интервальный_просмотр)

  • Искомое_значение – это значение, которое должно быть найдено в первом столбце массива. Искомое_значение может быть значением, ссылкой или текстовой строкой.

  • Таблица – таблица с информацией, в которой ищутся данные. Можно использовать ссылку на интервал или имя интервала, например БазаДанных или Список.

  • Номер_столбца – это номер столбца в массиве «таблица», в котором должно быть найдено соответствующее значение. Если «номер_столбца» равен 1, то возвращается значение из первого столбца аргумента «таблица»; если «номер_столбца» равен 2, то возвращается значение из второго столбца аргумента «таблица» и так далее. Если «номер_столбца» меньше 1, то функция ВПР возвращает значение ошибки #ЗНАЧ!; если «номер_столбца» больше, чем количество столбцов в аргументе «таблица», то функция ВПР возвращает значение ошибки #ССЫЛ!.

  • Интервальный_просмотр – это логическое значение, которое определяет, нужно ли, чтобы ВПР искала точное или приближенное соответствие. Если этот аргумент имеет значение ИСТИНА или опущен, то возвращается приблизительно соответствующее значение; другими словами, если точное соответствие не найдено, то возвращается наибольшее значение, которое меньше, чем искомое_значение. Если этот аргумент имеет значение ЛОЖЬ, то функция ВПР ищет точное соответствие. Если таковое не найдено, то возвращается значение ошибки #Н/Д.

ГРАДУСЫ (DEGREES)

Преобразует радианы в градусы.

Синтаксис:

ГРАДУСЫ(угол)

Угол – это угол в радианах, преобразуемый в градусы.

ГПР (HLOOKUP)

Ищет значение в верхней строке таблицы или массива значений и возвращает значение в том же столбце из заданной строки таблицы или массива. Функция ГПР используется, когда сравниваемые значения расположены в верхней строке таблицы данных, а возвращаемые значения расположены на несколько срок ниже. Если сравниваемые значения расположены в столбце слева от искомых данных, то следует использовать функцию ВПР.

Буква Г в ГПР означает «горизонтальный».

Синтаксис:

ГПР(искомое_значение;таблица;номер_строки;интервальный_просмотр)

  • Искомое_значение – это значение, которое требуется найти в первой строке таблицы. Искомое_значение может быть значением, ссылкой или текстовой строкой.

  • Таблица – это таблица с информацией, в которой ищутся данные. Можно использовать ссылку на интервал или имя интервала.

  • Номер_строки – это номер строки в массиве «таблица», из которой будет возвращено сопоставляемое значение. Если «номер_строки» равен 1, то возвращается значение из первой строки аргумента «таблица», если «номер_строки» равен 2, то возвращается значение из второй строки аргумента «таблица», и так далее. Если «номер_строки» меньше 1, то функция ГПР возвращает значение ошибки #ЗНАЧ!; если «номер_строки» больше, чем количество строк в аргументе «таблица», то функция ГПР возвращает значение ошибки #ССЫЛ!.

  • Интервальный_просмотр – это логическое значение, которое определяет, нужно ли, чтобы функция ГПР искала точное или приближенное соответствие. Если этот аргумент имеет значение ИСТИНА или опущен, то возвращается приблизительно соответствующее значение; другими словами, если точное соответствие не найдено, то возвращается наибольшее значение, которое меньше, чем искомое_значение. Если этот аргумент имеет значение ЛОЖЬ, то функция ГПР ищет точное соответствие. Если таковое не найдено, то возвращается значение ошибки #Н/Д.

ДИСП (VAR)

Оценивает дисперсию по выборке.

Синтаксис:

ДИСП(число1;число2; ...)

Число1, число2, ... – это от 1 до 30 числовых аргументов, соответствующих выборке из генеральной совокупности.

ДИСПА (VARA)

Оценивает дисперсию по выборке. В расчете помимо численных значений учитываются также текстовые и логические значения, такие как ИСТИНА или ЛОЖЬ.

Синтаксис:

ДИСПА(значение1;значение2;...)

Значение1, значение2, ... – это от 1 до 30 числовых аргументов, соответствующих выборке из генеральной совокупности.

ДИСПР (VARP)

Вычисляет дисперсию для генеральной совокупности.

Синтаксис:

ДИСПР(число1;число2; ...)

Число1, число2, ... – это от 1 до 30 числовых аргументов, соответствующих генеральной совокупности.

ДИСПРА (VARPА)

Вычисляет дисперсию для генеральной совокупности. В расчете помимо численных значений учитываются также текстовые и логические значения, такие как ИСТИНА или ЛОЖЬ.

Синтаксис:

ДИСПРА(значение1;значение2;...)

Значение1,значение2,... – это от 1 до 30 числовых аргументов, соответствующих генеральной совокупности.

ДОВЕРИТ (CONFIDENCE)

Возвращает доверительный интервал для среднего генеральной совокупности. Доверительный интервал – это интервал с обеих сторон от среднего выборки.

Синтаксис:

ДОВЕРИТ(альфа;станд_откл;размер)

  • Альфа – это уровень значимости используемый для вычисления уровня надежности. Уровень надежности равняется 100*(1 - альфа) процентам, или, другими словами, альфа равное 0,05 означает 95-процентный уровень надежности.

  • Станд_откл – это стандартное отклонение генеральной совокупности для интервала данных, предполагается известным.

  • Размер – это размер выборки.

ЕСЛИ (IF)

Возвращает одно значение, если заданное условие при вычислении дает значение ИСТИНА, и другое значение, если ЛОЖЬ.

Функция ЕСЛИ используется при проверке условий для значений и формул.

Синтаксис:

ЕСЛИ(лог_выражение;значение_если_истина;значение_если_ложь)

  • Лог_выражение – это любое значение или выражение, принимающее значения ИСТИНА или ЛОЖЬ.

  • Значение_если_истина – это значение, которое возвращается, если лог_выражение равно ИСТИНА.

  • Значение_если_ложь – это значение, которое возвращается, если лог_выражение равно ЛОЖЬ.

КОВАР (COVAR)

Возвращает ковариацию, то есть среднее произведений отклонений для каждой пары точек данных. Ковариация используется для определения связи между двумя множествами данных. Например, можно проверить, соответствует ли более высокому уровню доходов более высокий уровень образования.

Синтаксис:

КОВАР(массив1; массив2)

  • Массив1 – это первый массив или интервал данных.

  • Массив2 – это второй массив или интервал данных.

КОРРЕЛ (CORREL)

Возвращает коэффициент корреляции меду интервалами ячеек массив1 и массив2. Коэффициент корреляции используется для определения наличия взаимосвязи между двумя свойствами.

Синтаксис:

КОРРЕЛ(массив1;массив2)

  • Массив1 – это ячейка интервала значений.

  • Массив2 – это второй интервал ячеек со значениями.

КОРЕНЬ (SQRT)

Возвращает положительное значение квадратного корня.

Синтаксис:

КОРЕНЬ(число)

Число – число, для которого вычисляется квадратный корень.

ЛИНЕЙН (LINEST)

Рассчитывает статистику для ряда с применением метода наименьших квадратов, чтобы вычислить прямую линию, которая наилучшим образом аппроксимирует имеющиеся данные. Функция возвращает массив, который описывает полученную прямую. Поскольку возвращается массив значений, функция должна задаваться в виде формулы массива.

Уравнение для прямой линии имеет следующий вид:

y = mx + b или

y = m1x1 + m2x2 + ... + b (в случае нескольких диапазонов значений x),

где зависимое значение y – функция независимого значения x, значения m – коэффициенты, соответствующие каждой независимой переменной x, а b – постоянная. y, x и m могут быть векторами. Функция ЛИНЕЙН возвращает массив {mn;mn-1;...;m1;b}. ЛИНЕЙН может также возвращать дополнительную регрессионную статистику.

Синтаксис:

ЛИНЕЙН(известные_значения_y;известные_значения_x;конст;статистика)

  • Известные_значения_y – множество значений y, которые уже известны для соотношения y = mx + b.

Если массив известные_значения_y имеет один столбец, то каждый столбец массива известные_значения_x интерпретируется как отдельная переменная.

Если массив известные_значения_y имеет одну строку, то каждая строка массива известные_значения_x интерпретируется как отдельная переменная.

  • Известные_значения_x – необязательное множество значений x, которые уже известны для соотношения y = mx + b.

Массив известные_значения_x может содержать одно или несколько множеств переменных. Если используется только одна переменная, то известные_значения_y и известные_значения_x могут иметь любую форму, при условии, что они имеют одинаковую размерность. Если используется более одной переменной, то известные_значения_y должны быть вектором (то есть интервалом высотой в одну строку или шириной в один столбец).

Если известные_значения_x опущены, то предполагается, что это массив {1;2;3;...} такого же размера, как и известные_значения_y.

  • Конст – логическое значение, которое указывает, требуется ли, чтобы константа b была равна 0.

Если конст имеет значение ИСТИНА или опущено, то b вычисляется обычным образом.

Если аргумент конст имеет значение ЛОЖЬ, то b полагается равным 0 и значения m подбираются так, чтобы выполнялось соотношение y = mx.

  • Статистика – логическое значение, которое указывает, требуется ли вернуть дополнительную статистику по регрессии.

Если аргумент статистика имеет значение ИСТИНА, то функция ЛИНЕЙН возвращает дополнительную регрессионную статистику, так что возвращаемый массив будет иметь вид: {mn;mn-1;...;m1;b:sen;sen-1;...;se1;seb:r2;sey:F;df:ssreg;ssresid}.

Если аргумент статистика имеет значение ЛОЖЬ или опущен, то функция ЛИНЕЙН возвращает только коэффициенты m и постоянную b.

Дополнительная регрессионная статистика:

Величина

Описание

se1,se2,...,sen

Стандартные значения ошибок для коэффициентов m1,m2,...,mn.

seb

Стандартное значение ошибки для постоянной b (seb = #Н/Д, если конст имеет значение ЛОЖЬ).

r2

Коэффициент детерминированности. Сравниваются фактические значения y и значения, получаемые из уравнения прямой; по результатам сравнения вычисляется коэффициент детерминированности, нормированный от 0 до 1. Если он равен 1, то имеет место полная корреляция с моделью, т. е. нет различия между фактическим и оценочным значениями y. В противоположном случае, если коэффициент детерминированности равен 0, то уравнение регрессии неудачно для предсказания значений y. Для получения информации о том, как вычисляется r2, см. «Заметки» в конце данного раздела.

sey

Стандартная ошибка для оценки y.

F

F-статистика, или F-наблюдаемое значение. F-статистика используется для определения того, является ли наблюдаемая взаимосвязь между зависимой и независимой переменными случайной или нет.

df

Степени свободы. Степени свободы полезны для нахождения F-критических значений в статистической таблице. Для определения уровня надежности модели нужно сравнить значения в таблице с F-статистикой, возвращаемой функцией ЛИНЕЙН.

ssreg

Регрессионная сумма квадратов.

ssresid

Остаточная сумма квадратов.

ЛГРФПРИБЛ (LOGEST)

В регрессионном анализе вычисляется экспоненциальная кривая, аппроксимирующая данные и возвращается массив значений, описывающий эту кривую. Поскольку данная функция возвращает массив значений, она должна вводиться как формула массива.

Уравнение кривой имеет вид

y = b*m^x или

y = (b*(m1^x1)*(m2^x2)*_) (в случае нескольких значений x),

где зависимые значения y являются функцией независимых значений x. Значения m являются основанием, возводимым в степень x, а значения b постоянны. y, x и m могут быть векторами. Функция ЛГРФПРИБЛ возвращает массив {mn;mn-1;...;m1;b}.

Синтаксис:

ЛГРФПРИБЛ(известные_значения_y;известные_значения_x;конст;статистика)

  • Известные_значения_y – множество значений y, которые уже известны в соотношении y = b*m^x.

Если массив известные_значения_y имеет один столбец, то каждый столбец массива известные_значения_x интерпретируется как отдельная переменная.

Если массив известные_значения_y имеет одну строку, то каждая строка массива известные_значения_x интерпретируется как отдельная переменная.

  • Известные_значения_x – необязательное множество значений x, которые уже известны для соотношения y = b*m^x.

Массив известные_значения_x может включать одно или более множеств переменных. Если используется только одна переменная, то известные_значения_y и известные_значения_x могут быть диапазонами любой формы, если только они имеют одинаковые размерности. Если используется более одной переменной, то аргумент известные_значения_y должен быть диапазоном ячеек высотой в одну строку или шириной в один столбец (так называемым вектором).

Если известные_значения_x опущены, то предполагается, что это массив {1;2;3;...} такого же размера, как и известные_значения_y.

  • Конст – логическое значение, которое указывает, требуется ли, чтобы константа b была равна 1.

Если конст имеет значение ИСТИНА или опущено, то b вычисляется обычным образом.

Если конст имеет значение ЛОЖЬ, то b полагается равным 1 и значения m подбираются так, чтобы удовлетворить соотношению y = m^x.

  • Статистика – логическое значение, которое указывает, требуется ли вернуть дополнительную статистику по регрессии.

Если статистика имеет значение ИСТИНА, то функция ЛГРФПРИБЛ возвращает дополнительную статистику по регрессии, то есть возвращает массив {mn;mn-1;...;m1;b:sen;sen-1;...;se1;seb:r 2;sey;F;df:ssreg;ssresid}.

Если статистика имеет значение ЛОЖЬ или опущено, то функция ЛГРФПРИБЛ возвращает только коэффициенты m и константу b.

Для получения более подробной информации о дополнительной статистике по регрессии, см. справку по функции ЛИНЕЙН.

МАКС (MAX)

Возвращает наибольшее значение из набора значений.

Синтаксис:

МАКС(число1;число2; ...)

Число1, число2, ... – от 1 до 30 чисел, среди которых требуется найти наибольшее.

МАКСА (MAXA)

Возвращает наибольшее значение в списке аргументов. Наряду с числовыми значениями выполняется также сравнение текстовых и логических (таких как ИСТИНА и ЛОЖЬ) значений.

Функция МАКСА родственна функции МИНА.

Синтаксис:

МАКСА(значение1;значение2;...)

Значение1, значение2,... – от 1 до 30 значений, среди которых требуется найти наибольшее.

МЕДИАНА (MEDIAN)

Возвращает медиану заданных чисел. Медиана – это число, которое является серединой множества чисел, то есть половина чисел имеют значения большие, чем медиана, а половина чисел имеют значения меньшие, чем медиана.

Синтаксис:

МЕДИАНА(число1;число2;...)

Число1, число2, ... – от 1 до 30 чисел, для которых определяется медиана.

МИН (MIN)

Возвращает наименьшее значение в списке аргументов.

Синтаксис:

МИН(число1;число2; ...)

Число1, число2, ... – от 1 до 30 чисел, среди которых требуется найти наименьшее.

МИНА (MINA)

Возвращает наименьшее значение в списке аргументов. Наряду с числовыми значениями выполняется также сравнение текстовых и логических, таких как ИСТИНА и ЛОЖЬ, значений.

Синтаксис:

МИНА (значение1;значение2;...)

Значение1, значение2,... – от 1 до 30 значений, среди которых требуется найти наименьшее.

МОБР (MINVERSE)

Возвращает обратную матрицу для матрицы, хранящейся в массиве.

Синтаксис:

МОБР(массив)

Массив – числовой массив с равным количеством строк и столбцов.

МОДА (MODE)

Возвращает наиболее часто встречающееся или повторяющееся значение в массиве или интервале данных. Как и функция МЕДИАНА, функция МОДА является мерой взаимного расположения значений.

Синтаксис:

МОДА(число1;число2; ...)

Число1, число2, ... – от 1 до 30 аргументов, для которых вычисляется мода. Можно использовать один массив или одну ссылку на массив вместо аргументов, разделяемых точкой с запятой.

МОПРЕД (MDETERM)

Возвращает определитель матрицы (матрица хранится в массиве).

Синтаксис:

МОПРЕД(массив)

Массив – числовой массив с равным количеством строк и столбцов.

МУМНОЖ (MMULT)

Возвращает произведение матриц (матрицы хранятся в массивах). Результатом является массив с таким же числом строк, как массив1 и с таким же числом столбцов, как массив2.

Синтаксис:

МУМНОЖ(массив1;массив2)

Массив1, массив2 – перемножаемые массивы.

НАИБОЛЬШИЙ (LARGE)

Возвращает k-ое по величине значение из множества данных. Эта функция позволяет выбрать значение по его относительному местоположению.

Синтаксис:

НАИБОЛЬШИЙ(массив;k)

  • Массив – массив или интервал данных, для которых определяется k-ое наибольшее значение.

  • k – позиция (начиная с наибольшей) в массиве или интервале ячеек данных.

НАИМЕНЬШИЙ (SMALL)

Возвращает k-ое наименьшее значение в множестве данных. Эта функция используется для определения значения, занимающего определенное относительное положение в множестве данных.

Синтаксис:

НАИМЕНЬШИЙ(массив;k)

  • Массив – массив или диапазон числовых данных, для которого определяется k-ое наименьшее значение.

  • k – позиция (начиная с наименьшей) в массиве или интервале ячеек данных.

НАКЛОН (SLOPE)

Возвращает наклон линии линейной регрессии для точек данных в аргументах известные_значения_y и известные_значения_x. Наклон определяется как частное от деления расстояния по вертикали на расстояние по горизонтали между двумя любыми точками прямой, то есть наклон – это скорость изменения значений вдоль прямой.

Синтаксис:

НАКЛОН(известные_значения_y;известные_значения_x)

  • Известные_значения_y – массив или интервал ячеек, содержащих числовые зависимые точки данных.

  • Известные_значения_x – множество независимых точек данных.

НОРМРАСП (NORMDIST)

Возвращает нормальную функцию распределения для указанного среднего и стандартного отклонения. Эта функция имеет очень широкий круг приложений в статистике, включая проверку гипотез.

Синтаксис:

НОРМРАСП(x;среднее;стандартное_откл;интегральная)

  • x – значение, для которого строится распределение.

  • Среднее – среднее арифметическое распределения.

  • Стандартное_откл – стандартное отклонение распределения.

  • Интегральная – логическое значение, определяющее форму функции. Если интегральная имеет значение ИСТИНА, то функция НОРМРАСП возвращает интегральную функцию распределения; если это аргумент имеет значение ЛОЖЬ, то возвращается функция плотности распределения.

НОРМСТОБР (NORMSINV)

Возвращает обратное значение стандартного нормального распределения. Это распределение имеет среднее равное нулю и стандартное отклонение равное единице.

Синтаксис:

НОРМСТОБР(вероятность)

Вероятность – вероятность, соответствующая нормальному распределению.

НОРМСТРАСП (NORMSDIST)

Возвращает стандартное нормальное интегральное распределение. Это распределение имеет среднее, равное нулю, и стандартное отклонение, равное единице. Эта функция используется вместо таблицы для стандартной нормальной кривой.

Синтаксис:

НОРМСТРАСП(z)

z – значение, для которого строится распределение.

ОТРЕЗОК (INTERCEPT)

Вычисляет точку пересечения линии с осью y, используя известные_значения_x и известные_значения_y. Точка пересечения находится на оптимальной линии регрессии, проведенной через известные_значения_x и известные_значения_y. Функция ОТРЕЗОК используется, когда нужно определить значение зависимой переменной при значении независимой переменной, равном 0 (нулю).

Синтаксис:

ОТРЕЗОК(известные_значения_x;известные_значения_y)

  • Известные_значения_y – это зависимое множество наблюдений или данных.

  • Известные_значения_x – это независимое множество наблюдений или данных.

ПИ (PI)

Возвращает число 3,14159265358979, математическую константу «пи» с точностью до 15 цифр.

Синтаксис:

ПИ( )

ПРЕДСКАЗ (FORECAST)

Вычисляет или предсказывает будущее значение по существующим значениям. Предсказываемое значение – это y-значение, соответствующее заданному x-значению. Известные значения – это x- и y-значения, а новое значение предсказывается с использованием линейной регрессии. Эту функцию можно использовать для предсказания будущих продаж, потребностей в оборудовании или тенденций потребления.

Синтаксис:

ПРЕДСКАЗ(x;известные_значения_y;известные_значения_x)

  • x – это точка данных, для которой предсказывается значение.

  • Известные_значения_y – это зависимый массив или интервал данных.

  • Известные_значения_x – это независимый массив или интервал данных.

ПУАССОН (POISSON)

Возвращает распределение Пуассона. Обычное применение распределения Пуассона состоит в предсказании количества событий, происходящих за определенное время.

Синтаксис:

ПУАССОН(x;среднее;интегральная)

  • x – количество событий.

  • Среднее – ожидаемое численное значение.

  • Интегральная – логическое значение, определяющее форму возвращаемого распределения вероятностей. Если аргумент «интегральная» имеет значение ИСТИНА, то функция ПУАССОН возвращает интегральное распределение Пуассона, то есть вероятность того, что число случайных событий будет от 0 до x включительно. Если этот аргумент имеет значение ЛОЖЬ, то возвращается функция плотности распределения Пуассона, то есть вероятность того, что событий будет в точности x.

РАДИАНЫ (RADIANS)

Преобразует градусы в радианы.

Синтаксис:

РАДИАНЫ(угол)

Угол – величина угла в градусах, которую требуется преобразовать.

РОСТ (GROWTH)

Рассчитывает прогнозируемый экспоненциальный рост на основании имеющихся данных. Функция РОСТ возвращает значения y для последовательности новых значений x, задаваемых с помощью существующих x- и y-значений. Функция рабочего листа РОСТ может применяться также для для аппроксимации существующих x- и y-значений экспоненциальной кривой.

Синтаксис:

РОСТ(известные_значения_y;известные_значения_x;новые_значения_x;конст)

  • Известные_значения_y – это множество значений y, которые уже известны в соотношении y = b*m^x.

Если массив известные_значения_y имеет один столбец, то каждый столбец массива известные_значения_x интерпретируется как отдельная переменная.

Если массив известные_значения_y имеет одну строку, то каждая строка массива известные_значения_x интерпретируется как отдельная переменная.

Если какие-либо числа в массиве известные_значения_y равны 0 или отрицательны, то функция РОСТ возвращает значение ошибки #ЧИСЛО!.

  • Известные_значения_x – это необязательное множество значений x, которые уже известны для соотношения y = b*m^x.

Массив известные_значения_x может содержать одно или несколько множеств переменных. Если используется только одна переменная, то известные_значения_y и известные_значения_x могут иметь любую форму, при условии, что они имеют одинаковую размерность. Если используется более одной переменной, то известные_значения_y должны быть вектором (то есть интервалом высотой в одну строку или шириной в один столбец).

Если известные_значения_x опущены, то предполагается, что это массив {1;2;3;...} такого же размера, как и известные_значения_y.

  • Новые_значения_x – это новые значения x, для которых РОСТ возвращает соответствующие значения y.

Новые_значения_x должны содержать столбец (или строку) для каждой независимой переменной, как и известные_значения_x. Таким образом, если известные_значения_y — это один столбец, то известные_значения_x и новые_значения_x должны иметь такое же количество столбцов. Если известные_значения_y — это одна строка, то известные_значения_x и новые_значения_x должны иметь такое же количество строк.

Если аргумент новые_значения_x опущен, то предполагается, что он совпадает с аргументом известные_значения_x.

Если оба аргумента известные_значения_x и новые_значения_x опущены, то предполагается, что это массив {1;2;3;...} такого же размера, как и известные_значения_y.

  • Конст – это логическое значение, которое указывает, требуется ли, чтобы константа b была равна 1.

Если конст имеет значение ИСТИНА или опущено, то b вычисляется обычным образом.

Если конст имеет значение ЛОЖЬ, то b полагается равным 1, а значения m подбираются так, чтобы y = m^x.

СКОС (SKEW)

Возвращает асимметрию распределения. Асимметрия характеризует степень несимметричности распределения относительно его среднего. Положительная асимметрия указывает на отклонение распределения в сторону положительных значений. Отрицательная асимметрия указывает на отклонение распределения в сторону отрицательных значений.

Синтаксис:

СКОС(число1;число2; ...)

Число1, число2, ... – от 1 до 30 аргументов, для которых вычисляется асимметрия. Можно использовать один массив или одну ссылку на массив вместо аргументов, разделяемых точкой с запятой.

СРЗНАЧ (AVERAGE)

Возвращает среднее (арифметическое) своих аргументов.

Синтаксис:

СРЗНАЧ(число1; число2; ...)

Число1, число2, ... – это от 1 до 30 аргументов, для которых вычисляется среднее.

СРЗНАЧА (AVERAGEA)

Вычисляет среднее арифметическое значений, заданных в списке аргументов. Помимо чисел в расчете могут участвовать текст и логические значения, такие как ИСТИНА и ЛОЖЬ.

Синтаксис:

СРЗНАЧА(значение1; значение2;...)

Значение1, значение2,... – это от 1 до 30 ячеек, интервалов ячеек или значений, для которых вычисляется среднее.

СРОТКЛ (AVEDEV)

Возвращает среднее абсолютных значений отклонений точек данных от среднего. СРОТКЛ является мерой разброса множества данных.

Синтаксис:

СРОТКЛ(число1; число2; ...)

Число1, число2, ... – это от 1 до 30 аргументов, для которых определяется среднее абсолютных отклонений. Можно использовать массив или ссылку на массив вместо аргументов, разделяемых точкой с запятой.

СТАНДОТКЛОН (STDEV)

Оценивает стандартное отклонение по выборке. Стандартное отклонение – это мера того, насколько широко разбросаны точки данных относительно их среднего.

Синтаксис:

СТАНДОТКЛОН(число1; число2; ...)

Число1, число2, ... – от 1 до 30 числовых аргументов, соответствующих выборке из генеральной совокупности. Вместо аргументов, разделенных точкой с запятой, можно также использовать массив или ссылку на массив.

СТАНДОТКЛОНА (STDEVA)

Оценивает стандартное отклонение по выборке. Стандартное отклонение – это мера того, насколько широко разбросаны точки данных относительно их среднего. В расчете также учитываются текстовые и логические значения, такие как ИСТИНА или ЛОЖЬ.

Синтаксис:

СТАНДОТКЛОНА(значение1;значение2,...)

Значение1, значение2, ... – от 1 до 30 значений, соответствующих выборке из генеральной совокупности. Вместо аргументов, разделяемых точкой с запятой, можно также использовать массив или ссылку на массив.

СТАНДОТКЛОНП (STDEVP)

Вычисляет стандартное отклонение по генеральной совокупности. Стандартное отклонение – это мера того, насколько широко разбросаны точки данных относительно их среднего.

Синтаксис:

СТАНДОТКЛОНП(число1; число2; ...)

Число1, число2, ... – от 1 до 30 числовых аргументов, соответствующих генеральной совокупности. Вместо аргументов, разделяемых точкой с запятой, также можно использовать массив или ссылку на массив.

Текст и логические значения, такие как ИСТИНА или ЛОЖЬ игнорируются. Если текст и логические значения игнорироваться не должны, следует использовать функцию рабочего листа СТАНДОТКЛОНА.

СТАНДОТКЛОНПА (STDEVPA)

Вычисляет стандартное отклонение по генеральной совокупности, заданной аргументами, которые могут включать текст и логические значения. Стандартное отклонение – это мера того, насколько широко разбросаны точки данных относительно их среднего. В расчете также учитываются текстовые и логические значения, такие как ИСТИНА или ЛОЖЬ.

Синтаксис:

СТАНДОТКЛОНПА(значение1;значение2;...)

Значение1, значение2, ... – от 1 до 30 значений, соответствующих генеральной совокупности. Вместо аргументов, разделяемых точкой с запятой, можно также использовать массив или ссылку на массив.

СТЬЮДРАСПОБР (TINV)

Возвращает t-значение распределения Стьюдента как функцию вероятности и числа степеней свободы.

Синтаксис:

СТЬЮДРАСПОБР(вероятность;степени_свободы)

  • Вероятность – вероятность, соответствующая двустороннему распределению Стьюдента.

  • Степени_свободы – число степеней свободы, характеризующее распределение.

СУММ (SUM)

Суммирует все числа в интервале ячеек.

Синтаксис:

СУММ(число1;число2; ...)

Число1, число2, ... – от 1 до 30 аргументов, для которых требуется определить итог или сумму.

СЧЕТ (COUNT)

Подсчитывает количество чисел в списке аргументов. Функция СЧЁТ используется для получения количества числовых ячеек в интервалах или массивах ячеек.

Синтаксис:

СЧЁТ(значение1; значение2; ...)

Значение1, значение2, ... – это от 1 до 30 аргументов, которые могут содержать или ссылаться на данные различных типов, но в подсчете участвуют только числа.

СЧЕТЗ (COUNTA)

Подсчитывает количество непустых значений в списке аргументов. Функция СЧЁТЗ используется для подсчета количества ячеек с данными в интервале или массиве.

Синтаксис:

СЧЁТЗ(значение1; значение2; ...)

Значение1, значение2, ... – это от 1 до 30 аргументов, количество которых требуется сосчитать. В данном случае значением считается значение любого типа, включая пустую строку (""), но не включая пустые ячейки. Если аргументом является массив или ссылка, то пустые ячейки в массиве или ссылке игнорируются.

ТЕНДЕНЦИЯ (TREND)

Возвращает значения в соответствии с линейным трендом. Аппроксимирует прямой линией (по методу наименьших квадратов) массивы известные_значения_y и известные_значения_x. Возвращает значения y, в соответствии с этой прямой для заданного массива новые_значения_x.

Синтаксис:

ТЕНДЕНЦИЯ(известные_значения_y;известные_значения_x;новые_значения_x;конст)

  • Известные_значения_y – множество значений y, которые уже известны для соотношения y = mx + b.

Если массив известные_значения_y имеет один столбец, то каждый столбец массива известные_значения_x интерпретируется как отдельная переменная.

Если массив известные_значения_y имеет одну строку, то каждая строка массива известные_значения_x интерпретируется как отдельная переменная.

  • Известные_значения_x – необязательное множество значений x, которые уже известны для соотношения y = mx + b.

Массив известные_значения_x может содержать одно или несколько множеств переменных. Если используется только одна переменная, то известные_значения_y и известные_значения_x могут иметь любую форму, при условии, что они имеют одинаковую размерность. Если используется более одной переменной, то известные_значения_y должны быть вектором (то есть интервалом высотой в одну строку или шириной в один столбец).

Если известные_значения_x опущены, то предполагается, что это массив {1;2;3;...} такого же размера, как и известные_значения_y.

  • Новые_значения_x – новые значения x, для которых ТЕНДЕНЦИЯ возвращает соответствующие значения y.

Новые_значения_x должны содержать столбец (или строку) для каждой независимой переменной, как и известные_значения_x. Таким образом, если известные_значения_y — это один столбец, то известные_значения_x и новые_значения_x должны иметь такое же количество столбцов. Если известные_значения_y — это одна строка, то известные_значения_x и новые_значения_x должны иметь такое же количество строк.

Если новые_значения_x опущены, то предполагается, что они совпадают с известные_значения_x.

Если опущены оба массива известные_значения_x и новые_значения_x, то предполагается, что это массив {1;2;3;...} такого же размера, что и известные_значения_y.

  • Конст – логическое значение, которое указывает, требуется ли, чтобы константа b была равна 0.

Если конст имеет значение ИСТИНА или опущено, то b вычисляется обычным образом.

Если конст имеет значение ЛОЖЬ, то b полагается равным 0, и значения m подбираются таким образом, чтобы выполнялось соотношение y = mx.

ТТЕСТ (TTEST)

Возвращает вероятность, соответствующую критерию Стьюдента. Функция ТТЕСТ используется, чтобы определить, насколько вероятно, что две выборки взяты из генеральных совокупностей, которые имеют одно и то же среднее.

Синтаксис:

ТТЕСТ(массив1;массив2;хвосты;тип)

  • Массив1 – первое множество данных.

  • Массив2 – второе множество данных.

  • Хвосты – число хвостов распределения. Если хвосты = 1, то функция ТТЕСТ использует одностороннее распределение. Если хвосты = 2, то функция ТТЕСТ использует двустороннее распределение.

Тип – вид исполняемого t-теста.

Тип

Выполняемый тест

1

Парный

2

Двухвыборочный с равными дисперсиями (гомоскедастический)

3

Двухвыборочный с неравными дисперсиями (гетероскедастический)

ФТЕСТ (FTEST)

Возвращает результат F-теста. F-тест возвращает одностороннюю вероятность того, что дисперсии аргументов массив1 и массив2 различаются несущественно. Эта функция используется для того, чтобы определить, имеют ли две выборки различные дисперсии.

Синтаксис:

ФТЕСТ(массив1;массив2)

  • Массив1 – это первый массив или интервал данных.

  • Массив2 – это второй массив или интервал данных.

ХИ2ОБР (CHIINV)

Возвращает значение, обратное к односторонней вероятности распределения γ2 (хи-квадрат). Если вероятность = ХИ2РАСП(x;...), то ХИ2ОБР(вероятность;...) = x. функция используется для сравнения наблюдаемых результатов с ожидаемыми, для того, чтобы решить была ли исходная гипотеза обоснованной.

Синтаксис:

ХИ2ОБР(вероятность;степени_свободы)

  • Вероятность – это вероятность, связанная с распределением c2 (хи-квадрат).

  • Степени_свободы – это число степеней свободы.

ХИ2ТЕСТ (CHITEST)

Возвращает тест на независимость. ХИ2ТЕСТ возвращает значение для распределения хи-квадрат  (γ2).  Критерий  γ2  используется для определения того, подтверждается ли гипотеза экспериментом.

Синтаксис:

ХИ2ТЕСТ(фактический_интервал;ожидаемый_интервал)

  • Фактический_интервал – это интервал данных, которые содержат наблюдения, подлежащие сравнению с ожидаемыми значениями.

  • Ожидаемый_интервал – это интервал данных, который содержит отношение произведений итогов по строкам и столбцам к общему итогу.

ЧАСТОТА (FREQUENCY)

Вычисляет частоту появления значений в интервале значений и возвращает массив цифр. Поскольку данная функция возвращает массив, она должна задаваться в качестве формулы массива.

Синтаксис:

ЧАСТОТА(массив_данных;массив_интервалов)

  • Массив_данных – массив или ссылка на множество данных, для которых вычисляются частоты. Если массив_данных не содержит значений, то функция ЧАСТОТА возвращает массив нулей.

  • Массив_интервалов – массив или ссылка на множество интервалов, в которые группируются значения аргумента массив_данных. Если массив_интервалов не содержит значений, то функция ЧАСТОТА возвращает количество элементов в аргументе массив_данных.

ЭКСЦЕСС (KURT)

Возвращает эксцесс множества данных. Эксцесс характеризует относительную остроконечность или сглаженность распределения по сравнению с нормальным распределением. Положительный эксцесс обозначает относительно остроконечное распределение. Отрицательный эксцесс обозначает относительно сглаженное распределение.

Синтаксис:

ЭКСЦЕСС(число1;число2; ...)

Число1, число2, ... – от 1 до 30 аргументов, для которых вычисляется мода. Можно использовать один массив или одну ссылку на массив вместо аргументов, разделяемых точкой с запятой.

Приложение XV. Средства статистического анализа данных в Excel

В состав Microsoft Excel входит набор средств анализа данных (так называемый пакет анализа), предназначенный для решения сложных статистических и инженерных задач. Для анализа данных с помощью этих инструментов следует указать входные данные и выбрать параметры; анализ будет выполнен с помощью подходящей статистической или инженерной макрофункции, а результат будет помещен в выходной диапазон. Другие средства позволяют представить результаты анализа в графическом виде.

Обращение к средствам анализа данных. Средства, которые включены в пакет анализа данных доступны через команду Анализ данных меню Сервис. Если этой команды нет в меню, необходимо загрузить надстройку Пакет анализа (Надстройки меню Сервис).

Дисперсионный анализ

Существует несколько видов дисперсионного анализа. Требуемый вариант выбирается с учетом числа факторов и имеющихся выборок из генеральной совокупности.

Однофакторный дисперсионный анализ. Однофакторный дисперсионный анализ используется для проверки гипотезы о сходстве средних значений двух или более выборок, принадлежащих одной и той же генеральной совокупности. Этот метод распространяется также на тесты для двух средних (к которым относится, например, t-критерий).

Двухфакторный дисперсионный анализ с повторениями. Представляет собой более сложный вариант однофакторного анализа с несколькими выборками для каждой группы данных.

Двухфакторный дисперсионный анализ без повторения. Представляет собой двухфакторный анализ дисперсии, не включающий более одной выборки на группу. Используется для проверки гипотезы о том, что средние значения двух или нескольких выборок одинаковы (выборки принадлежат одной и той же генеральной совокупности). Этот метод распространяется также на тесты для двух средних, такие как t-критерий.

Корреляционный анализ

Корреляционный анализ применяется для количественной оценки взаимосвязи двух наборов данных, представленных в безразмерном виде. Коэффициент корреляции выборки представляет отношение ковариации двух наборов данных к произведению их стандартных отклонений и рассчитывается по следующим формулам.

Корреляционный анализ дает возможность установить, ассоциированы ли наборы данных по величине, то есть, большие значения из одного набора данных связаны с большими значениями другого набора (положительная корреляция), или, наоборот, малые значения одного набора связаны с большими значениями другого (отрицательная корреляция), или данные двух диапазонов никак не связаны (нулевая корреляция).

Примечание. Для вычисления коэффициента корреляции между двумя наборами данных на листе используется статистическая функция КОРРЕЛ.

Ковариационный анализ

Ковариация является мерой связи между двумя диапазонами данных. Используется для вычисления среднего произведения отклонений точек данных от относительных средних по следующей формуле.

Ковариационный анализ дает возможность установить, ассоциированы ли наборы данных по величине, то есть, большие значения из одного набора данных связаны с большими значениями другого набора (положительная ковариация), или, наоборот, малые значения одного набора связаны с большими значениями другого (отрицательная ковариация), или данные двух диапазонов никак не связаны (ковариация близка к нулю).

Примечание. Вычисления ковариации для отдельной пары данных производятся с помощью статистической функции КОВАР.

Описательная статистика

Это средство анализа служит для создания одномерного статистического отчета, содержащего информацию о центральной тенденции и изменчивости входных данных.

Экспоненциальное сглаживание

Применяется для предсказания значения на основе прогноза для предыдущего периода, скорректированного с учетом погрешностей в этом прогнозе. При анализе используется константа сглаживания a, по величине которой определяется степень влияния на прогнозы погрешностей в предыдущем прогнозе.

Двухвыборочный F-тест для дисперсии

Двухвыборочный F-тест применяется для сравнения дисперсий двух генеральных совокупностей.

Например, F-тест можно использовать для выявления различия в дисперсиях временных характеристик, вычисленных по двум выборкам.

Анализ Фурье

Предназначается для решения задач в линейных системах и анализа периодических данных на основе метода быстрого преобразования Фурье (БПФ). Эта процедура поддерживает также обратные преобразования, при этом, инвертирование преобразованных данных возвращает исходные данные.

Гистограмма

Используется для вычисления выборочных и интегральных частот попадания данных в указанные интервалы значений. При этом рассчитываются числа попаданий для заданного диапазона ячеек.

Например, необходимо выявить тип распределения успеваемости в группе из 20 студентов. Таблица гистограммы состоит из границ шкалы оценок и количеств студентов, уровень успеваемости которых находится между самой нижней границей и текущей границей. Наиболее часто повторяемый уровень является модой интервала данных.

Скользящее среднее

Скользящее среднее используется для расчета значений в прогнозируемом периоде на основе среднего значения переменной для указанного числа предшествующих периодов. Скользящее среднее, в отличие от простого среднего для всей выборки, содержит сведения о тенденциях изменения данных. Этот метод может использоваться для прогноза сбыта, запасов и других процессов.

Генерация случайных чисел

Используется для заполнения диапазона случайными числами, извлеченными из одного или нескольких распределений. С помощью данной процедуры можно моделировать объекты, имеющие случайную природу, по известному распределению вероятностей.

Ранг и персентиль

Используется для вывода таблицы, содержащей порядковый и процентный ранги для каждого значения в наборе данных. Данная процедура может быть применена для анализа относительного взаиморасположения данных в наборе.

Регрессия

Линейный регрессионный анализ заключается в подборе графика для набора наблюдений с помощью метода наименьших квадратов. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или более независимых переменных.

Выборка

Создает выборку из генеральной совокупности, рассматривая входной диапазон как генеральную совокупность. Если совокупность слишком велика для обработки или построения диаграммы, можно использовать представительную выборку. Кроме того, если предполагается периодичность входных данных, то можно создать выборку, содержащую значения только из отдельной части цикла.

T-тест

Этот вид анализа используется для проверки средних для различных типов генеральных совокупностей.

Двухвыборочный t-тест с одинаковыми дисперсиями. Двухвыборочный t-тест Стьюдента служит для проверки гипотезы о равенстве средних для двух выборок. Эта форма t-теста предполагает совпадение дисперсий генеральных совокупностей и обычно называется гомоскедастическим t-тестом.

Двухвыборочный t-тест с разными дисперсиями. Двухвыборочный t-тест Стьюдента используется для проверки гипотезы о равенстве средних для двух выборок данных из разных генеральных совокупностей. Эта форма t-теста предполагает несовпадение дисперсий генеральных совокупностей и обычно называется гетероскедастическим t-тестом. Если тестируется одна и та же генеральная совокупность, используйте парный тест.

Парный двухвыборочный t-тест для средних. Парный двухвыборочный t-тест Стьюдента используется для проверки гипотезы о различии средних для двух выборок данных. В нем не предполагается равенство дисперсий генеральных совокупностей, из которых выбраны данные. Парный тест используется, когда имеется естественная парность наблюдений в выборках, например, когда генеральная совокупность тестируется дважды – до и после эксперимента.

Z-тест

Двухвыборочный z-тест для средних с известными дисперсиями. Используется для проверки гипотезы о различии между средними двух генеральных совокупностей.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]