
PZMS
.pdfМИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ “МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ РАДИОТЕХНИКИ, ЭЛЕКТРОНИКИ И АВТОМАТИКИ (ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ)”
В.И.КУЗЬМИН А.Ф. ГАДЗАОВ
ПРИКЛАДНЫЕ ЗАДАЧИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
УЧЕБНОЕ ПОСОБИЕ
МОСКВА 2011
2
ББК 32.849+32.973-04 П18
УДК 396.62+681.327.8
Рецензенты: Белащенко Д.К., А.С. Крюковский.
Кузьмин В.И., Гадзаов А.Ф. Прикладные задачи математической статистики: Учебное пособие / Московский государственный институт радиотехники, электроники и автоматики (технический университет) – М., 2011. – 92 с.
Основу учебного пособия составляют модели и алгоритмы идентификации типов распределений теории вероятностей и математической статистики на основе нелинейных преобразований, линеаризующих эмпирические данные. Изложение иллюстрируется большим количеством примеров основанных как на модельных, так и реальных данных.
Табл. 15, Ил. 91, Библиогр.: 36 назв.
Печатается по решению редакционно-издательского совета университета.
ISBN 978-5-7339-0211-6 |
© |
В.И. Кузьмин, |
|
|
А.Ф. Гадзаов, 2011 |
|
© |
МИРЭА, 2011 |
3
ВВЕДЕНИЕ
Математическая статистика включает в себя разработку методов регистрации, описания и анализа статистических данных. В данном учебном пособии рассматриваются методы описания и анализа статистических данных.
Теория вероятностей так решает эту проблему. Результаты измерений для совокупности объектов в фиксированный момент времени разбиваются на ряд равномерных интервалов и подсчитывается количество случаев, попавших в каждый интервал. Полученная зависимость частости встречаемости результатов по интервалам называется гистограммой, которой ставится в соответствие некоторая аппроксимирующая зависимость, называемая функцией плотности распределения. Соответствие выбранному распределению фиксируется по критериям согласия, которые определяют, в какую «трубку» укладываются результаты.
Такой подход был вынужденным при отсутствии вычислительных средств. С большими массивами данных, при необходимости оперировать с каждой точкой, действительно можно заскучать.
Получающиеся здесь методические сложности достаточно очевидны:
-величина интервалов осреднения при построении гистограмм влияет на результаты;
-пропадает возможность определения совпадения ветвей для симметричных распределений;
-пропадает возможность точного определения положения критических точек и соответствующих им диапазонов однородности выборок;
-появляется иллюзия возможности произвольно назначать диапазоны однородности и в соответствии с этим рассчитывать характеристики вероятностей нормального функционирования систем.
Современные возможности обработки больших массивов эмпирических данных позволяют ликвидировать эти недостатки по принципу: «доведем наши недостатки до уровня наших досто-
4
инств». При этом появляется возможность существенно упростить алгоритмы обработки данных, гарантируя при этом высокую точность выделения диапазонов однородности.
Насколько существенны представленные выше недостатки? Общепринятые методы исследования операций (в частности, теория надежности), методы статистического моделирования (Монте-Карло) применимы в предположении, что анализируемые (или моделируемые) данные принадлежат к определенному рас-
пределению.
В действительности неоднородность больших статистических выборок хорошо известна: например, это неоднородность данных, генерируемых датчиками случайных чисел (дробовой эффект в электронных лампах, распад делящихся материалов). Сами условия реализации распределения определенного вида являются достаточно жесткими. Нормальное распределение получено в предположениях: 1) равная вероятность отклонения в обе стороны от средней величины; 2) возможность сколь угодно большого отклонения; 3) взаимная независимость воздействий; 4) большой объем выборки. Если хотя бы одно из требований не выполняется, то применение кривой Гаусса некорректно. Как отмечал А.А.Любищев: «…фактически очень большие отклонения от средней величины просто невозможны: муха не может быть отрицательной величины, с другой стороны, не может быть чрезвычайно большой, так как с определенным строением тела связана в известной степени и его величина. Поэтому суждение о вероятности очень больших отклонений (больше 6-7 сигм) не может основываться на таблицах для гауссовой кривой: вероятность таких отклонений, вообще говоря, будет меньше, чем вычисленная по таблицам» [1].
Реальной возможности проверки реализуемости этих условий для конкретной статистической выборки не существует.
Какие требования можно предъявить к идеальной системе обработки выборок статического типа?
При обработке существенно значение каждой точки.
Для каждого распределения проверка данных на принадлежность к нему проводится на основе таких нелинейных преоб-
5
разований исходных данных (анаморфоз), которые представляют их в виде линейных трендов, что обеспечивает выделение границ диапазонов однородности данных.
Использование ранговых распределений приводит к построению обратных значений функций распределения. Нормировка по общему числу измерений и инверсия координат приводят к интегральной функции распределения. Далее, для проверки соответствия данных определенному распределению вводится анаморфоза, как нелинейное преобразование координат, приводящее к линеаризации эмпирических данных.
Эмпирические данные обычно разделяются на два типа. К первому типу данных относятся динамические ряды, характеризующие динамику объекта на рассматриваемом интервале времени. Ко второму типу относятся данные статического разреза, то есть ряды, характеризующие состояния множества объектов в фиксированный интервал времени.
Объектом изучения математической статистики являются случайные величины. Случайной называется такая величина, которая в результате опыта может принимать то или иное заранее неизвестное значение. Различаются прерывные (дискретные) и непрерывные случайные величины.
Под прерывными или дискретными понимаются такие случайные величины, которые принимают отделенные друг от друга значения, которые можно заранее перечислить.
Под непрерывными понимаются такие случайные величины, которые не отделены друг от друга, то есть непрерывно заполняют некоторый промежуток, который может иметь четко выраженные или расплывчатые границы.
Математическая статистика решает вопросы, связанные с обработкой и анализом эмпирических данных. Можно выделить следующие основные задачи, которые возникают в процессе исследования данных:
1)определения закона распределения случайной величины;
2)идентификации параметров распределения;
3)проверки правдоподобия гипотез;
4)определения пределов применимости законов распределе-
6
ния; Задачи, которые не решены:
1)используются методы, не позволяющие воспроизводить результаты, соответствующие точности измерений;
2)определение законов распределения делается или «на глаз» или из априорных предположений о статических данных, отсутствуют формальные методы определения законов распределения;
3)не определяются пределы применимости законов распределения;
4)не устанавливаются связи динамики объекта с данными статического разреза, соответствующие эргодической теореме;
5)не определено влияние полноты выборки на результат.
При исследовании эмпирических данных часто надо найти аналитическое описание исходного ряда. Для этого, во-первых, необходимо подобрать класс функций плотности распределений, наиболее соответствующий исходным данным, во-вторых, идентифицировать параметры выбранной функции.
Задача определения класса функций, соответствующего статистическим данным, довольно часто решается не из математических соображений, а из априорных предположений о самих статистических данных. В расчет берутся физические условия задачи, теоретические соображения о ходе исследуемого процесса или вид полученной эмпирической кривой. Регулярные методы определения класса функций практически отсутствуют.
Если же класс функций все-таки выбран, то встает вопрос об определении параметров распределения. На практике считается, что любому статистическому распределению свойственны в большей или меньшей мере отклонения, выходящие за доверительный интервал распределения. Поэтому стоит задача определения теоретической кривой распределения, выражающей только существенные черты статистического ряда, но не случайностей.
Стандартным способом исключения из статистических рядов таких отклонений является метод сглаживания ряда. Он ис-
7
пользуется для фильтрации высокочастотных компонент, которые обычно считаются несущественными, так как предполагается, что они вызваны случайными факторами. Например, один из простейших методов сглаживания – метод скользящих средних. Этот метод основан на переходе от начальных значений временного ряда к их средним значениям на некотором заданном интервале времени. Полученный таким образом новый временной ряд ведет себя более регулярно. Это связано с удалением из процесса резких отклонений и скачков.
Обычно сглаживание применяется в начале исследования, так как это облегчает подбор подходящего класса функций и идентификации ее параметров. Выбор ширины окна сглаживания диктуется содержательными соображениями, связанными с предполагаемым периодом случайных колебаний. На практике обычно ширину окна сглаживания берут равной 3, 5 или 7 членов ряда, хотя отсутствуют регулярные методы определения вида сглаживающей зависимости. Не рекомендуется брать окно сглаживания шире, чем в четверть числа анализируемых данных. Чем шире окно, тем больше колебательных компонент будет исключено и тем более гладким будет вид полученного при сглаживании ряда. Однако при слишком больших окнах полученный ряд уже значительно отличается от исходного. При этом теряются многие его индивидуальные особенности.
Скользящие средние могут искажать данные, порождать фиктивные гармонические компоненты. Поэтому при их использовании возникает ряд важных вопросов, связанных с выбором ширины интервала усреднения и вида усредняющей функции. Без решения этих вопросов будет неясным, насколько сглаженный ряд сохранил характеристики исходного процесса. В качестве основы для выбора величины окна усреднения можно использовать нулевую среднюю сумму слагаемых колебаний, оставшихся после исключения сглаженного ряда из исходных данных. Использование скользящих средних с окном усреднения, соответствующим характеристикам исследуемого ряда позволяет исключить случайные компоненты без потери существенной информации.
8
Другой проблемой является определение параметров модели. В настоящее время используются два подхода для идентификации параметров модели. Первый подход основан на определении аппроксимирующей функции путем минимизации метрики, характеризующей отклонение эмпирических данных от нее (методы наименьших квадратов, максимального правдоподобия). Второй подход основан на применении анаморфоз, то есть таком преобразовании координат, при котором исходная зависимость линеаризуется.
Примером подхода, основанного на минимизации метрики, может служить метод наименьших квадратов. При применении этого метода решается задача определения параметров аппроксимирующей функции, при которых среднеквадратичное отклонение между этой функцией и исходными данными было бы наименьшим. В качестве критерия оценки выступает среднеквадратичная ошибка.
Качество аппроксимации данных зависит не только от вида функции и подбора соответствующих параметров, а так же от самих исходных данных, их однородности. Метод наименьших квадратов и другие методы, основанные на минимизации метрики, больше осуществляют подбор параметров модели. Его применение на качественно разнородных участках данных приводит к усреднению этих участков и неустойчивости полученных параметров. Таким образом, это приводит к необходимости до использования метода наименьших квадратов задействовать алгоритмы обработки данных, обеспечивающие выделение диапазонов их стабильности относительно выбранной модели.
Метод наименьших квадратов, являющийся основным при идентификации параметров регрессионных моделей, способен содержательно характеризовать основные тенденции процесса только на интервале однородности данных, в связи, с чем непосредственное применение метода наименьших квадратов для идентификации параметров распределения довольно часто оказывается не эффективным.
Анаморфозы (спрямляющие преобразования) подходят к
9
решению вопроса аппроксимации данных с другой стороны.
В истории математики известно понятие абак ( - доска). Декартов абак уравнения с двумя переменными f(x,y) = 0 есть график этого уравнения, построенный в системе декартовых координат х, у. При построении декартова абака на осях координат могут быть взяты функциональные шкалы x φ(u), y ψ(v).
Такое преобразование называется анаморфозой, если преобразует систему намеченных линий абака в прямолинейный пучок. Анаморфоза возможна, если уравнение f(u,v,w,z)=0 может быть приведено к виду f1(w) φ(u) f2(w) ψ(v) f3(w). (а)
Уравнения функциональных шкал должны иметь вид
x m1 φ(u) и y m2 ψ(v), где m1 и m2 - модули шкал. Логарифмическая анаморфоза есть анаморфоза, произведенная построением на осях координат логарифмических шкал. Она возможна
для уравнений вида f (w) a uφ(u) vψ(v), которое логарифмированием приводится к виду (а) [2].
Использование анаморфоз, в которых исходные данные линеаризуется, приводит к выделению участков, соответствующих выбранному распределению. Таким образом, решается вопрос о выделении участков, на которых исходные данные соответствуют тестируемой модели, и определения параметров функции аппроксимации, так как они могут быть получены из уравнений этих прямых.
Благодаря спрямлению исходных данных в координатах, соответствующих определенным распределениям, можно решить вопрос о подборе подходящего класса функций на регулярной основе. Путем перебора анаморфоз, соответствующих различным вероятностным распределениям, можно выбрать то распределение, которое линеаризует исходные данные. Анаморфоза, которая спрямляет данные на большем интервале, чем другие, будет иметь наивысший ранг значимости.
Построение анаморфоз основано, в частности, на следующих преобразованиях координат: логарифмирование, сдвиг и растяжение аргумента, инверсия функции или аргумента, сдвиговых фазовых траекториях.

10
1. ОСНОВНЫЕ ПОКАЗАТЕЛИ
Начнем рассмотрение со статистической выборки, на которой и будем иллюстрировать изложение результатов.
В табл.1 приведено распределение размеров 12000 фасолей [3].
|
|
|
Таблица 1.1. |
|
|
Распределение размеров фасоли |
|||
Размер |
|
Количество, |
Частость встречаемости, |
|
фасоли, xi |
|
ni |
pi=ni/ N |
|
6.37 |
|
3 |
0.00025 |
|
6.62 |
|
5 |
0.000417 |
|
6.87 |
|
24 |
0.002 |
|
7.12 |
|
103 |
0.008583 |
|
7.37 |
|
239 |
0.019917 |
|
7.62 |
|
624 |
0.052 |
|
7.87 |
|
1187 |
0.098917 |
|
8.12 |
|
1650 |
0.1375 |
|
8.37 |
|
1883 |
0.156917 |
|
8.62 |
|
1930 |
0.160833 |
|
8.87 |
|
1638 |
0.1365 |
|
9.12 |
|
1130 |
0.094167 |
|
9.37 |
|
737 |
0.061417 |
|
9.62 |
|
427 |
0.035583 |
|
9.87 |
|
221 |
0.018417 |
|
10.12 |
|
110 |
0.009167 |
|
10.37 |
|
57 |
0.00475 |
|
10.62 |
|
24 |
0.002 |
|
10.87 |
|
6 |
0.0005 |
|
11.12 |
|
2 |
0.000167 |
|
Где, ni - количество фасолей из первоначальной выборки соответствующего размера, N = 12000 –общее число фасолей в вы-
борке, pi ni - частости встречаемости фасолей определенного
N
размера.