- •В.В. Нешитой
- •Введение
- •1. Основные понятия теории вероятностей и математической статистики
- •1.1. Случайные события. Испытания. Относительная частота и вероятность
- •1.2. Виды случайных событий
- •1.3. Определения вероятности
- •1.4. Основные формулы комбинаторики
- •1.5. Теорема сложения вероятностей (несовместных событий)
- •1.6. Теорема умножения вероятностей (независимых событий)
- •1.7. Закон распределения дискретной случайной величины
- •1.8. Числовые характеристики дискретной случайной величины
- •1.8.1. Математическое ожидание
- •1.8.2. Свойства математического ожидания
- •1.8.3. Дисперсия дискретной случайной величины
- •1.8.4. Свойства дисперсии
- •1.8.5. Среднее квадратическое отклонение
- •1.8.6. Одинаково распределенные взаимно независимые случайные величины
- •1.8.7. Моменты (начальные, центральные) дискретной случайной величины
- •1.10.2. Плотность распределения
- •1.11. Числовые характеристики непрерывных случайных величин
- •1.12. Примеры непрерывных распределений
- •1.12.1. Нормальный закон
- •1.12.2. Показательный закон
- •1.12.3. Закон Вейбулла
- •1.13. Элементы математической статистики
- •1.13.1. Генеральная и выборочная совокупности. Вариационный ряд. Характеристики вариационного ряда
- •1.13.2. Статистическое распределение выборки. Полигон. Гистограмма. Эмпирическая функция распределения
- •1.13.3. Статистические оценки параметров. Точность оценки, доверительная вероятность (надежность)
- •1.13.4. Метод моментов для точечной оценки параметров распределения
- •1.13.5. Метод наибольшего правдоподобия
- •2. Вероятностная модель текста и ее исследование
- •2.1. Понятие математического ожидания случайной функции, нового события и кривой роста новых событий
- •2.2. Математическое ожидание случайной функции и кривая роста новых событий. Связь с законами распределения вероятностей разных и новых событий
- •2.3. Установление статистической структуры выборки по кривой роста новых событий
- •2.4. Восстановление кривой роста новых событий по статистической структуре выборки
- •2.5. Построение систем кривых роста и непрерывных распределений новых событий
- •Построение систем кривых роста и непрерывных распределений новых событий
- •3. Обобщенные распределения. Системы непрерывных распределений
- •3.1. Методы построения обобщенных распределений
- •3.2. Построение системы непрерывных распределений методом обобщения
- •3.3. Классификация обобщенных распределений
- •Распределения группы а
- •Распределения группы б
- •Группа симметричных распределений
- •3.4. Распределения функций случайного аргумента
- •3.5. Три основные и три дополнительные системы непрерывных распределений в.Нешитого
- •3.6. Обобщение систем непрерывных распределений
- •3.6.1. Обобщение систем непрерывных распределений по первому варианту
- •Обобщение систем непрерывных распределений по первому варианту на базе четырехпараметрической плотности p(t)
- •3.6.2. Обобщение систем непрерывных распределений по второму варианту
- •Обобщение систем непрерывных распределений по второму варианту на базе четырехпараметрической плотности p(t)
- •4. Оценивание параметров обобщенных распределений. Критерии для классификации кривых. Центральная предельная теорема
- •4.1. Метод наименьших квадратов
- •Значение функции распределения f(tc)
- •4.2. Метод наибольшего правдоподобия
- •4.3. Классический метод моментов
- •4.3.3. Симметричные распределения Ic–iiIc типов
- •4.3.4. Критерии для классификации распределений по методу моментов
- •4.4. Универсальный метод моментов
- •4.4.1. Расширение трех систем непрерывных распределений
- •4.4.2. Законы распределения суммы независимых случайных величин
- •4.4.3. Центральная предельная теорема для трех систем непрерывных распределений
- •4.4.4. Законы распределения среднего выборочного
- •4.5. Устойчивый метод
- •5. Выравнивание и прогнозирование статистических распределений
- •5.1. Выбор системы непрерывных распределений для выравнивания статистических распределений
- •5.2. Вычисление выравнивающей кривой распределения по статистическим данным
- •5.2.1. Выравнивание по классическому методу моментов
- •5.2.2. Выравнивание по универсальному методу моментов
- •5.2.3. Выравнивание по устойчивому методу
- •Показатели статистического распределения (snr2v08a)
- •Распределение 3-го типа с параметрами
- •5.2.5. Выравнивающее распределение среднего выборочного
- •5.3. Прогнозирование распределений
- •5.3.1. Первая система непрерывных распределений
- •5.3.2. Вторая система непрерывных распределений
- •Распределение населения страны по среднедушевому совокупному доходу, в % к итогу (Расчет по данным обследования 90 тыс. Семейных бюджетов)
- •5.3.3. Показатели стабильности и качества выборки
- •5.4. Ранговые распределения
- •5.4.1. Форма представления ранговых распределений
- •5.4.2 Универсальный закон рассеяния публикаций
- •5.5.3. Универсальный закон старения публикаций
- •5.4.4. Ранговые распределения лексических единиц
- •6. Временные (динамические) ряды
- •6.1. Методы выделения тренда
- •6.2. Построение кривых роста для выравнивания временных рядов
- •6.2.1. Построение кривых роста с заданными свойствами
- •6.2.2. Метод обобщения
- •6.2.3. Кривые роста на базе обобщенных распределений
- •6.3. Оценивание параметров кривых роста
- •6.3.1. Уравнение прямой
- •6.3.2. Экспонента
- •6.3.3. Обобщенная кривая роста
- •6.4. Прогнозирование временных рядов
- •6.4.1. Параметрический метод прогнозирования
- •6.4.2. Непараметрический метод прогнозирования
- •Заключение
- •Приложения Приложение 1
- •Приложение 2
- •Приложение 5 Основные сведения о программах
- •Литература
- •Содержание
- •Математико-статистические
- •Методы анализа
- •В библиотечно-информационной
- •Деятельности
4.5. Устойчивый метод
Проверка показала, что универсальный метод моментов в принципе решает задачу оценивания параметров обобщенных распределений. Однако существенным его недостатком является неустойчивость, поскольку эмпирические моменты высоких порядков () сильно зависят от значений частот на концах распределения.
Другим недостатком универсального метода моментов является то, что в системе координат на рис. 4.4.1 все типы распределений занимают только четверть площади прямоугольника. Это треугольник, ограниченный отрезком оси ординат3 < β2 < 6 и двумя наклонными прямыми: β2 = 6 + 0.75 β1; β2 = 3 + 1.5 β1.
Доля площади прямоугольника, в котором задано распределение, может служить показателем разрешающей способности метода оценивания параметров. Чем ближе она к единице, тем выше разрешающая способность метода.
Автором обобщенных распределений был разработан устойчивый метод оценивания параметров [12, 16, 18], который по точности не уступает методу наибольшего правдоподобия, но значительно проще последнего.
Здесь так же, как и в случае универсального метода моментов, вводятся два показателя – асимметрии В и островершинности Н, которые зависят от двух параметров формы k=γ/β, u. По этим показателям устанавливается тип выравнивающей кривой распределения и находятся оценки параметров k, u. Оценки двух других параметров рассчитываются по простым формулам.
Достоинством метода является его устойчивость, т.е. он мало чувствителен к выбросам на концах статистического распределения. Кроме того, разрешающая способность метода составляет примерно 80%, что значительно выше аналогичного показателя универсального метода моментов.
К недостаткам его следует отнести то, что для оценивания параметров выравнивающей кривой он требует группирования статистических данных, так же как и метод наибольшего правдоподобия.
Если обобщенное распределение задано плотностью р(x), то показатели В, Н равны
, (4.5.1) где
. (4.5.2)
Исследования показали, что величина Н задана на интервале , а величинаВ – на интервале –1/4<B<1/4.
Вычислим для разных типов распределений значения показателей В, Н при различных значениях параметров k, u. Далее построим номограмму (приложение 3). Она применима к трем основным системам непрерывных распределений, заданным первыми плотностями. При этом они должны быть приведены к форме плотности р(х).
На номограмме распределения II, II и IV типов представлены кривыми. Типы I, I, III, V занимают определенные области. Симметричные распределения IIIc, Vc типов представлены отрезками на оси ОН: для IIIc типа ; для Vc типа. Распределения IVс типа представлены точкой. Распределения IIс типа также представлены точкой.
На номограмме изображены области распределений с левосторонней асимметрией, для которых . Сюда относится часть распределений III–V типов при 0<k<(1–1/u)/2, а также распределения I, II типов. При этом распределения приведены к форме плотности р(х).
Распределения I, II типов, а также часть распределений III-V типов при (1–1/u)/2<k<1–1/u имеют правостороннюю асимметрию. Для них –1/4<B<0, причем для распределений I, II и I, II типов справедливы равенства: .
Здесь следует отметить, что для распределений с параметром сдвига l и параметром β = 1 автором построена другая номограмма, которая является продолжением настоящей. В книге она не приведена, но без ее использования невозможно разработать программу для установления типа указанных распределений и вычисления оценок параметров k, u.
Таким образом, показатели В, Н однозначно определяют тип распределения, приведенного к форме плотности р(х). Более того, с помощью этих показателей могут быть найдены оценки параметров k, u непосредственно из номограммы.
Для распределений III–V типов при В < 0 из номограммы вначале находятся оценки параметров k, u (при В > 0), затем вычисляется величина k=1–1/u–k.
Оценка параметра β для всех типов равна [16]
. (4.5.3)
Тогда γ = kβ.
Оценки параметра для распределений II, II типов и произведения αu для остальных типов равны [12, 16]:
, (4.5.4) где в зависимости от типа распределения величины ирассчитываются по формулам:
Типы I, I:
; (4.5.5)
Типы II, II:
; (4.5.6)
Типы III-V:
. (4.5.7)
Величина
(4.5.8) может быть вычислена по приближенным формулам:
– при x ≥ 4
(4.5.9)
– при 0<x<4
, (4.5.10) где
(4.5.11)
Для облегчения расчетов в приложении 1 приводятся также значения функции g(x). Величина Ψ(x) вычисляется по первой из формул (4.4.14).
Для установления типа выравнивающей кривой распределения и нахождения оценок параметров по устойчивому методу достаточно найти значения статистических показателей и приравнять их соответствующим теоретическим.Эти показатели для каждой системы непрерывных распределений вычисляются по-своему. Но номограмма применима ко всем трем системам непрерывных распределений.
Оценки статистических показателей в случае выравнивающих распределений, заданных плотностью р(х), вычисляются по формулам:
, (4.5.12)
где рi=mi/(Mhi) – эмпирическая плотность распределения; mi – наблюденная частота случайной величины Х в i-ом интервале – наблюденная частота во всехn интервалах (объем выборки); hi – ширина i-го интервала; хi – значение случайной величины Х в середине i-го интервала.
Формулы (4.5.12) можно выразить через абсолютные частоты mi:
. (4.5.13)
Показатель островершинности Н* при hi = const примет вид
, (4.5.14) т.е. ширина интервала не входит в формулу (4.5.14). Отсюда следует вывод, что ширину интервала группирования статистических данных лучше принимать постоянной (по крайней мере для распределений, близких к симметричным).
Если выравнивающее распределение задано обобщенной плотностью p(t), статистические показатели рассчитываются по формулам:
. (4.5.15)
При hi = const
. (4.5.16)
Если выравнивающее распределение задано плотностью p(y), то статистические показатели вычисляются по формулам:
. (4.5.17)
Поскольку метод применим к трем системам непрерывных распределений, то его можно считать общим устойчивым методом.
Для установления типа выравнивающей кривой и нахождения оценок параметров по общему устойчивому методу автором созданы программы .
В заключение отметим, что устойчивый метод основан на взаимосвязи между законами распределения случайных величин Х и Z. Запишем обобщенную плотность р(х)
.
Пусть для определенности параметр u > 0.
Введем случайную величину
. (4.5.18)
Тогда плотность р(z) будет равна
.
Поскольку на основании (4.5.17) , то
, (4.5.19)
откуда имеем замечательное равенство
βzp(z)=p(x). (4.5.20)
На его базе строится устойчивый метод оценивания параметров.
Поскольку плотность р(z) является функцией двух параметров формы , то последняя формула позволяет ввести критерии, зависящие от этих двух параметров.
Запишем на основании формулы (4.5.20) следующее равенство:
.
Введем обозначения
.
Тогда последнее равенство перепишется в виде
. (4.5.21)
Формула (4.5.21) позволяет найти значение параметра β (например, при r =1), а также получить критерий островершинности, зависящий от двух параметров k, u. Для этого необходимо взять отношение либо. Последнее оказалось наиболее подходящим.
Таким путем был получен показатель островершинности Н.
Показатель асимметрии В найден из условия, чтобы для симметричных распределений он был равен нулю и в то же время использовал ранее введенные величины. Такой показатель может иметь вид
или
.
Покажем, что он зависит от двух параметров k, u.
Поскольку , то
.
По показателям В, Н строится номограмма, позволяющая устанавливать тип выравнивающей кривой распределения и находить оценки параметров k, u. Оценка параметра β вычисляется по величинам . Оценка параметра α или произведения αu вычисляется по тем же формулам, что и в случае универсального метода моментов.
Если в качестве показателей асимметрии и островершинности использовать величины
где xс – мода, то можно построить аналогичную номограмму для установления типа выравнивающей кривой распределения и нахождения в первом приближении оценок параметров k, u по координатам одной характерной точки С и среднему значению плотности р(х).