- •В.В. Нешитой
- •Введение
- •1. Основные понятия теории вероятностей и математической статистики
- •1.1. Случайные события. Испытания. Относительная частота и вероятность
- •1.2. Виды случайных событий
- •1.3. Определения вероятности
- •1.4. Основные формулы комбинаторики
- •1.5. Теорема сложения вероятностей (несовместных событий)
- •1.6. Теорема умножения вероятностей (независимых событий)
- •1.7. Закон распределения дискретной случайной величины
- •1.8. Числовые характеристики дискретной случайной величины
- •1.8.1. Математическое ожидание
- •1.8.2. Свойства математического ожидания
- •1.8.3. Дисперсия дискретной случайной величины
- •1.8.4. Свойства дисперсии
- •1.8.5. Среднее квадратическое отклонение
- •1.8.6. Одинаково распределенные взаимно независимые случайные величины
- •1.8.7. Моменты (начальные, центральные) дискретной случайной величины
- •1.10.2. Плотность распределения
- •1.11. Числовые характеристики непрерывных случайных величин
- •1.12. Примеры непрерывных распределений
- •1.12.1. Нормальный закон
- •1.12.2. Показательный закон
- •1.12.3. Закон Вейбулла
- •1.13. Элементы математической статистики
- •1.13.1. Генеральная и выборочная совокупности. Вариационный ряд. Характеристики вариационного ряда
- •1.13.2. Статистическое распределение выборки. Полигон. Гистограмма. Эмпирическая функция распределения
- •1.13.3. Статистические оценки параметров. Точность оценки, доверительная вероятность (надежность)
- •1.13.4. Метод моментов для точечной оценки параметров распределения
- •1.13.5. Метод наибольшего правдоподобия
- •2. Вероятностная модель текста и ее исследование
- •2.1. Понятие математического ожидания случайной функции, нового события и кривой роста новых событий
- •2.2. Математическое ожидание случайной функции и кривая роста новых событий. Связь с законами распределения вероятностей разных и новых событий
- •2.3. Установление статистической структуры выборки по кривой роста новых событий
- •2.4. Восстановление кривой роста новых событий по статистической структуре выборки
- •2.5. Построение систем кривых роста и непрерывных распределений новых событий
- •Построение систем кривых роста и непрерывных распределений новых событий
- •3. Обобщенные распределения. Системы непрерывных распределений
- •3.1. Методы построения обобщенных распределений
- •3.2. Построение системы непрерывных распределений методом обобщения
- •3.3. Классификация обобщенных распределений
- •Распределения группы а
- •Распределения группы б
- •Группа симметричных распределений
- •3.4. Распределения функций случайного аргумента
- •3.5. Три основные и три дополнительные системы непрерывных распределений в.Нешитого
- •3.6. Обобщение систем непрерывных распределений
- •3.6.1. Обобщение систем непрерывных распределений по первому варианту
- •Обобщение систем непрерывных распределений по первому варианту на базе четырехпараметрической плотности p(t)
- •3.6.2. Обобщение систем непрерывных распределений по второму варианту
- •Обобщение систем непрерывных распределений по второму варианту на базе четырехпараметрической плотности p(t)
- •4. Оценивание параметров обобщенных распределений. Критерии для классификации кривых. Центральная предельная теорема
- •4.1. Метод наименьших квадратов
- •Значение функции распределения f(tc)
- •4.2. Метод наибольшего правдоподобия
- •4.3. Классический метод моментов
- •4.3.3. Симметричные распределения Ic–iiIc типов
- •4.3.4. Критерии для классификации распределений по методу моментов
- •4.4. Универсальный метод моментов
- •4.4.1. Расширение трех систем непрерывных распределений
- •4.4.2. Законы распределения суммы независимых случайных величин
- •4.4.3. Центральная предельная теорема для трех систем непрерывных распределений
- •4.4.4. Законы распределения среднего выборочного
- •4.5. Устойчивый метод
- •5. Выравнивание и прогнозирование статистических распределений
- •5.1. Выбор системы непрерывных распределений для выравнивания статистических распределений
- •5.2. Вычисление выравнивающей кривой распределения по статистическим данным
- •5.2.1. Выравнивание по классическому методу моментов
- •5.2.2. Выравнивание по универсальному методу моментов
- •5.2.3. Выравнивание по устойчивому методу
- •Показатели статистического распределения (snr2v08a)
- •Распределение 3-го типа с параметрами
- •5.2.5. Выравнивающее распределение среднего выборочного
- •5.3. Прогнозирование распределений
- •5.3.1. Первая система непрерывных распределений
- •5.3.2. Вторая система непрерывных распределений
- •Распределение населения страны по среднедушевому совокупному доходу, в % к итогу (Расчет по данным обследования 90 тыс. Семейных бюджетов)
- •5.3.3. Показатели стабильности и качества выборки
- •5.4. Ранговые распределения
- •5.4.1. Форма представления ранговых распределений
- •5.4.2 Универсальный закон рассеяния публикаций
- •5.5.3. Универсальный закон старения публикаций
- •5.4.4. Ранговые распределения лексических единиц
- •6. Временные (динамические) ряды
- •6.1. Методы выделения тренда
- •6.2. Построение кривых роста для выравнивания временных рядов
- •6.2.1. Построение кривых роста с заданными свойствами
- •6.2.2. Метод обобщения
- •6.2.3. Кривые роста на базе обобщенных распределений
- •6.3. Оценивание параметров кривых роста
- •6.3.1. Уравнение прямой
- •6.3.2. Экспонента
- •6.3.3. Обобщенная кривая роста
- •6.4. Прогнозирование временных рядов
- •6.4.1. Параметрический метод прогнозирования
- •6.4.2. Непараметрический метод прогнозирования
- •Заключение
- •Приложения Приложение 1
- •Приложение 2
- •Приложение 5 Основные сведения о программах
- •Литература
- •Содержание
- •Математико-статистические
- •Методы анализа
- •В библиотечно-информационной
- •Деятельности
2.3. Установление статистической структуры выборки по кривой роста новых событий
По заданной кривой роста новых событий можно рассчитать количество событий, наступающих ровно 0, 1…, m раз при х испытаниях, т.е. установить статистическую структуру выборки (частотный спектр). Решим эту задачу в общем виде.
Найдём вероятность того, что k-ое событие при Х испытаниях появится ровно m раз. Как известно, эта вероятность определяется по формуле Бернулли
(2.3.1)
В случае полной группы несовместных событий вероятность Pk(m,Х) совпадает с математическим ожиданием числа появлений отдельного k-го события ровно m раз при Х испытаниях. Поэтому математическое ожидание числа всех тех разных событий, которые появятся ровно m раз при Х испытаниях, будет равна сумме
(2.3.2)
Формула (2.3.2) позволяет установить статистическую структуру выборки по известному закону распределения вероятностей разных событий, составляющих полную группу.
Если вероятности отдельных событий малы, а число испытаний X достаточно большое, то вероятности рk целесообразно аппроксимировать непрерывной плотностью p(t), удовлетворяющей условию (2.2.7), а формулу (2.3.2) представить в виде
(2.3.3)
Формулу (2.3.3) при х → ∞ и ограниченных значениях m можно несколько упростить. Действительно
,
что при х → ∞ дает
(2.3.4)
В то же время при х → ∞
Формула (2.3.3) с учетом (2.3.4) и последнего равенства примет вид
(2.3.5)
где – среднее значение количества разных событий, наступающих ровноm раз при х испытаниях. При этом должны выполняться равенства
(2.3.6)
С другой стороны, дифференцируя выражение (2.2.9) m раз по х, найдем
(2.3.7)
Подставляя в (2.3.5) вместо определенного интеграла его значение из (2.3.7), получим окончательно
(2.3.8)
Формулы (2.3.8) и (2.3.16) дают возможность связать частотный спектр со средней плотностью [27, с.21]
(2.3.9)
Итак, для установления статистической структуры выборки достаточно знать либо кривую роста новых событий, либо среднюю плотность распределения вероятностей новых событий – В первом случае используется формула (2.3.8), во втором – (2.3.9).
2.4. Восстановление кривой роста новых событий по статистической структуре выборки
Перепишем формулу (2.3.8) в виде
(2.4.1)
Зависимость (2.4.1) была установлена В.М.Калининым [6, с. 247]. Из (2.4.1) следует, что функция у = f(x) бесконечно дифференцируема. Это позволяет строить ее разложение в ряд Тейлора. В.М.Калинин получает таким способом формулу для кривой роста новых событий, которая в наших обозначениях имеет вид [6, c. 247]
(2.4.2)
Здесь – число разных событий в выборке объемом– числоm – разовых событий в выборке ;y – ожидаемое среднее число разных событий в подвыборке произвольного объема х (x<x0).
Формула В.М. Калинина (2.4.2) позволяет восстановить кривую роста новых событий по заданной статистической структуре выборки
Подставляя в (2.4.2) опытные значения величин , нетрудно рассчитать значенияy при заданных x. Практически формулой (2.4.2) удобно пользоваться при 0,1.
При < 0,05 целесообразно воспользоваться формулой (2.2.3).
Предположим, что разные события, которые встретились в выборке объемом , упорядочены по невозрастанию эмпирических частот, гдеr – порядковый номер (ранг) события (r = 1, 2,…,). Учитывая далее, что оценкой вероятности является относительная частота(по крайней мере при достаточно больших значениях), на основании формулы (2.2.3) можем записать
(2.4.3)
При малых значениях отношения из ( 2.4.3) имеем
(2.4.4)
Так как события упорядочены по невозрастанию частот, то сумму (2.4.4) приближенно можно вычислить по формуле прямоугольников. Это значительно сокращает объем вычислительных работ.