- •В.В. Нешитой
- •Введение
- •1. Основные понятия теории вероятностей и математической статистики
- •1.1. Случайные события. Испытания. Относительная частота и вероятность
- •1.2. Виды случайных событий
- •1.3. Определения вероятности
- •1.4. Основные формулы комбинаторики
- •1.5. Теорема сложения вероятностей (несовместных событий)
- •1.6. Теорема умножения вероятностей (независимых событий)
- •1.7. Закон распределения дискретной случайной величины
- •1.8. Числовые характеристики дискретной случайной величины
- •1.8.1. Математическое ожидание
- •1.8.2. Свойства математического ожидания
- •1.8.3. Дисперсия дискретной случайной величины
- •1.8.4. Свойства дисперсии
- •1.8.5. Среднее квадратическое отклонение
- •1.8.6. Одинаково распределенные взаимно независимые случайные величины
- •1.8.7. Моменты (начальные, центральные) дискретной случайной величины
- •1.10.2. Плотность распределения
- •1.11. Числовые характеристики непрерывных случайных величин
- •1.12. Примеры непрерывных распределений
- •1.12.1. Нормальный закон
- •1.12.2. Показательный закон
- •1.12.3. Закон Вейбулла
- •1.13. Элементы математической статистики
- •1.13.1. Генеральная и выборочная совокупности. Вариационный ряд. Характеристики вариационного ряда
- •1.13.2. Статистическое распределение выборки. Полигон. Гистограмма. Эмпирическая функция распределения
- •1.13.3. Статистические оценки параметров. Точность оценки, доверительная вероятность (надежность)
- •1.13.4. Метод моментов для точечной оценки параметров распределения
- •1.13.5. Метод наибольшего правдоподобия
- •2. Вероятностная модель текста и ее исследование
- •2.1. Понятие математического ожидания случайной функции, нового события и кривой роста новых событий
- •2.2. Математическое ожидание случайной функции и кривая роста новых событий. Связь с законами распределения вероятностей разных и новых событий
- •2.3. Установление статистической структуры выборки по кривой роста новых событий
- •2.4. Восстановление кривой роста новых событий по статистической структуре выборки
- •2.5. Построение систем кривых роста и непрерывных распределений новых событий
- •Построение систем кривых роста и непрерывных распределений новых событий
- •3. Обобщенные распределения. Системы непрерывных распределений
- •3.1. Методы построения обобщенных распределений
- •3.2. Построение системы непрерывных распределений методом обобщения
- •3.3. Классификация обобщенных распределений
- •Распределения группы а
- •Распределения группы б
- •Группа симметричных распределений
- •3.4. Распределения функций случайного аргумента
- •3.5. Три основные и три дополнительные системы непрерывных распределений в.Нешитого
- •3.6. Обобщение систем непрерывных распределений
- •3.6.1. Обобщение систем непрерывных распределений по первому варианту
- •Обобщение систем непрерывных распределений по первому варианту на базе четырехпараметрической плотности p(t)
- •3.6.2. Обобщение систем непрерывных распределений по второму варианту
- •Обобщение систем непрерывных распределений по второму варианту на базе четырехпараметрической плотности p(t)
- •4. Оценивание параметров обобщенных распределений. Критерии для классификации кривых. Центральная предельная теорема
- •4.1. Метод наименьших квадратов
- •Значение функции распределения f(tc)
- •4.2. Метод наибольшего правдоподобия
- •4.3. Классический метод моментов
- •4.3.3. Симметричные распределения Ic–iiIc типов
- •4.3.4. Критерии для классификации распределений по методу моментов
- •4.4. Универсальный метод моментов
- •4.4.1. Расширение трех систем непрерывных распределений
- •4.4.2. Законы распределения суммы независимых случайных величин
- •4.4.3. Центральная предельная теорема для трех систем непрерывных распределений
- •4.4.4. Законы распределения среднего выборочного
- •4.5. Устойчивый метод
- •5. Выравнивание и прогнозирование статистических распределений
- •5.1. Выбор системы непрерывных распределений для выравнивания статистических распределений
- •5.2. Вычисление выравнивающей кривой распределения по статистическим данным
- •5.2.1. Выравнивание по классическому методу моментов
- •5.2.2. Выравнивание по универсальному методу моментов
- •5.2.3. Выравнивание по устойчивому методу
- •Показатели статистического распределения (snr2v08a)
- •Распределение 3-го типа с параметрами
- •5.2.5. Выравнивающее распределение среднего выборочного
- •5.3. Прогнозирование распределений
- •5.3.1. Первая система непрерывных распределений
- •5.3.2. Вторая система непрерывных распределений
- •Распределение населения страны по среднедушевому совокупному доходу, в % к итогу (Расчет по данным обследования 90 тыс. Семейных бюджетов)
- •5.3.3. Показатели стабильности и качества выборки
- •5.4. Ранговые распределения
- •5.4.1. Форма представления ранговых распределений
- •5.4.2 Универсальный закон рассеяния публикаций
- •5.5.3. Универсальный закон старения публикаций
- •5.4.4. Ранговые распределения лексических единиц
- •6. Временные (динамические) ряды
- •6.1. Методы выделения тренда
- •6.2. Построение кривых роста для выравнивания временных рядов
- •6.2.1. Построение кривых роста с заданными свойствами
- •6.2.2. Метод обобщения
- •6.2.3. Кривые роста на базе обобщенных распределений
- •6.3. Оценивание параметров кривых роста
- •6.3.1. Уравнение прямой
- •6.3.2. Экспонента
- •6.3.3. Обобщенная кривая роста
- •6.4. Прогнозирование временных рядов
- •6.4.1. Параметрический метод прогнозирования
- •6.4.2. Непараметрический метод прогнозирования
- •Заключение
- •Приложения Приложение 1
- •Приложение 2
- •Приложение 5 Основные сведения о программах
- •Литература
- •Содержание
- •Математико-статистические
- •Методы анализа
- •В библиотечно-информационной
- •Деятельности
2.2. Математическое ожидание случайной функции и кривая роста новых событий. Связь с законами распределения вероятностей разных и новых событий
Рассмотрим полную группу попарно несовместных событий А1, А2,…, Ак ,…, Аn, вероятности которых заданы и соответственно равны p1, p2,…, pк ,…, pn. Пусть производятся независимые испытания, в каждом из которых может появиться одно из n разных событий, например, событие Ак.. При этом вероятность появления события Ак в любом испытании постоянна и равна рк. Порядковый номер испытания обозначим через i (i = I, 2,…, Х+1).
Найдём вероятность того, что событие Ak появится первый раз в i-ом испытании и, следовательно, не появится во всех предыдущих (i-1)-ом испытаниях. Поскольку любое событие при первом его появлении от начала испытаний считается новым (обозначим его через ), то поставленную задачу можно сформулировать ещё так: найдём вероятность появления нового событиявi-ом испытании - Рi(). По правилу умножения вероятностей независимых событий она будет равна
(2.2.1)
Рассмотрим далее новое событие – Ан, представляющее собой сумму n новых несовместных событий и найдём вероятность появления этого нового события вi-ом испытании. По правилу сложения вероятностей несовместных событий с учетом (2.2. I) имеем
(2.2. 2)
Рассмотрим теперь случайную величину Zi - число появлений нового события Ан в i-ом испытании. Она может принимать только два значения: Zi=1 (новое событие Ан наступило) с вероятностью Рi(Ан) и Zi=0 (новое событие не наступило) с вероятностью 1-Рi(Ан). Математическое ожидание случайной величины Zi равно вероятности появления нового события в i -ом испытании
Тогда математическое ожидание числа новых событий, наступающих при Х испытаниях, на основании теоремы сложения математических ожиданий будет равно сумме
или с учётом (2.2.2)
Суммируя вначале по i, затем по к, найдём
. (2.2.3)
Формула (2.2.3) ранее была получена В.М.Калининым [6, c. 246]. Она имеет смысл при целых значениях Х. В прямоугольных координатах
(Х; М[Y(X)]) каждому Х (Х = I, 2,…) соответствует ордината М[Y(X)]. Если соединить вершины ординат отрезками прямых, то получим ломаную, которую условимся также обозначать . При этом вероятность появления нового событияв(Х+1)-ом испытании равна тангенсу угла наклона (Х+1)-го отрезка ломаной к оси0Х
(2.2.4)
Из формулы (2.2.3) следует, что для нахождения математического ожидания случайной функции необходимо и достаточно знать вероятности всех n событий, составляющих полную группу. При этом разные события могут быть упорядочены по любому правилу. Следовательно, эта формула не позволяет решать весьма важную обратную задачу – по известному математическому ожиданию случайной функции находить закон распределения вероятностей n событий, составляющих полную группу. Для решения этой задачи необходимо иметь такую форму закона распределения, при которой он однозначно определялся бы математическим ожиданием случайной функции. Как показали исследования, такой формой закона распределения является распределение вероятностей новых событий. Выразим его через порядковый номер испытания i.
Обозначим через среднее значение вероятностей новых событий, которые могут наступить при одномi -ом испытании. Оно будет равно сумме произведений всех возможных значений вероятностей новых событий в i - ом испытании на вероятности pк, т.е.
что с учётом (2.2.1) даёт
(2.2.5)
Формула (2.2.5) задаёт закон распределения длительности интервалов до наступления нового события.
Тогда накопленная вероятность новых событий, наступивших при Х испытаниях (другими словами - функция распределения вероятностей новых событий), будет равна сумме средних вероятностей
Суммируя по i, найдём
(2.2.6)
или, на основании равенства (2.2.4),
. (2.2.6')
Отметим, что формула (2.2.3) весьма неудобна как для теоретических исследователей, так и для практических расчётов, особенно при больших значениях n или X. В связи с этим математическое ожидание случайной функции (2.2.3) целесообразно аппроксимировать непрерывной плавной кривой, т.е. кривой роста новых событий. Найдем аналитическое выражение для этой кривой.
Будем считать, что события, составляющие полную группу, упорядочены по какому-нибудь правилу, например, по убыванию их вероятностей (от перемены мест слагаемых сумма в правой части формулы (2.2.3) не изменится). Пусть далее существует такая непрерывная плотность распределения p(t), которая удовлетворяет условию
,(2.2.7)
причём, при некоторых значениях t на каждом интервале k -1< t < k (k = I, 2,…, n) выполняется равенство p(t) = pk.
На основании условия (2.2.7) величину 1-(1- pk)Х, входящую в формулу (2.2.3), можно аппроксимировать величиной 1-[1- p(t)]Х. Тогда сумму в правой части формулы (2.2.3) приближённо можно заменить интегралом
. (2.2.8)
Если число разных событий n велико и вероятности отдельных событий малы, то при этих условиях будут малы также значения плотности распределения p(t). Вводя непрерывные величины х, у, на основании (2.2.8) можем записать
(2.2.9)
где у – среднее число разных событий, наступающих при х испытаниях. При этом 0 < x < ∞, 0 < y < n. Зависимость (2.2.9) является непрерывным аналогом зависимости (2.2.3).
Таким же путём из формул (2.2.9), (2.2.4) – (2.2.6') получим
(2.2.10)
(2.2.11)
(2.2.12)
Как видно из формул (2.2.10), (2.2.11), вероятность появления нового события при х произведенных испытаниях равна значению первой производной в точке (х; у) кривой роста новых событий y = f(x) (2.2.9), а средняя плотность -второй производной, взятой со знаком "минус".
Обозначим далее через средние значения вероятностей новых событий, которые могут наступитьj-ми от начала испытаний (j – порядковый номер нового события), а через – среднюю плотность распределения вероятностей новых событий, аппроксимирующую вероятности.
Поскольку переменные х и у связаны между собой функциональной зависимостью y = f(x) и, следовательно, каждому значению х соответствует определённое значение у, то справедливо равенство
где – накопленная средняя вероятностьу разных событий, наступающих при х испытаниях, или, другими словами, вероятность непоявления нового события в точке с координатами (х; у) кривой y=f(x). Принимая во внимание последнее равенство, формулу (2.2.12) можно переписать в виде
(2.2.13)
откуда дифференцированием по у найдём
(2.2.14)
или с учётом (2.2.9)
.(2.2.14′)
Средние плотности связаны между собой соотношением
(2.2.15)
которое следует из (2.2.11) и (2.2.14'). Из этих же формул при следуют равенства
, т.е. максимальные значения средних плотностей ,равны математическому ожиданию плотности распределения вероятностей разных событийp(t).
Полученные выше формулы свидетельствуют о том, что закон распределения вероятностей новых событий однозначно определяется кривой их роста y=f(x). Это замечательное свойство данной кривой даёт возможность по заданной аналитической зависимости y = f(x) находить закон распределения вероятностей новых событий (при этом используются формулы (2.2.12)–(2.2.15)), а также решать обратную задачу. Если известна функция распределения то кривая роста новых событий находится по формуле
(2.2.16)
которая следует из (2.2.12). Постоянная интегрирования С определяется из условия: у = 0 при х = 0.
Если известна функция распределения то вначале решаем дифференциальное уравнение (2.2.13) относительнох
(2.2.17)
Разрешая затем полученное уравнение относительно у (если это возможно), находим искомую функцию y = f(x).
Если известны обе функции распределения, то кривая роста находится непосредственно из равенства
(2.2.18)
Исследования показывают [16, с.58], что кривая роста новых событий должна удовлетворять условиям:
(2.2.19)
Оценим степень приближения кривой y = f(x) к математическому ожиданию случайной функции М[Y(X)] при x = X. Для этого рассмотрим случай равновозможных событий, т.е. при . На основании формул (2.2.3) и (2.2.9) найдем разность:
. (2.2.20)
Расчет по формуле (2.2.20) при различных значениях n и x показывает, что разность максимальна приx = n и уменьшается с ростом n. Так, при n = 2 ; приn = 10 ; приn = 100 . Наконец, приn.
Эти результаты свидетельствуют о высокой точности аппроксимирующей кривой y = f(x).