
- •В.В. Нешитой математико-статистические
- •Введение
- •1. Основные понятия теории вероятностей и математической статистики
- •1.1. Случайные события. Испытания. Относительная частота и вероятность
- •1.2. Виды случайных событий
- •1.3. Определения вероятности
- •1.4. Основные формулы комбинаторики
- •1.5. Теорема сложения вероятностей (несовместных событий)
- •1.6. Теорема умножения вероятностей (независимых событий)
- •1.7. Закон распределения дискретной случайной величины
- •1.8. Числовые характеристики дискретной случайной величины
- •1.8.1. Математическое ожидание
- •1.8.2. Свойства математического ожидания
- •1.8.3. Дисперсия дискретной случайной величины
- •1.8.4. Свойства дисперсии
- •1.8.5. Среднее квадратическое отклонение
- •1.8.6. Одинаково распределенные взаимно независимые случайные величины
- •1.8.7. Моменты (начальные, центральные) дискретной случайной величины
- •1.10.2. Плотность распределения
- •1.11. Числовые характеристики непрерывных случайных величин
- •1.12. Примеры непрерывных распределений
- •1.12.1. Нормальный закон
- •1.13.2. Статистическое распределение выборки. Полигон. Гистограмма. Эмпирическая функция распределения
- •1.13.3. Статистические оценки параметров. Точность оценки, доверительная вероятность (надежность)
- •1.13.4. Метод моментов для точечной оценки параметров распределения
- •1.13.5. Метод наибольшего правдоподобия
- •2. Вероятностная модель текста и ее исследование
- •2.1. Понятие математического ожидания случайной функции, нового события и кривой роста новых событий
- •2.2. Математическое ожидание случайной функции и кривая роста новых событий. Связь с законами распределения вероятностей разных и новых событий
- •2.3. Установление статистической структуры выборки по кривой роста новых событий
- •2.4. Восстановление кривой роста новых событий по статистической структуре выборки
- •2.5. Построение систем кривых роста и непрерывных распределений новых событий
- •Построение систем кривых роста и непрерывных распределений новых событий
- •3. Обобщенные распределения. Системы непрерывных распределений
- •3.1. Методы построения обобщенных распределений
- •3.2. Построение системы непрерывных распределений методом обобщения
- •3.3. Классификация обобщенных распределений
- •Распределения группы а
- •3.4. Распределения функций случайного аргумента
- •Р ис. 3.4.2. Формы конца кривой в зависимости
- •3.5. Три основные и три дополнительные системы непрерывных распределений в.Нешитого
- •3.6. Обобщение систем непрерывных распределений
- •3.6.1. Обобщение систем непрерывных распределений по первому варианту
- •Обобщение систем непрерывных распределений по первому варианту на базе четырехпараметрической плотности p(t)
- •3.6.2. Обобщение систем непрерывных распределений по второму варианту
- •Обобщение систем непрерывных распределений по второму варианту на базе четырехпараметрической плотности p(t)
- •4. Оценивание параметров обобщенных распределений. Критерии для классификации кривых. Центральная предельная теорема
- •4.1. Метод наименьших квадратов
- •4.2. Метод наибольшего правдоподобия
- •4.3. Классический метод моментов
- •4.3.3. Симметричные распределения Ic–iiIc типов
- •4.3.4. Критерии для классификации распределений по методу моментов
- •4.4. Универсальный метод моментов
- •4.4.1. Расширение трех систем непрерывных распределений
- •4.4.2. Законы распределения суммы независимых случайных величин
- •4.4.3. Центральная предельная теорема для трех систем непрерывных распределений
- •4.4.4. Законы распределения среднего выборочного
- •4.5. Устойчивый метод
- •5. Выравнивание и прогнозирование статистических распределений
- •5.1. Выбор системы непрерывных распределений для выравнивания статистических распределений
- •5.2. Вычисление выравнивающей кривой распределения по статистическим данным
- •5.2.1. Выравнивание по классическому методу моментов
- •5.2.2. Выравнивание по универсальному методу моментов
- •5.2.3. Выравнивание по устойчивому методу
- •Показатели статистического распределения (snr2v08a)
- •Распределение 3-го типа с параметрами
- •5.2.5. Выравнивающее распределение среднего выборочного
- •5.3. Прогнозирование распределений
- •5.3.1. Первая система непрерывных распределений
- •5.3.2. Вторая система непрерывных распределений
- •Распределение населения страны по среднедушевому совокупному доходу, в % к итогу (Расчет по данным обследования 90 тыс. Семейных бюджетов)
- •5.3.3. Показатели стабильности и качества выборки
- •5.4. Ранговые распределения
- •5.4.1. Форма представления ранговых распределений
- •5.4.2 Универсальный закон рассеяния публикаций
- •5.5.3. Универсальный закон старения публикаций
- •5.4.4. Ранговые распределения лексических единиц
- •6. Временные (динамические) ряды
- •6.1. Методы выделения тренда
- •6.2. Построение кривых роста для выравнивания временных рядов
- •6.2.1. Построение кривых роста с заданными свойствами
- •6.2.2. Метод обобщения
- •6.2.3. Кривые роста на базе обобщенных распределений
- •6.3. Оценивание параметров кривых роста
- •6.3.1. Уравнение прямой
- •6.3.2. Экспонента
- •6.3.3. Обобщенная кривая роста
- •6.4. Прогнозирование временных рядов
- •6.4.1. Параметрический метод прогнозирования
- •6.4.2. Непараметрический метод прогнозирования
- •Заключение
- •Приложения Приложение 1
- •Приложение 2
- •Приложение 3
- •Приложение 4
- •Приложение 5 Основные сведения о программах
- •Литература
- •Математико-статистические
- •М етоды анализа
- •В библиотечно-информационной
- •Деятельности
2. Вероятностная модель текста и ее исследование
2.1. Понятие математического ожидания случайной функции, нового события и кривой роста новых событий
Одним из наиболее эффективных методов изучения статистических закономерностей такого сложного объекта, каким является текст, написанный человеком, является метод построения моделей. Текст в первом приближении можно рассматривать как случайную последовательность словоупотреблений. В этой весьма упрощённой модели текста не учтены грамматические и семантические связи, существующие между словами. Однако, как показывают исследования [31, с. 57–58], в реальном тексте эти связи проявляются довольно слабо и действуют на весьма близком расстоянии. Следовательно, они не могут оказать существенного влияния на характер некоторых количественных закономерностей текста.
После выявления характера этих закономерностей (на основе исследования упрощённой модели текста) и опытной проверки полученных результатов можно будет построить более точную модель, учитывающую грамматические и семантические связи между словами реального текста, и, более того, найти для них количественную меру.
Итак, в качестве вероятностной модели текста будем рассматривать один класс случайных функций, описывающих статистическую зависимость между числом произведенных испытаний и числом наступивших при этом разных событий. Чтобы составить более полное представление об этом классе случайных функций, рассмотрим следующую схему испытаний.
Пусть имеется n несовместных событий, составляющих полную группу, причём, вероятности каждого из n событий заданы и равны p1, p2,…, pn. Пусть далее производятся независимые испытания, в каждом из которых может наступить любое из n разных событий. Если произвести достаточно большое число испытаний, то отдельные события могут наступить более одного раза. Условимся считать новым любое из n разных событий при первом его появлении от начала испытаний. Тогда число наступивших разных событий будет равно числу новых событий.
Результаты испытаний можно представить на графике. Будем откладывать по оси абсцисс число произведенных испытаний Х, а по оси ординат – число наступивших при этом разных (новых) событий Y. Построенные таким образом точки для наглядности можно соединить отрезками прямых. В результате получим ломаную, которая будет представлять собой реализацию случайной функции Y(X).
Если же каждому числу испытаний Х поставить в соответствие неслучайную величину – математическое ожидание числа наступивших разных событий M[Y], которое является функцией вероятностей p1, p2,…, pn и числа испытаний Х, то таким же способом можно построить график математического ожидания случайной функции M[Y(X)], который также будет представлять собой ломаную.
Эту ломаную можно аппроксимировать непрерывной плавной кривой y=f(x), которую будем называть кривой роста новых событий.
Таким образом, кривая роста новых событий – это непрерывная кривая y=f(x), аппроксимирующая математическое ожидание случайной функции M[Y(X)].
Графическим изображением математического ожидания случайной функции является некоторая средняя линия, около которой располагаются возможные реализации случайной функции.
В качестве примеров случайных функций, принадлежащих рассматриваемому классу, можно привести статистические зависимости между следующими величинами:
– объемом выборки в словоупотреблениях и количеством разных слов (словоформ или лексем);
– количеством книговыдач и количеством разных наименований выданных книг;
– количеством пойманных особей мотыльков и количеством разных их видов (из числа попавших в ловушку);
– количеством отказов элементов некоторой системы (отказавший элемент сразу заменяется исправным) и количеством разных отказавших элементов;
– количеством цифр, взятых подряд из таблицы случайных чисел, и количеством разных отобранных цифр;
– количеством информационных запросов (с учетом их повторяемости) и количеством разных запросов;
– количеством поданных заявок на изобретения и количеством выданных авторских свидетельств и т.д.
Из приведенных примеров видно, что такого рода зависимости имеют место не только в математической лингвистике, но и в информатике, библиотечном деле, биологии, технике, математической статистике и т.д.
Отметим, что в опыте можно наблюдать лишь некоторую реализацию (траекторию) случайной функции. Ниже будут рассматриваться математическое ожидание случайной функции (во взаимосвязи с законом распределения вероятностей n разных событий, составляющих полную группу) и аппроксимирующая его кривая роста новых событий, которые на первом этапе исследований принимаются в качестве вероятностных моделей текста.