- •В.В. Нешитой
- •Введение
- •1. Основные понятия теории вероятностей и математической статистики
- •1.1. Случайные события. Испытания. Относительная частота и вероятность
- •1.2. Виды случайных событий
- •1.3. Определения вероятности
- •1.4. Основные формулы комбинаторики
- •1.5. Теорема сложения вероятностей (несовместных событий)
- •1.6. Теорема умножения вероятностей (независимых событий)
- •1.7. Закон распределения дискретной случайной величины
- •1.8. Числовые характеристики дискретной случайной величины
- •1.8.1. Математическое ожидание
- •1.8.2. Свойства математического ожидания
- •1.8.3. Дисперсия дискретной случайной величины
- •1.8.4. Свойства дисперсии
- •1.8.5. Среднее квадратическое отклонение
- •1.8.6. Одинаково распределенные взаимно независимые случайные величины
- •1.8.7. Моменты (начальные, центральные) дискретной случайной величины
- •1.10.2. Плотность распределения
- •1.11. Числовые характеристики непрерывных случайных величин
- •1.12. Примеры непрерывных распределений
- •1.12.1. Нормальный закон
- •1.12.2. Показательный закон
- •1.12.3. Закон Вейбулла
- •1.13. Элементы математической статистики
- •1.13.1. Генеральная и выборочная совокупности. Вариационный ряд. Характеристики вариационного ряда
- •1.13.2. Статистическое распределение выборки. Полигон. Гистограмма. Эмпирическая функция распределения
- •1.13.3. Статистические оценки параметров. Точность оценки, доверительная вероятность (надежность)
- •1.13.4. Метод моментов для точечной оценки параметров распределения
- •1.13.5. Метод наибольшего правдоподобия
- •2. Вероятностная модель текста и ее исследование
- •2.1. Понятие математического ожидания случайной функции, нового события и кривой роста новых событий
- •2.2. Математическое ожидание случайной функции и кривая роста новых событий. Связь с законами распределения вероятностей разных и новых событий
- •2.3. Установление статистической структуры выборки по кривой роста новых событий
- •2.4. Восстановление кривой роста новых событий по статистической структуре выборки
- •2.5. Построение систем кривых роста и непрерывных распределений новых событий
- •Построение систем кривых роста и непрерывных распределений новых событий
- •3. Обобщенные распределения. Системы непрерывных распределений
- •3.1. Методы построения обобщенных распределений
- •3.2. Построение системы непрерывных распределений методом обобщения
- •3.3. Классификация обобщенных распределений
- •Распределения группы а
- •Распределения группы б
- •Группа симметричных распределений
- •3.4. Распределения функций случайного аргумента
- •3.5. Три основные и три дополнительные системы непрерывных распределений в.Нешитого
- •3.6. Обобщение систем непрерывных распределений
- •3.6.1. Обобщение систем непрерывных распределений по первому варианту
- •Обобщение систем непрерывных распределений по первому варианту на базе четырехпараметрической плотности p(t)
- •3.6.2. Обобщение систем непрерывных распределений по второму варианту
- •Обобщение систем непрерывных распределений по второму варианту на базе четырехпараметрической плотности p(t)
- •4. Оценивание параметров обобщенных распределений. Критерии для классификации кривых. Центральная предельная теорема
- •4.1. Метод наименьших квадратов
- •Значение функции распределения f(tc)
- •4.2. Метод наибольшего правдоподобия
- •4.3. Классический метод моментов
- •4.3.3. Симметричные распределения Ic–iiIc типов
- •4.3.4. Критерии для классификации распределений по методу моментов
- •4.4. Универсальный метод моментов
- •4.4.1. Расширение трех систем непрерывных распределений
- •4.4.2. Законы распределения суммы независимых случайных величин
- •4.4.3. Центральная предельная теорема для трех систем непрерывных распределений
- •4.4.4. Законы распределения среднего выборочного
- •4.5. Устойчивый метод
- •5. Выравнивание и прогнозирование статистических распределений
- •5.1. Выбор системы непрерывных распределений для выравнивания статистических распределений
- •5.2. Вычисление выравнивающей кривой распределения по статистическим данным
- •5.2.1. Выравнивание по классическому методу моментов
- •5.2.2. Выравнивание по универсальному методу моментов
- •5.2.3. Выравнивание по устойчивому методу
- •Показатели статистического распределения (snr2v08a)
- •Распределение 3-го типа с параметрами
- •5.2.5. Выравнивающее распределение среднего выборочного
- •5.3. Прогнозирование распределений
- •5.3.1. Первая система непрерывных распределений
- •5.3.2. Вторая система непрерывных распределений
- •Распределение населения страны по среднедушевому совокупному доходу, в % к итогу (Расчет по данным обследования 90 тыс. Семейных бюджетов)
- •5.3.3. Показатели стабильности и качества выборки
- •5.4. Ранговые распределения
- •5.4.1. Форма представления ранговых распределений
- •5.4.2 Универсальный закон рассеяния публикаций
- •5.5.3. Универсальный закон старения публикаций
- •5.4.4. Ранговые распределения лексических единиц
- •6. Временные (динамические) ряды
- •6.1. Методы выделения тренда
- •6.2. Построение кривых роста для выравнивания временных рядов
- •6.2.1. Построение кривых роста с заданными свойствами
- •6.2.2. Метод обобщения
- •6.2.3. Кривые роста на базе обобщенных распределений
- •6.3. Оценивание параметров кривых роста
- •6.3.1. Уравнение прямой
- •6.3.2. Экспонента
- •6.3.3. Обобщенная кривая роста
- •6.4. Прогнозирование временных рядов
- •6.4.1. Параметрический метод прогнозирования
- •6.4.2. Непараметрический метод прогнозирования
- •Заключение
- •Приложения Приложение 1
- •Приложение 2
- •Приложение 5 Основные сведения о программах
- •Литература
- •Содержание
- •Математико-статистические
- •Методы анализа
- •В библиотечно-информационной
- •Деятельности
5.4. Ранговые распределения
Статистические данные, полученные в результате наблюдения, представляют собой простой статистический ряд. Чтобы извлечь из этого ряда информацию, его упорядочивают либо по возрастанию значений случайной величины, либо по убыванию. В обоих случаях получим вариационный (ранжированный) ряд.
Статистические распределения, в том числе ранговые, широко используются в научных исследованиях. Анализ этих распределений позволяет ученым совершать открытия. Так, в физике была введена постоянная М.Планка, в химии Д.И.Менделеевым построена периодическая система элементов, в информатике С.Бредфордом сформулирован закон рассеяния публикаций по периодическим изданиям.
При ранжировании статистических данных открываются возможности извлечения новой информации, изучения структуры выборки, вычисления различных показателей, наиболее полно характеризующих исследуемую случайную величину.
Наличие обобщенных распределений для описания статистических вариационных рядов открывает перед исследователем новые перспективы.
Ранговые распределения находят широкое применение в информатике, математической лингвистике, социологии, библиотечном деле и других отраслях знания.
Рассмотрим, например, частотный словарь. В таком словаре разные слова упорядочены по убыванию (точнее, по невозрастанию) частоты их употребления в текстах, на базе которых построен словарь. Порядковый номер слова и есть его ранг.
В качестве другого примера можно привести ранговое распределение журналов по некоторой отрасли знания (например, по химии и химической технологии), упорядоченных по убыванию числа помещенных в них статей по заданному предмету.
Для описания ранжированных рядов необходимо использовать такие теоретические распределения, которые обладают теми же свойствами, что и ранжированные ряды. Спрашивается, откуда взять распределения, пригодные для выравнивания статистических ранговых распределений? Чтобы решить эту проблему, необходимо либо разработать теорию ранговых распределений, либо использовать ранее построенные обобщенные распределения. Среди множества частных случаев этих распределений найдутся такие, которые с достаточной точностью могут описывать статистические ранговые распределения.
5.4.1. Форма представления ранговых распределений
Статистическое ранговое распределение можно представить в виде обычной гистограммы, которую можно аппроксимировать непрерывной убывающей кривой распределения. Для большей наглядности статистического рангового распределения строят график зависимости , гдеpr – относительная частота слова частотного словаря с рангом r или доля статей по заданному предмету в журнале с рангом r.
Однако принятая форма представления ранговых распределений несет слишком мало информации о статистическом распределении. На таком графике колебания частот мало заметны, поскольку последние изображены в логарифмическом масштабе. Кроме того, такое преобразование кривой распределения не имеет вероятностного смысла.
В связи с вышесказанным целесообразно перейти к другой форме представления ранговых распределений, а именно, rpr = f(lnr) [17]. По оси ординат будем откладывать произведение ранга слова (журнала) на его относительную частоту (или долю статей), а по оси абсцисс – натуральный логарифм ранга.
График зависимости rpr = f(lnr) имеет принципиальные преимущества перед традиционной формой представления ранговых распределений. Во-первых, он описывается первой системой непрерывных распределений (плотностью p(x)). В данном случае rpr = p(x); lnr = x. Во-вторых, на такой кривой видны колебания самих частот (по оси ординат), а не их логарифмов. В-третьих, статистические ранговые распределения однородных случайных величин имеют одновершинную кривую распределения (этим свойством обладает обобщенная плотность p(x) при u<1). Это позволяет устанавливать однородность или неоднородность статистических ранговых распределений, выделять неоднородную часть, а также решать другие задачи [14, 17].