
- •Тематический план курса
- •Содержание курса
- •Раздел I. Кривая роста новых событий и её исследование Тема 1. Построение кривой роста новых событий и её исследование
- •Тема 6. Универсальный метод моментов
- •Тема 7. Общий устойчивый метод оценивания параметров
- •Тема 8. Ранговые распределения в библиотечно-информационной деятельности
- •Тема 9. Исследование статистической структуры выборки с помощью ранговых распределений
- •Тема 10. Применение систем непрерывных распределений в информатике и лингвистике
- •Тема 11. Построение системы дискретных распределений
- •Тема 12. Оценивание параметров дискретных распределений. Расчёт и прогнозирование частотного спектра
- •Раздел IV. Система кривых роста
- •Тема 13. Статистический анализ текста с помощью кривых роста
- •Вопросы к зачёту
- •I. Кривая роста новых событий и её исследование
- •II. Системы непрерывных распределений
- •III. Система дискретных распределений
- •IV. Система кривых роста
- •Список литературы
- •Самостоятельная работа студентов
- •К теме 1. Построение кривой роста новых событий и её исследование
- •Контрольная работа
Тема 12. Оценивание параметров дискретных распределений. Расчёт и прогнозирование частотного спектра
Порядок установления типа выравнивающего распределения и нахождения оценок параметров.
Критерий степени неравномерности появления событий.
Ранжирование слов по степени семантической нагрузки.
Прогнозирование кривых роста новых лексических единиц и частотного спектра.
Расчёт достоверной части частотного словаря на выборке заданного объёма.
Практические занятия
По статистическим распределениям слов в подвыборках одинакового объёма установить тип выравнивающих дискретных распределений, найти оценки параметров и ранжировать слова по степени семантической нагрузки.
Установить по статистическому ранговому распределению тип выравнивающего дискретного распределения, найти оценки параметров.
Рассчитать достоверную часть частотного словаря при заданном объёме текста и заданной минимальной частоте слова в частотном словаре.
Раздел IV. Система кривых роста
Тема 13. Статистический анализ текста с помощью кривых роста
Кривые роста новых слов в выборке и связном тексте. Оценивание параметров.
Оценка степени аналитичности языка.
Оценка степени связности слов в лексически однородном тексте.
Оценка лексической близости двух связных текстов. Автоматическая классификация текстов.
Определение полноты словаря.
Практические занятия
По статистической зависимости объёма словаря от объёма выборки найти выравнивающую кривую роста новых слов и вычислить оценки её параметров.
По статистическим данным вычислить показатели: степени аналитичности языка; степени связности слов; полноты словаря.
Вопросы к зачёту
I. Кривая роста новых событий и её исследование
Понятие математического ожидания случайной функции, нового события и кривой роста новых событий.
Связь кривой роста с законами распределения вероятностей разных и новых событий.
Формула В.М.Калинина для расчёта статистической структуры выборки по кривой роста новых событий.
Формула В.М.Калинина для восстановления кривой роста новых событий по статистической структуре выборки.
Порядок построения системы кривых роста и непрерывных распределений новых событий.
II. Системы непрерывных распределений
Методы построения универсальных (обобщённых) непрерывных распределений.
Семейство кривых К.Пирсона.
Три системы непрерывных распределений В.Нешитого.
Распределения групп А и Б.
Классификация распределений.
Ранговые распределения. Закон Ципфа в семействе ранговых распределений.
Характерные точки кривых распределения и связь их с законами рассеяния публикаций.
Методы оценивания параметров: метод моментов, метод наибольшего правдоподобия, метод наименьших квадратов, общий устойчивый метод.
Применение системы непрерывных распределений в информатике и лингвистике.
Универсальные законы рассеяния и старения публикаций.
III. Система дискретных распределений
Методы построения системы дискретных распределений.
Классификация дискретных распределений.
Порядок установления типа выравнивающего дискретного распределения и нахождения оценок параметров.
Критерий степени неравномерности появления событий.
Прогнозирование кривой роста новых событий и частотного спектра.
Расчёт достоверной части частотного словаря.