- •Часть 1. Конспекты лекций
- •Правила комбинаторики
- •Основные понятия комбинаторики
- •1.2. Основные понятия теории вероятностей
- •Начальные понятия теории вероятностей
- •Определения вероятности событий
- •Лекция 2. Основные теоремы теории вероятностей случайных событий
- •2.1. Действия над событиями
- •2.2. Вероятность суммы событий
- •Следствия из теоремы сложения
- •2.3. Вероятность произведения событий
- •2.4. Формула полной вероятности. Формула Байеса.
- •2.5. Теорема Бернулли
- •2.6. Предельные теоремы в схеме Бернулли.
- •3. Интегральная теорема Муавра-Лапласа
- •3.1. Начальные понятия
- •3.2. Функция распределения свх f(X) (интегральная функция распределения)
- •3.3. Функция плотности вероятности нсв f(X)
- •3.4. Числовые характеристики случайных величин
- •3.5. Виды законов распределения случайных величин
- •1. Биномиальный закон распределения
- •2. Закон Пуассона
- •3. Нормальное распределение (закон Гаусса)
- •4 .Логнормальное распределение
- •3.6. Вероятность попадания нсв х в заданный промежуток
- •4.1. Система двух дискретных случайных величин (двумерная дискретная св)
- •Начальные понятия.
- •Числовые характеристики системы двух св
- •4.2. Предельные теоремы теории вероятностей
- •Закон больших чисел
- •5.1.Предмет математической статистики. Генеральная и выборочная совокупность.
- •5.2. Статистическое распределение выборки и его графическое изображение
- •5.3. Числовые характеристики статистического распределения
- •6.1. Оценка параметров генеральной совокупности по выборке
- •Свойства статистических оценок
- •Точечные оценки математического ожидания, дисперсии и вероятности.
- •Интервальное оценивание параметров.
- •Доверительные интервалы для параметров нормального распределения
- •Интервальная оценка параметров генеральной лингвистической совокупности.
- •Число степеней свободы
- •Определение минимально достаточного объёма выборки в грамматических, фонетико-фонологических и лексикологических исследованиях.
- •6.2. Проверка статистических гипотез. Исследование вероятностных свойств языка и статистики текста с помощью метода гипотез
- •Проверка лингвистических гипотез с помощью параметрических критериев
- •Проверка гипотез с помощью непараметрических критериев
- •Критерий Пирсона
- •Часть 2. Вопросы и задания для практических работ.
- •1. Элементы комбинаторики
- •Часть 3. Задания для самостоятельной работы
- •1. Графический способ.
- •2. Критерий асимметрии и эксцесса.
- •3. Критерий Колмогорова-Смирнова.
- •4. Критерий Пирсона
- •Приложение 1.1. Значения интегральной функции Лапласа
- •2.Место модуля в структуре ооп:
- •3.Краткое содержание модуля тв и мс.
- •4. Компетенции обучающегося, формируемые в результате освоения модуля тв и мс дисциплины «Основы математической обработки информации»
- •5. Структура и содержание модуля тв и мс дисциплины «Основы математической обработки информации»
5.1.Предмет математической статистики. Генеральная и выборочная совокупность.
Математическая статистика – раздел математики, который изучает способы отбора, группировки, систематизации и анализа результатов наблюдений случайных явлений для получения научно обоснованных выводов.
Методы математической статистики позволяют строить оптимальные математические модели массовых, повторяющихся явлений.
Предметом математической статистики являются математические методы обработки и анализа статистических данных.
Цель – получение сведений о некотором признаке всей совокупности по выбранной определённым образом части этой совокупности.
Математическая статистика возникла в середине XVIII века. в работах П. Лапласа, К Пирсона, Я. Бернулли. В XIX в. Развитию статистической методологии способствовали также труды английских учёных Ф. Гальтона, К. Пирсона, М. Митчела, В. Госсета.
Большой вклад в развитие математической статистики внесли русские учёные В.Я. Буняковский, П.Л. Чебышёв; А.А. Марков; А.М. Ляпунов, А.Н. Колмогоров; Б.В. Гнеденко и другие.
Генеральная совокупность – совокупность всех мыслимых результатов наблюдений некоторого признака всех изучаемых объектов (иногда – сами объекты). Частным случаем генеральной совокупности является случайная величина Х.
Выборка (выборочная совокупность) – совокупность результатов наблюдений, выбранных случайно из генеральной совокупности.
Так генеральной совокупностью может быть: рост всех людей, разряды всех рабочих завода, частота употребления определённой части речи во всех произведениях изучаемого автора, средний балл аттестата всех выпускников и т. п.
Выборкой может быть: рост 20 случайно выбранных студентов, количество глаголов в выбранных произвольно 50 однородных отрывках текста длиной 500 словоупотреблений, средний балл аттестата 100 выпускников, выбранных случайно из школ города и т.п.
Если исследуются произведения А.С. Пушкина, то генеральной совокупностью могут быть длины словоформ всех текстов, написанных А.С. Пушкиным, а выборкой – длины словоформ отдельного произведения, например, повести «Капитанская дочка».
Объём генеральной совокупности N - количество результатов наблюдений в генеральной совокупности.
Объём выборки n – число результатов наблюдений, выбранных случайно из генеральной совокупности.
Математическая статистика тесно связана с теорией вероятностей. Связующим звеном между теорией вероятностей и математической статистикой являются предельные теоремы теории вероятностей. В математической статистике по выборке необходимо установить неизвестное распределение вероятностей или объективно оценить параметры распределения генеральной совокупности.
В настоящее время методы математической статистики используются практически повсеместно.
Выборка называется репрезентативной, если она верно отражает свойство генеральной совокупности. Репрезентативность выборки достигается случайностью отбора, когда все объекты генеральной совокупности имеют одинаковую вероятность быть отобранными. Для того чтобы выборка была репрезентативной применяют различные способы отбора объектов изучения.
Виды отбора: простой, механический, серийный, типический.
Простой. Произвольно отбираются элементы из всей генеральной совокупности.
Механический. Выбирают каждый 10 (25, 30 и т.п.) объект из генеральной совокупности.
Серийный. Проводится исследование в каждой серии (например, из текста выбирают 10 отрывков по 500 словоупотреблений – 10 серий).
Типический. Генеральную совокупность по определённому признаку разделяют на типические группы. Количество серий, извлекаемых из каждой такой группы, определяется удельным весом этой группы в генеральной совокупности.
Б.Н. Головин посвятил организации статистического изучения языка и речи главу своего труда «Язык и статистика». [Головин, 1971, с.64].
Пусть лингвист выбирает из интересующего его текста несколько проб (фрагментов) определённой длины.
Какой длины должен быть каждый фрагмент?
Чем активнее интересующие нас факты языка, т.е. чем чаще они применяются, тем меньшие по длине фрагменты нужны, чтобы проступила изучаемая закономерность. Например, для того, чтобы обнаружилась закономерность количественной активности имени существительного в публицистическом тексте, длина одного фрагмента должна быть 100 или даже 50 знаменательных слов, но для того, чтобы уловить закономерность частотного функционирования отдельного слова (весна, день и т.д.) требуются фрагменты в несколько тысяч слов каждый. Для успешного статистического изучения многих явлений морфологии синтаксиса достаточно удобны фрагменты длиной 500 или даже 250 знаменательных слов (если изучаются части речи, члены предложения, а не предложения в целом) или в 250 или даже 100 самостоятельных предложений (если изучаются предложения в целом).
Какое число фрагментов из текста может обеспечить достаточно надёжные результаты?
При изучении морфологии и синтаксиса достаточно надёжные результаты можно получить, имея и 10 фрагментов по 500 знаменательных слов каждый. Конечно, увеличение числа фрагментов увеличит и надёжность результата, но иногда можно ограничиться и пятью – восемью фрагментами.
Нужно ли в выбранные фрагменты включать все слова текста, одно за другим, или же слова брать наугад?
Если лингвиста интересуют не только сами по себе частоты, но и условия функционирования изучаемых явлений и влияние этих условий на закономерности функционирования языковых элементов, - выбранные фрагменты должны включать сплошной текст.
Должны ли фрагменты включать по возможности однородный текст?
Конечно, фрагменты должны быть по возможности однородными. Неоднородность текста (жанровая, стилевая, содержательная) даст очень большие колебания частот, и тем самым не позволит экспериментатору обнаружить статистическую закономерность.
Например, изучая особенности художественной речи Л. Толстого, нецелесообразно брать один фрагмент из художественного повествования в «Войне и мире», другой - из диалога персонажей того же романа, третий – из рассказов для народа, а четвёртый– из философских раздумий писателя.
Любой фрагмент должен быть документирован исследователем, т.е. должны быть указаны его границы в тексте.
Предпочтительнее, когда все фрагменты имеют одинаковую длину, что существенно упрощает необходимую статистическую обработку данных, полученных в опыте.
