- •Часть 1. Конспекты лекций
- •Правила комбинаторики
- •Основные понятия комбинаторики
- •1.2. Основные понятия теории вероятностей
- •Начальные понятия теории вероятностей
- •Определения вероятности событий
- •Лекция 2. Основные теоремы теории вероятностей случайных событий
- •2.1. Действия над событиями
- •2.2. Вероятность суммы событий
- •Следствия из теоремы сложения
- •2.3. Вероятность произведения событий
- •2.4. Формула полной вероятности. Формула Байеса.
- •2.5. Теорема Бернулли
- •2.6. Предельные теоремы в схеме Бернулли.
- •3. Интегральная теорема Муавра-Лапласа
- •3.1. Начальные понятия
- •3.2. Функция распределения свх f(X) (интегральная функция распределения)
- •3.3. Функция плотности вероятности нсв f(X)
- •3.4. Числовые характеристики случайных величин
- •3.5. Виды законов распределения случайных величин
- •1. Биномиальный закон распределения
- •2. Закон Пуассона
- •3. Нормальное распределение (закон Гаусса)
- •4 .Логнормальное распределение
- •3.6. Вероятность попадания нсв х в заданный промежуток
- •4.1. Система двух дискретных случайных величин (двумерная дискретная св)
- •Начальные понятия.
- •Числовые характеристики системы двух св
- •4.2. Предельные теоремы теории вероятностей
- •Закон больших чисел
- •5.1.Предмет математической статистики. Генеральная и выборочная совокупность.
- •5.2. Статистическое распределение выборки и его графическое изображение
- •5.3. Числовые характеристики статистического распределения
- •6.1. Оценка параметров генеральной совокупности по выборке
- •Свойства статистических оценок
- •Точечные оценки математического ожидания, дисперсии и вероятности.
- •Интервальное оценивание параметров.
- •Доверительные интервалы для параметров нормального распределения
- •Интервальная оценка параметров генеральной лингвистической совокупности.
- •Число степеней свободы
- •Определение минимально достаточного объёма выборки в грамматических, фонетико-фонологических и лексикологических исследованиях.
- •6.2. Проверка статистических гипотез. Исследование вероятностных свойств языка и статистики текста с помощью метода гипотез
- •Проверка лингвистических гипотез с помощью параметрических критериев
- •Проверка гипотез с помощью непараметрических критериев
- •Критерий Пирсона
- •Часть 2. Вопросы и задания для практических работ.
- •1. Элементы комбинаторики
- •Часть 3. Задания для самостоятельной работы
- •1. Графический способ.
- •2. Критерий асимметрии и эксцесса.
- •3. Критерий Колмогорова-Смирнова.
- •4. Критерий Пирсона
- •Приложение 1.1. Значения интегральной функции Лапласа
- •2.Место модуля в структуре ооп:
- •3.Краткое содержание модуля тв и мс.
- •4. Компетенции обучающегося, формируемые в результате освоения модуля тв и мс дисциплины «Основы математической обработки информации»
- •5. Структура и содержание модуля тв и мс дисциплины «Основы математической обработки информации»
Часть 3. Задания для самостоятельной работы
Задание 1. Элементы комбинаторики.
Сколько 3-х буквенных серий для автомобильных номеров можно составить из 30 букв русского алфавита (исключая ь, ъ, й), если…а) буквы в серии различны, б) буквы в серии могут повторяться?
Каким числом способов можно выбрать 2 гласные буквы русского языка, если эти буквы…
а) различны; б) могут быть одинаковыми?
Сколько перестановок с повторениями можно составить из букв слова АНАГРАММА?
Сколькими способами можно рассадить персонажей басни И.А. Крылова «Квартет»?
Сколько 4-буквенных «слов» можно составить из букв слова «СЛОВАРЬ», если на первом месте в полученном «слове» должна стоять буква «С», а на последнем – «Ь», и все буквы в «слове» различны.
Дополнительные задания:
В шахматном турнире было сыграно 120 игр. Сколько было участников, если каждые 2 участника встречались между собой только 1 раз?
Сколько анаграмм (литературный приём, состоящий в перестановке букв или звуков определённого слова (или словосочетания), что в результате даёт другое слово или словосочетание) можно получить из букв слов «ГАГАГА», «ЯЗЫК», «МАТЕМАТИКА»?
*Сколько палиндромов (число, буквосочетание, слово или текст одинаково читающееся в обоих направлениях) можно получить из букв слов «ГАГАГА», «ЯЗЫК», «МАТЕМАТИКА»?
Начальные понятия теории вероятностей
9. В высказывании Карла Вейерштрасса «Нельзя быть настоящим математиком, не будучи немного поэтом» 8 слов.
а) Автомат случайным образом выбирает одно из слов высказывания. Найдите вероятность событий:
А=«выбрана частица НЕ»; В= «выбран глагол»; С=«выбрано имя существительное»; К= «выбран предлог»; М= «выбрано любое из 8 слов данного высказывания».
б) Автомат случайным образом выбирает два слова данного высказывания. Найдите вероятность событий:
D= «Оба выбранных слова начинаются с буквы Н»
Е=«Одно слово – глагол, а другое – имя существительное».
Задание 2:
Основные теоремы теории вероятностей.
Вероятность появления однородных членов в произведениях И.А. Гончарова равна 0,22, а в произведениях А.Н. Толстого – 0,12. Из сборников произведений И.А. Гончарова и А.Н. Толстого выбирается произвольно по предложению. Найти вероятность того, что… а) оба выбранных предложения будут содержать однородные члены; б) ни одно не будет содержать однородные члены; в) хотя бы одно из предложений будет содержать однородные члены.
Студент нашёл нужную информацию в одной из 7 книг, но забыл, в какой из них. Определить вероятность, что для повторного использования той же информации, ему придётся пересмотреть три книги.
В авторской художественной речи прозы К. Федина вероятность появления имён существительных равна 0,392, а прилагательных – 0,134. Выбираются два слова из произведения К. Федина. Какова вероятность событий: а) «оба слова относятся к одной части речи»; б) «выбранные слова относятся к разным частям речи».
Статистическая вероятность появления глагольных форм в молдавском публицистическом тексте равна 0,156. Найти вероятность того, что среди 5 наугад выбранных словоупотреблений из молдавского текста, глагольная форма встретится а) 2 раза; б) более 3 раз.
С целью обеспечения надежности корреспондент передает сообщение в редакцию двумя способами, каждый из которых может привести как к успеху, так и закончиться неудачно. Вероятность успешной передачи сообщения первым способом равна 0,9, при использовании второго – 0.8. В результате проведенных мероприятий редакция получила сообщение. Определить вероятность того, что передача редакции сообщения состоялось благодаря первому способу.
Задание 3 Случайные величины
Х |
-1 |
0 |
2 |
Р |
0,2 |
0,3 |
0,5 |
Вероятность появления буквы К в русских литературных текстах равна 0,128. Произвольно выбирают 3 буквы. Необходимо …
а) составить закон распределения случайной величины X – «число появлений буквы К»;
б) найти математическое ожидание М(Х) и дисперсию D(Х) этой случайной величины;
в) найти функцию распределения F(x) и построить её график.
Известно, что доля наречий в авторском повествовании и описании в художественной прозе равна 0,07. Найти вероятность того, что в отрывке текста, взятого из авторского повествования, длиной 250 словоформ: а) будет 2 наречия; б) менее двух наречий; в) не менее двух наречий.
Найти М(Х) и D(Х) случайной величины X - «число наречий в данном отрывке текста».
4) Случайная величина Х задана дифференциальной функцией распределения
а) По какому закону распределена случайная величина Х?
б) Определите М(Х), D(Х), σ(Х).
в) Постройте график , определив координаты не менее трёх точек графика.
г) Найдите вероятность попадания случайной величины X в интервалы (0; ∞) и (-4; 3).
Y |
0 |
1 |
Р |
0,7 |
0,3 |
Х |
0 |
1 |
Р |
0,1 |
0,9 |
Найдите закон распределения СВ Z=X+2Y.
Задание 4 Элементы математической статистики
В ходе исследования средних частот частей речи у русских писателей XIX-XX вв. (было взято 20 однородных фрагментов длиной 500 знаменательных слов из текстов каждого из 14 известных писателей), получены следующие данные о среднем числе наречий:
29;29;43;45;38;45;56;38;45;42;43;44;31;42.
1) Произведите первичную обработку данных:
а) представьте выборку в виде вариационного ряда;
б) определите моду, медиану и размах вариаций выборки;
в) постройте статистический ряд частот и относительных частот;
г) постройте полигон относительных частот;
д) найдите числовые характеристики статистического распределения: среднее выборочное, выборочную дисперсию, исправленную выборочную дисперсию, исправленное среднее квадратическое отклонение;
2) Предполагая, что частота употребления наречий во всех литературных произведениях распределена по нормальному закону, найдите по выборке 95% доверительный интервал для среднего числа употребления наречий (математического ожидания генеральной совокупности).
3) Сколько фрагментов текста необходимо обработать, чтобы относительная ошибка измерения среднего числа глаголов не превышала 5% с доверительной вероятностью 90%?
Лабораторные работы
Задание для студентов.
До начала лабораторных работ выполнить следующую внеаудиторную подготовительную работу.
Из произведения вашего любимого автора выбрать 30 фрагментов по 100 словоупотреблений и подсчитать количество глагольных форм, количество имён существительных и количество местоимений.
Выборки должны быть однородными, т.е. выбраны из художественного повествования автора, не должны включать диалогов персонажей и других стилевых отклонений.
Полученные 3 выборки объёмом 30 единиц каждая случайных величин Х-«Число глаголов в фрагменте из текста (автор) длиной 100 слов», Y-«Число имён существительных в фрагменте из текста (автор) длиной 100 слов», Z - «Число местоимений в фрагменте из текста (автор) длиной 100 слов», набрать в таблице Excel и сохранить в виде файла с Вашей фамилией.
Лабораторная работа №1
Первичная обработка лингвистической информации.
Цель: Овладеть навыком первичной обработки лингвистической информации, получения её числовых характеристик «вручную» и с помощью программы SPSS на компьютере.
Задание. Проведите первичную обработку полученных данных. Получите числовые характеристики (описательные статистики) полученного распределения (на занятии обрабатываются данные по количеству глаголов в указанных фрагментах, а данные по количеству местоимений и существительных обрабатываются самостоятельно).
1. Постройте интервальный статистический ряд :
xi |
[x0;x1) |
[x1;x2) |
… |
[xk-1;xk) |
ni |
n1 |
n2 |
… |
nk |
|
|
|
… |
|
ni -частота попадания значений выборки в i-тый интервал;
- относительная частота попадания в i-тый интервал.
Ширина каждого интервала разбиения равна h: .
Начало
первого интервала:
2.
Постройте
гистограмму относительных частот
(частостей). Высота прямоугольников
гистограммы вычисляется по формуле
Проведите кривую через середины вершин прямоугольников гистограммы (аналог графика функции f(x) плотности распределения сравнивается с графиком f(x) для нормального распределения).
3. Найдите середины интервалов и постройте соответствующий дискретный статистический ряд.
4. Для получившегося дискретного ряда определите:
а) среднее
выборочное
б) выборочную дисперсию ;
в) исправленную выборочную дисперсию ;
г)
исправленное среднее квадратическое
отклонение
;
д) асимметрию, стандартное отклонение асимметрии (вычислить только в программе SPSS);
е) эксцесс, стандартное отклонение эксцесса (вычислить только в программе SPSS).
Произведите вычисление всех описательных статистик на компьютере в программе SPSS.
Для решения приведённой задачи с использованием программы SPSS- необходимо выполнить следующие действия:
Открыть программу SPSS. Кнопки «Пуск», «Все программы», «SPSS statistics»
В меню File (Файл) выбрать Open (Открыть) > Data (Данные).
В открывшемся окне установить тип файла Excel (`*.xls;`*xlsx;`*xlsm) и выбрать файл с вашими данными.
Выбрать Analyze (Анализ) > Descriptive statistics (Описательные статистики) > Frequencies (частоты)…
В открывшемся диалоговом окне переместить Х в раздел ”Variable(s)”(переменные).
Открыть вкладку `Statistics ` «статистики».
Ставим флажок в квадратиках `Mean`(среднее),`Wariance`(дисперсия), `Std. deviation` (стандартное отклонение), Range (размах), `Kurtosis` (Асимметрия) и `Skewness` (Эксцесс), нажимаем `Continue` (продолжить).
Открыть вкладку Chats (диаграммы). Ставим флажок в квадратиках Histograms (гистограммы) и With normal curve (с нормальной кривой), нажимаем `Continue` (продолжить).
Снять флажок в квадратике Display frequency tables (выводить частотные таблицы), т.к. данные таблицы неинформативны.
Нажимаем OK
В полученном окне вывода получаем нужные описательные статистики, а также гистограмму частот с кривой нормального распределения.
Сравните статистики, полученные «вручную» и с помощью программы SPSS.
Сделайте вывод о приближённом соответствии распределения числа глаголов (существительных, местоимений) нормальному распределению.
Лабораторная работа №2
Проверка гипотезы о нормальности распределения глагольных форм в литературных текстах.
Цель: Приобрести навык формулирования статистических гипотез о виде распределения лингвистической совокупности, их проверки с помощью одного из критериев согласия «вручную» и с помощью программы SPSS.
Задание. Используя полученные при обработке текстов статистические данные о количестве глагольных форм (о количестве существительных, местоимений) и результаты выполнения Л.Р.№1, проверьте гипотезу о том, что рассматриваемая выборка произведена из нормально распределённой генеральной совокупности.
