- •Часть1. Тематический план дисциплины
- •Часть 2. Конспекты лекций 8
- •Часть 3. Вопросы и задания для практических работ. 79
- •Часть 4. Задания для самостоятельной работы 92
- •Часть 5. Лабораторные работы 97
- •Часть1. Тематический план дисциплины «Основы математической обработки информации»
- •Часть 2. Конспекты лекций
- •1.1. Исторические периоды развития математики.
- •1.2. Основы теории множеств
- •1.2.1. Начальные понятия теории множеств.
- •2.1.3. Основные понятия комбинаторики
- •2) Перестановка из n элементов – это размещение из n элементов по n.
- •2.2. Начальные понятия теории вероятностей
- •2.2.2. Определения вероятности событий
- •3.1. Действия над событиями
- •3.2. Вероятность суммы событий
- •3.3. Вероятность произведения событий.
- •3.4. Вычисление вероятности цепочек языковых элементов.
- •3.5. Формула полной вероятности. Формула Байеса.
- •1 H2) Формула полной вероятности.
- •3.6. Теорема Бернулли
- •3.7. Вероятностное моделирование порождения текста.
- •3.8. Предельные теоремы в схеме Бернулли
- •4.1. Случайная величина (св). Начальные понятия.
- •4.2. Функция распределения св (интегральная функция распределения) f(X)
- •4.3. Функция плотности вероятности нсв f(X)
- •4.4. Числовые характеристики св
- •4.5. Законы распределения случайных величин.
- •1) Биномиальный закон распределения.
- •2) Закон Пуассона
- •3) Нормальное распределение (закон Гаусса)
- •6. Вероятность попадания нсв х в заданный промежуток
- •7. Логнормальное распределение
- •5.1. Система двух случайных величин (двумерная св) (1 час)
- •5.1.1. Начальные понятия.
- •5.1.2. Операции над независимыми случайными величинами
- •5.1.3. Числовые характеристики системы двух св
- •5.2. Предельные теоремы теории вероятностей: Закон больших чисел, Центральная предельная теорема и их значение для лингвистического эксперимента.(1 час)
- •5.2.1. Теорема Чебышева для среднего арифметического случайных величин.
- •6.1. Предмет математической статистики. Генеральная и выборочная совокупность.
- •6.2. Статистическое распределение выборки и его графическое изображение
- •6.2.1. Дискретный статистический ряд
- •6.2.2. Интервальный статистический ряд
- •6.3. Числовые характеристики статистического распределения
- •Лекция 7. Элементы теории статистических оценок и проверки гипотез.
- •7.1 Статистические оценки параметров распределения и их свойства. Оценка параметров генеральной совокупности по выборке
- •7.1.1. Свойства статистических оценок:
- •7.1.2. Точечные оценки математического ожидания, дисперсии и вероятности.
- •7.1.3. Интервальное оценивание параметров.
- •7.1.4. Доверительные интервалы для параметров нормального распределения
- •7.1.5. Число степеней свободы
- •7.1.7. Определение минимально достаточного объёма выборки в грамматических, фонетико-фонологических и лексикологических исследованиях.
- •7.2. Проверка статистических гипотез. Исследование вероятностных свойств языка и статистики текста с помощью метода гипотез.
- •7.2. Проверка статистических гипотез.
- •7.2.1. Статистические гипотезы.
- •7.2.2. Статистический критерий
- •4.2.3. Принцип проверки статистических гипотез
- •7.2.4. Ошибки при проверке гипотез
- •7.2.5. Проверка лингвистических гипотез с помощью параметрических критериев.
- •7.2.6. Проверка гипотез с помощью непараметрических критериев.
- •Часть 3. Вопросы и задания для практических работ.
- •I. Элементы комбинаторики.
- •Часть 4. Задания для самостоятельной работы
- •1. Графический способ.
- •2. Критерий асимметрии и эксцесса.
- •3. Критерий Колмогорова-Смирнова.
- •4. Критерий Пирсона
- •Приложение 1. Значения интегральной функции Лапласа
- •Приложение 2. Критические значения ( распределение Пирсона)
6.2. Статистическое распределение выборки и его графическое изображение
Пусть изучается СВ Х (генеральная совокупность) относительно некоторого признака. Проводится ряд независимых испытаний. В результате опытов СВ Х принимает некоторые значения. Совокупность полученных значений представляет собой выборку, а сами значения являются статистическими данными.
Первоначально проводят ранжирование выборки - расположение статистических данных выборки по неубыванию. Получаем вариационный ряд.
Вариационный ряд - проранжированная выборка.
6.2.1. Дискретный статистический ряд
Если генеральная совокупность является дискретной СВ, строится дискретный статистический ряд (статистическое распределение).
Пусть значение появилось в выборке раз,
- разa , …, - раз.
- i-тая варианта выборки; - частота i-той варианты Частота показывает, сколько раз данная варианта появилась в выборке.
- относительная частота i-той варианты
(показывает какую часть выборки составляет ).
Статистическое распределение – это соответствие между вариантами выборки и их частотами или относительными частотами.
Для ДСВ статистическое распределение можно представить в виде таблицы – статистического ряда частот или статистического ряда относительных частот.
Статистический ряд частот Статистический ряд
относительных частот
|
|
|
........ |
|
|
|
........ |
|
-
........
........
Полигон частот (относительных частот) – графическое изображение дискретного статистического ряда - ломаная линия, последовательно соединяющая точки [ для полигона относительных частот].
xi
Задача1. Исследуется длина словоупотреблений в прозе Зинаиды Гиппиус. Произвольно выбран отрывок текста длиной 10 слов и подсчитано количество букв. Получены следующие данные: 1,3,2,5,1,8,6,7,7,1. Представить выборку в виде вариационного ряда, построить статистический ряд частот и относительных частот, изобразить полигон относительных частот для полученного ряда.
6.2.2. Интервальный статистический ряд
Если генеральная совокупность является непрерывной СВ. (значения выборки практически не повторяются, частота почти каждой варианты равна единице), то строится интервальный статистический ряд вида:
|
… | |||
… | ||||
… |
- относительная частота попадания в i-тый интервал.
Оптимальная ширина интервалаh определяется по формуле Стерджеса: , начало первого интервала:
Графическое изображение интервального статистического ряда – гистограмма частот или относительных частот – совокупность прямоугольников с основанием равнымh и высотой / h для гистограммы частот или / h для гистограммы относительных частот.
Задача 2:
В ходе исследования длины китайского слога произведено 50 замеров времени звучания слогов, произнесённых дикторами-китайцами, причём длины слогов колеблются от 40 до 300мс, практически не повторяясь:
73 |
117 |
40 |
211 |
191 |
129 |
136 |
150 |
167 |
142 |
178 |
138 |
156 |
210 |
93 |
137 |
149 |
180 |
212 |
141 |
125 |
106 |
138 |
115 |
123 |
102 |
89 |
153 |
180 |
75 |
131 |
125 |
148 |
110 |
198 |
222 |
128 |
107 |
127 |
100 |
57 |
243 |
163 |
160 |
300 |
218 |
179 |
264 |
115 |
183 |
Таблица 1
Построить интервальный статистический ряд по приведённым данным. Изобразить гистограмму относительных частот полученного распределения.