
- •Авторы-составители:
- •1.Цели и задачи дисциплины
- •1). Цель, задачи, структура дисциплины и ее место в учебном процессе.
- •Требования к уровню освоения содержания дисциплины
- •Объем дисциплины Объем дисциплины и виды учебной работы Распределение часов по темам и видам учебной работы
- •4. Содержание курса
- •1. Основные понятия, определения и теоремы теории вероятностей* Введение
- •1.1. Алгебра событий. Основые понятия теории множеств
- •1.2. Основные определения: испытание, событие. Классификация событий
- •1.3. Классическое определение вероятности. Свойства, вытекающие из этого определения
- •Значение вероятности
- •1.4. Основные теоремы теории вероятностей
- •1.5. Зависимые и независимые события
- •2. Формула полной вероятности и формула Бейеса
- •2.1. Формула полной вероятности
- •3. Случайные величины
- •3.1. Дискретные случайные величины
- •Ряд распределения случайной величины X
- •3.4. Ожидаемое среднее значение дискретной случайной величины
- •Вычисление математического ожидания числа рекламных
- •3.5. Свойства математического ожидания случайной дискретной величины
- •Возможные исходы лотереи
- •3.6. Ожидаемое среднее значение функции случайной величины
- •Ряд распределения числа месячных продаж
- •К вычислению среднего ожидаемого значения
- •3.7. Дисперсия дискретной случайной величины
- •К вычислению дисперсии случайной величины
- •3.9. Дисперсия линейной функции случайной величины
- •4. Законы распределения дискретных случайных величин
- •Формула Бернулли. Биномиальные вероятности
- •4.3. Биномиальный закон распределения
- •Биномиальное распределение
- •Биномиальное распределение X – числа гербов, появляющихся
- •Фрагмент таблиц ряда и функции биномиального распределения
- •Биномиальное распределение числа покупателей
- •Распределения
- •4.5. Распределение Пуассона
- •Закон распределения Пуассона
- •Сравнение вероятностей, полученных по формулам Бернулли и Пуассона
- •4.6. Гипергеометрическое распределение
- •Гипергеометрический закон распределения
- •Биномиальный закон распределения
- •Гипергеометрическое распределение
- •4.7. Производящая функция
- •4.8. Мультиномиальное распределение
- •4.9. Геометрическое распределение
- •5. Непрерывные случайные величины
- •6. Законы распределения непрерывных случайных величин
- •7. Закон больших чисел
- •7.1. Принцип практической уверенности. Формулировка закона больших чисел
- •7.2. Неравенства Маркова и Чебышева
- •Выражения (7.1–7.2) справедливы для дискретных и непрерывных случайных величин.
- •7.4. Теорема Бернулли
- •7.5. Теорема Пуассона
- •Контрольные задания по курсу теории вероятностей Вариант 1
- •Вариант 2
- •Вариант 3
- •Вариант 4
- •Вариант 5
- •Вариант 6
- •Вариант 7
- •Вариант 8
- •Вариант 9
- •Вариант 10
- •Вариант 11
- •Вариант 12
- •Вариант 13
- •Вариант 14
- •Вариант 15
- •Вариант 16
- •Вариант 17
- •Вариант 18
- •Вариант 19
- •Вариант 20
- •Вариант 21
- •Вариант 22
- •Вариант 23
- •Вариант 24
- •Вариант 25
- •Вариант 26
- •Вариант 27
- •Вариант 28
- •Вариант 29
- •Вариант 30
- •Вариант 31
- •Вариант 32
- •Вариант 33
- •Вариант 34
- •Вариант 35
- •Вариант 36
- •Вариант 37
- •Вариант 38
- •Вариант 39
- •Вариант 40
- •Математическая статистика Теория вероятностей и математическая статистика – основной инструментарий для прикладной статистики
- •Дисперсией случайной величины х называется число dx , равное математическому ожиданию квадрата отклонения случайной величины от своего математического ожидания: . (1.4)
- •Контрольные вопросы и задачи
- •Статистическое оценивание
- •Интервальная оценка для генеральной доли
- •Контрольные вопросы и задачи
- •Тема 3. Статистическая проверка гипотез
- •Общая логическая схема статистического критерия.
- •Проверка гипотезы о значении генеральной средней
- •Проверка гипотезы о значении дисперсии генеральной совокупности
- •Сравнение наблюдаемой относительной частоты с гипотетической вероятностью появления события
- •Гипотеза об однородности рада вероятностей
- •Гипотезы о виде законов распределения генеральной совокупности
- •Контрольные вопросы и задачи
- •Тема 4. Методика статистического анализа количественных и качественных показателей
- •Контрольные вопросы и задачи
- •Тема 5. Многомерные статистические методы
- •Темы практических и семинарских занятий, тематических дискуссий
- •Задания для самостоятельной работы студентов
- •1.Методы анализов рядов динамики. Особенности моделирования рядов динамики с помощью корреляционного - регрессионного анализа
- •2. Понятие о закономерности распределения. Изучение формы распределения
- •3. Матрицы и таблицы сопряженности
- •4.Понятие о статистическом графике. Элементы статистического графика
- •5. Классификация видов графика: диаграммы сравнения, структурные диаграммы и диаграммы динамиков. Статистические карты
- •6. Условия типичности средних величин
- •7. Понятие малой выборки и методы расчета ее средней ошибки
- •8. Основные направления применения выборочного наблюдения в социально-экономических исследованиях
- •9. Взаимосвязи социально-экономических явлений и процессов, задачи их статического изучения.
- •10. Роль качественного анализа в исследовании связей
- •11. Основные статистические методы изучения связей в торговле и сфере услуг: метод параллельных данных, метод аналитических группировок, графический метод, балансовый метод.
- •12.Применение дисперсионного анализа в экономико-статистических исследованиях
- •13. Регрессионное уравнение как форма аналитического выражения статистических связей
- •14. Способы отбора факторных признаков при построении регрессионных моделей
- •15. Оценка результатов корреляционно-регрессионного анализа
- •7.Темы курсовых/контрольных работ/рефератов Варианты контрольных работ для студентов заочной формы обучения всех специальностей Вариант первый
- •Вариант второй
- •Вариант третий
- •Вариант четвертый
- •Вариант пятый
- •Вариант шестой
- •Вариант седьмой
- •Учебно-методическое обеспечение Литература:
- •16. Елисеева и.И., Юзбашев м.М. – Общая теория статистики. Учебник - м.: Финансы и статистика, 2005. Материально-техническое и информационное обеспечение дисциплин
Контрольные вопросы и задачи
4.1. На основании выборочных данных о производительности труда (Y) и средней загрузки мощностей (Х), полученных с однотипных предприятий (табл.1) а) найдите точечную оценку коэффициента корреляции между Х и Y; б) на уровне значимости =0.05 проверьте значимость коэффициента корреляции и в) найдите его интервальную оценку при =0.95.
Х |
30 |
35 |
26 |
34 |
24 |
41 |
32 |
36 |
40 |
37 |
Y |
47 |
60 |
45 |
55 |
40 |
49 |
51 |
55 |
55 |
59 |
4.2.
На основании полученной выборки n=30
для трех показателей Х, Y
и Z
рассчитаны парные коэффициенты
корреляции:
=0.91,
=0.65
=0.74.
Рассчитайте частные коэффициенты
корреляции, проверьте их значимость
(
=0.05)
и постройте для значимых коэффициентов
доверительные интервалы (
=0.95).
4.3. По данным задачи 4.2 рассчитайте множественные коэффициенты корреляции, множественные коэффициенты детерминации и проверьте их значимость.
4.4. Знания десяти студентов проверены по двум тестам: А и В. Оценки по стобалльной системе приведены в таблице 2.
А |
98 |
94 |
88 |
80 |
76 |
70 |
63 |
61 |
60 |
58 |
В |
99 |
91 |
93 |
74 |
78 |
65 |
64 |
66 |
52 |
53 |
Найдите выборочный коэффициент ранговой корреляции Спирмена между оценками по двум тестам и проверьте его значимость.
4.5.
По данным задачи 4.1 постройте уравнение
регрессии зависимости производительности
труда (Y)
от средней загрузки мощностей (Х),
проверьте значимость уравнения, постройте
интервальную оценку для коэффициента
регрессии
.
4.6.
Дано уравнение регрессии
и
несмещенные оценки дисперсии
коэффициентов регрессии
и
:
=0.0028
и
=2.24.
На уровне значимости
=0.05
проверьте значимость коэффициентов
регрессии
и
,
если n=10.
4.7.
Исследуется
зависимость между средней урожайностью
Х (ц/га) и средней себестоимостью 1 ц (Y).
Известно, что
=30
ц/га ,
=
16 ц,
=10.1,
=4.24,
=0.21.
Рассчитайте коэффициент эластичности
и коэффициент
.
Тема 5. Многомерные статистические методы
Многомерный
статистический анализ – раздел
математической статистики, посвященный
математическим методам построения
оптимальных планов сбора, систематизации
и обработки многомерных статистических
данных, направленным на выявление
характера и структуры взаимосвязей
между компонентами исследуемого
многомерного признака и предназначенным
для получения научных и практических
выводов. Под многомерным признаком
понимается р-мерный
вектор
признаков
,
среди которых могут быть количественные,
порядковые и классификационные.
Результаты измерения этих показателей
на каждом из n
объектов исследуемой совокупности
образуют последовательность многомерных
наблюдений, или исходный массив
многомерных данных для проведения
многомерного статистического анализа.
В рамках многомерного статистического
анализа многомерный признак х
интерпретируется как многомерная
случайная величина, и соответственно,
последовательность многомерных
наблюдений как выборка из генеральной
совокупности.
К основным методам многомерного статистического анализа можно отнести кластерный анализ, дискриминантный анализ, компонентный анализ, факторный анализ и метод канонических корреляций. Данные методы имеют достаточно сложный математический аппарат и обычно являются частью статистических пакетов прикладных программ.
Кластерный анализ – это совокупность методов классификации многомерных наблюдений или объектов, основанных на определении понятия расстояния между объектами с последующим выделением из них групп, «сгустков» наблюдений (кластеров, таксонов). При этом не требуется априорной информации о распределении генеральной совокупности. Выбор конкретного метода кластерного анализа зависит от цели классификации. Кластерный анализ используется при исследовании структуры совокупностей социально-экономических показателей или объектов: предприятий, регионов, социологических анкет и т.д.
От матрицы исходных
данных
(5.1)
переходим
к матрице нормированных значений Z
c
элементами
,
(5.2)
где j =1,2,…,k – номер показателя, i=1,2,…,n – номер наблюдения;
=
=
.
(5.3)
В качестве расстояния
между двумя наблюдениями
и
используют «взвешенное» евклидово
расстояние, определяемое по формуле:
,
где
-«вес»
показателя;
.
Если =1 для всех l=1,2,.k, то получаем обычное евклидово расстояние:
(5.4)
Полученные значения удобно представить в виде матрицы расстояний
(5.5)
Так как матрица R
симметрическая, т.е.
,
то достаточно ограничиться записью
наддиагональных элементов матрицы.
Используя матрицу расстояний, можно реализовать агломеративную иерархическую процедуру кластерного анализа. Расстояния между кластерами определяют по принципу «ближайшего соседа» или «дальнего соседа». В первом случае за расстояние между кластерами принимают расстояние между ближайшими элементами этих кластеров, а во втором- между наиболее удаленными друг от друга.
Принцип
работы иерархических агломеративных
процедур состоит в последовательном
объединении групп элементов сначала
самых близких, а затем все более отдаленных
друг от друга. На первом шаге алгоритма
каждое наблюдение
,
, рассматривается как отдельный кластер.
В дальнейшем на каждом шаге работы
алгоритма происходит объединение двух
самых близких кластеров, и вновь строится
матрица расстояний, размерность которой
снижается на единицу.
Компонентный анализ предназначен для преобразования системы k исходных признаков в систему k новых показателей (главных компонент). Главные компоненты не коррелированны между собой и упорядочены по величине их дисперсий, причем первая главная компонента имеет наибольшую дисперсию, а последняя, k – я, - наименьшую.
В задачах снижения
размерности и классификации обычно
используется m
первых компонент (
).
При наличии результативного показателя
Y
может быть построено уравнение регрессии
на главных компонентах.
Для простоты изложения алгоритма ограничимся случаем трех переменных.
На основании матрицы исходных данных
,
(5.6)
вычисляем оценки
параметров распределения трехмерной
генеральной совокупности
,
,
,
где
=
;
;
;
.
(5.7)
Получаем
оценку матрицы парных коэффициентов
корреляции:
.
Преобразуем матрицу
R
в диагональную
матрицу
собственных
значений характеристического многочлена
.
Характеристический многочлен имеет вид
=
=
,
(5.8)
где E – единичная матрица.
Приняв
,
получим неполное кубическое уравнение
,
(5.9)
где
,
.
Решая это уравнение
и учитывая выполнение неравенства
<0,
получим:
,
,
(5.10)
где
. (5.11)
Отсюда получаем
собственные значения
,
причем
и матрицу собственных значений
.
(5.12)
Собственные
значения характеризуют вклады
соответствующих главных компонент в
суммарную дисперсию исходных признаков
.
Таким образом, первая главная компонента
оказывает наибольшее влияние на общую
вариацию, а третья – наименьшее. При
этом должно выполняться равенство
.
Вклад l-й
главной компоненты в суммарную дисперсию
определяется по формуле
.
Найдем
теперь матрицу преобразования V
- ортогональную матрицу, составленную
из собственных векторов матрицы R.
Собственный вектор
,
отвечающий собственному числу
,
находим как отличное от нуля решение
уравнения
.
Так как определитель
=0,
то можно считать, что третья строка есть
линейная комбинация первых двух строк.
Составим два уравнения
(5.13)
Примем
и получим решение системы двух уравнений
с двумя неизвестными.
(5.14)
Тогда окончательно
собственный вектор
имеет
вид
для
j=1,2,3.
(5.15)
Находим норму
вектора
.
Тогда матрица V,
составленная из нормированных векторов
,
(5.16)
имеет вид
(5.17)
и является
ортогональной
.
Матрица факторных нагрузок получается по формуле
,
(5.18)
где
- диагональная матрица:
(5.19)
Таким образом,
нагрузка l-й
главной компоненты
на j-ю
переменную
вычисляется
по формуле:
;
j
=1,2,3; l=1,2,3.
Элемент матрицы
факторных нагрузок
есть
коэффициент корреляции, который измеряет
тесноту связи между l-й
главной компонентой и
-м
признаком
.
При этом имеет место соотношение:
.
Матрица факторных
нагрузок A
используется для экономической
интерпретации главных компонент, которые
представляют собой линейный функции
исходных признаков. Значения главных
компонент для каждого i-объекта
задаются
матрицей F.
Матрицу значений главных компонент
можно получить по формуле:
,
где (5.20)
Z-
матрица нормированных значений
наблюдаемых переменных
размером
.
Таким образом, значения главных компонент получаем из выражения
,
(5.21)
где
,
;
l=1,2,3.
Полученные главные компоненты позволяют классифицировать множество исходных признаков на группы, обобщающими показателями которых и являются главные компоненты. В силу ортогональности (независимости) главные компоненты удобны для построения на них уравнения регрессии ввиду отсутствия мультиколлинеарности главных компонент. Для построения уравнения регрессии на главных компонентах в качестве исходных данных следует взять вектор наблюдаемых значений результативного признака y и вместо матрицы значений исходных показателей X – матрицу вычисленных значений главных компонент F.