- •Методические указания для выполнения контрольной работы № 2 «Теория вероятностей и математическая статистика»
- •1.1. Вероятность события. Непосредственный подсчет вероятностей
- •1.2. Теоремы сложения и умножения вероятностей
- •1.3. Формула полной вероятности. Формула байеса
- •2. Случайные величины
- •2.1. Случайные величины. Законы их распределения
- •2.2. Числовые характеристики случайной величины
- •2.3. Равномерное распределение
- •2.4. Показательное распределение
- •2.5. Нормальное распределение
- •Математическая статистика
- •3. Выборочный метод
- •3.1. Вариационный ряд. Статистические распределения. Эмпирическая функция распределения. Графическое представление статистических распределений
- •3.2. Выборочные характеристики статистических распределений
- •3.3. Точечные и интервальные оценки параметров распределения
- •4. Корреляционно-регрессионный анализ
3.3. Точечные и интервальные оценки параметров распределения
Пример 23. С целью определения среднего трудового стажа на предприятии методом случайной повторной выборки проведено обследование трудового стажа рабочих. Из всего коллектива рабочих завода случайным образом выбрано 400 рабочих, данные о трудовом стаже которых и составили выборку. Средний по выборке стаж оказался равным 9,4 года. Считая, что трудовой стаж рабочих имеет нормальный закон распределения, определить с вероятностью 0,97 границы, в которых окажется средний трудовой стаж для всего коллектива, если известно, что = 1,7 года.
Решение. Признак Х – трудовой стаж рабочих. Этот признак имеет нормальный закон распределения с известным параметром = 1,7, параметр а неизвестен. Сделана выборка объемом n = 400, по данным выборки найдена точечная оценка параметра а: в = 9,4. С надежностью = 0,97 найдем интервальную оценку параметра по формуле:
.
По таблице значений функции Лапласа из уравнения Ф(t) = 0,485 находим t = 2,17; тогда:
9,4 – 0,18 < ген < 9,4 + 0,18. Итак, 9,22 < ген < 9,58, то есть средний трудовой стаж рабочих всего коллектива лежит в пределах от 9,22 года до 9,58 года (с надежностью = 0,97).
С изменением надежности изменится и интервальная оценка.
Пусть = 0,99, тогда Ф(t) = 0,495, отсюда t = 2,58. Тогда:
или 9,4 – 0,22 < ген < 9,4 + 0,22 .
Окончательно: 9,18 < ген < 9,62.
Пример 24. С целью определения средней продолжительности рабочего дня на предприятии методом случайной повторной выборки проведено обследование продолжительности рабочего дня сотрудников. Из всего коллектива завода случайным образом выбрано 30 сотрудников. Данные табельного учета о продолжительности рабочего дня этих сотрудников и составили выборку. Средняя по выборке продолжительность рабочего дня оказалась равной 6,85 часа, а S = 0,7 часа. Считая, что продолжительность рабочего дня имеет нормальный закон распределения, с надежностью = 0,95 определить, в каких пределах находится действительная средняя продолжительность рабочего дня для всего коллектива данного предприятия.
Решение. Признак Х – продолжительность рабочего дня. Признак имеет нормальное распределение с неизвестными параметрами. Сделана выборка объемом n = 30, по выборочным данным найдены точечные оценки параметров распределения: в = 6,85; S = 0,7. С надежностью = 0,95 найдем интервальную оценку параметра по формуле:
t находим по таблице (прил. 8), t = t(0,95; 30) = 2,045. Тогда:
, или 6,85 – 0,26 < ген < 6,85 + 0,26 .
Итак, 6,59 < ген < 7,11 , то есть с надежностью = 0,95 средняя продолжительность рабочего дня для всего коллектива лежит в пределах от 6,59 до 7,11 ч.
4. Корреляционно-регрессионный анализ
Пример 25. Для нормирования труда проведено статистическое исследование связи между количеством изготавливаемых изделий (Х, шт.) и затратами времени на обработку одного изделия (Y, мин). Сделана выборка объемом n = 51 и получены следующие данные: rв = 0,8 , = 8, x = 3,2 , = 40, y = 8. Проверить значимость коэффициента корреляции при = 0,02. Построить уравнение регрессии.
Решение. Признак Х – количество изготавливаемых изделий, шт. Признак Y – затраты времени на обработку одного изделия, мин.
Предполагаем, что признаки имеют нормальный закон распределения. Они находятся в статистической зависимости, так как затраты времени зависят не только от количества изготавливаемых изделий, но и от многих других факторов, которые в данном случае не учитываются. В данном случае связь линейная, теснота связи характеризуется линейным коэффициентом корреляции rв = 0,8. Но прежде чем делать вывод о тесноте взаимосвязи, необходимо проверить значимость коэффициента корреляции. Выдвигаем нулевую гипотезу и ей конкурирующую:
Н0: rген = 0,
Н1: rген 0.
Проверяем нулевую гипотезу с помощью случайной величины, имеющей распределение Стьюдента с k = n – 2 = 49 степенями свободы: .
По выборочным данным найдем наблюдаемое значение критерия Тнабл = 9,33. По таблице критических точек распределения Стьюдента находим tкрит.дв(, k) = tкрит.дв(0,02; 49) = 2,40. Сравниваем Тнабл и tкрит.дв(0,02; 49). Так какТнабл tкрит.дв(0,02; 49), то есть наблюдаемое значение критерия попало в критическую область, нулевая гипотеза отвергается, справедлива конкурирующая гипотеза: rген 0, признаки Х и Y коррелированны, rв значим.
D = 100 % = 64 % , то есть вариация затрат времени на обработку одного изделия в среднем на 64 % объясняется за счет вариации количества изготавливаемых изделий.
Выразим эту взаимосвязь аналитически в виде уравнения регрессии вида:
– a1(х – ).
Коэффициент a1 выразим через парный линейный коэффициент корреляции:
;
Сравнивая эти две формулы, можем записать:
Тогда по выборочным данным будем иметь:
a1 = 0,8 8/32 = 2; – 40 2(x – 8) или 24 + 2x .
Из уравнения следует, что с увеличением количества выпускаемых изделий на 1 шт., затраченное время в среднем увеличится на 2 мин.