
Раздаточный материал - 2014 логистика / 02_03 - Основы теории и вероятности и мат_статистики / 02.5 - Непрерывные распределения
.doc
2. Распределения случайных величин
2.5. Непрерывные распределения случайных величин
Рис. Три непрерывных распределения
Можно вычислить вероятность того, что нормально распределенная случайная величина лежит в заданном интервале. Однако вероятность того, что она принимает наперед заданное значение, равна нулю. Это отличает непрерывные случайные величины (измеряемые) от дискретных величин (подсчитываемых).
Например, время измеряется, а не подсчитывается. Следовательно, можно вычислить вероятность того, что Web-страница будет загружаться от 7 до 10с. Сужая заданный интервал, можно вычислить вероятность того, что она будет загружаться от 8 до 9с. Кроме того, можно вычислить вероятность того, что она будет загружаться от 8,99 до 9,01с. Однако вероятность того, что Web-страница будет загружаться ровно 8 с, равна нулю.
Вероятность любого отдельного значения непрерывной случайной величины равна нулю.
События, вероятности которых были равны нулю: это были невозможные события.
Но обладать нулевой вероятностью могут не только невозможные, но и возможные события.
Число значений непрерывной случайной величины – БЕСКОНЕЧНО à вероятность отдельной точки 1/∞ => 0
Если производится опыт, в котором непрерывная случайная величина должна принять одно из своих возможных значений, то до опыта вероятность каждого из таких значений равна нулю; однако в исходе опыта случайная величина непременно примет одно из своих возможных значений, т. е. заведомо произойдет одно из событий, вероятности которых были равны нулю.
Из того, что событие имеет вероятность, равную нулю, вовсе не следует, что это событие не будет появляться, т.е. что частота этого события равна нулю. Мы знаем, что частота события при большом числе опытов не равна, а только приближается к вероятности. Из того, что вероятность события равна нулю, следует только, что при неограниченном повторении опыта это событие будет появляться сколь угодно редко.
Нормальное распределение
Важность нормального распределения в статистике обусловлена тремя причинами:
-
Оно описывает (точно или приблизительно) распределение многих непрерывных случайных величин.
-
С помощью нормального распределения можно аппроксимировать разнообразные дискретные распределения.
-
Нормальное распределение лежит в основе классической теории статистических выводов, поскольку оно тесно связано с центральной предельной теоремой.
Нормальное распределение:
-
Имеет колоколообразную (а значит, симметричную) форму.
-
Его математическое ожидание, медиана и мода совпадают друг с другом.
-
Половина нормально распределенных значений лежит в интервале, длина которого равна 4/3 стандартного отклонения. Это значит, что межквартильный размах находится в интервале от 2/3 стандартного отклонения левее среднего значения до 2/3 стандартного отклонения правее среднего значения.
-
Значения нормально распределенной случайной величины лежат на всей числовой оси (–∞ < Х < +∞).
Функции Excel: f(X) / F(X) = НОРМРАСП (X, μ, δ, ЛОЖЬ/ИСТИНА)
X = НОРМОБР (F(X), μ, δ)
Стандартизованное нормальное распределение (зеленый цвет на рисунке справа)
μ=0 – математическое ожидание δ=1 – стандартное отклонение |
|
К сожалению, вычислить математическое выражение, заданное общей формулой для нормального распределения, довольно сложно. Чтобы упростить задачу, значения плотности нормального распределения, как правило, табулируют. Поскольку количество возможных комбинаций параметров бесконечно, для вычислений понадобилось бы бесконечное количество таблиц. Однако, если нормировать (standardize) данные, все распределения можно свести к одной таблице.
Используя формулу преобразования, любую нормально распределенную случайную величину X можно преобразовать в нормированную нормально распределенную случайную величину Z.
Величина Z равна разности между величиной X и математическим ожиданием генеральной совокупности р, деленной на стандартное отклонение σ:
Z = (Х – μ)/σ
Математическое ожидание стандартизованного нормального распределения равно нулю, а стандартное отклонение — единице.
В общем случае обратная формула для определения величины X может быть выведена на основе формулы Z = (Х – μ)/σ:
Х = μ + Z*σ
Таким образом, любое множество нормально распределенных величин можно преобразовать в стандартизованную форму, а затем определить искомую вероятность по таблице кумулятивного стандартизованного нормального распределения, например, по таблице.
Функции Excel для стандартного нормального распределения: μ=0 δ=1
F(X) = НОРМСТРАСП (Z)
Z = НОРМСТОБР (F(X))
Проиллюстрируем процедуру нормирования на примере следующего сценария. Допустим, что время загрузки Web-страницы распределено нормально, причем его математическое ожидание равно 7 с, а стандартное отклонение = 2 с.
Как показывает рис. 6.4, каждому значению переменной X соответствует нормированное значение Z, полученное с помощью формулы преобразования. Следовательно, время загрузки, равное 9 с, на одну стандартную единицу превышает математическое ожидание:
а время загрузки (1 с) на три стандартные единицы (стандартных отклонения) меньше математического ожидания:
Таким образом, стандартное отклонение становится единицей измерения. Иначе гово- ря, время загрузки, равное 9 с, на 2 с (т.е. на одно стандартное отклонение) превышает математическое ожидание, а время, равное 1 с, на 6 с (т.е на три стандартных отклонения) меньше математического ожидания.
Для любого нормального распределения вероятность того, что случайно выбранное число лежит в окрестности математического ожидания на расстоянии, не превышающем одно стандартное отклонение, равно 0,6826. Анализ рис. 6.12 показывает, что в окрестности математического ожидания на расстоянии, не превышающем двух стандартных отклонений, лежат чуть более 95% нормально распределенных величин. Это значит, что 95,44% всех результатов измерений времени загрузки Web-страницы находятся в интервале от 3 до 11 с.
На рис. 6.13 показано, что в окрестности математического ожидания на расстоянии, не превышающем трех стандартных отклонений, расположено 99,7% всех нормально распределенных величин. Следовательно, 99,73% результатов измерений времени загрузки Web-страницы лежат в интервале от 1 до 13 с. Таким образом, весьма маловероятно (0,0027, или 27 шансов из 10 000), что время загрузки Web-страницы будет меньше 1 с или больше 13 с.
Вот почему на практике считают, что интервал длиной 6δ, центром которого является математическое ожидание, содержит практически все значения нормально распределенной случайной величины.
Равномерное распределение
Случайная величина имеет равномерное распределение, если вероятность того, что она принимает любое значение в интервале, ограниченном минимальным числом а и максимальным числом b, постоянна. Поскольку график плотности этого распределения имеет вид прямоугольника, равномерное распределение иногда называют прямоугольным (см. панель Б на рис. 1).
Функция плотности равномерного распределения задается формулой:
где а — минимальное значение переменной X, b — максимальное значение переменной X.
Математическое ожидание равномерного распределения:
μ = (а + b) / 2
Дисперсия равномерного распределения:
σ2 = (b – a)2 / 12
Стандартное отклонение равномерного распределения:
σ
=
Чаще всего равномерное распределение используется для выбора случайных чисел. При осуществлении простого случайного выбора предполагается, что каждое число извлекается из генеральной совокупности, равномерно распределенной в интервале от 0 до 1. Вычислим вероятность извлечь случайное число, превышающее 0,1 и меньше 0,3.
График функции плотности равномерного распределения для а = 0 и b = 1 изображен на рис. 2. Общая площадь прямоугольника, ограниченного этой функцией, равна единице. Следовательно, этот график удовлетворяет требованию, согласно которому, площадь фигуры, ограниченной графиком плотности любого распределения, должна равняться единице. Площадь прямоугольника, заключенная между числами 0,1 и 0,3, равна произведению длин его сторон, т.е. 0,2 * 1 = 0,2. Итак, Р(0,1 < X < 0,3) = 0,2 * 1 = 0,2.
Рис. 2. График плотности равномерного распределения; вычисление вероятности Р(0,1 < X < 0,3) для равномерного распределения при а = 0 и b = 1
Математическое ожидание, дисперсия и стандартное отклонение равномерного распределения при а = 0 и b = 1 вычисляются следующим образом:
Экспоненциальное распределение
Непрерывное распределение, моделирующее время между двумя последовательными свершениями одного и того же события
Экспоненциальное распределение является непрерывным, имеет положительную асимметрию и изменяется от нуля до плюс бесконечности. Экспоненциальное распределение оказывается весьма полезным в деловых приложениях, особенно при моделировании производства и систем массового обслуживания. Оно широко используется в теории расписаний (очередей) для моделирования промежутков времени между двумя запросами, которые могут представлять собой приход клиента в банк или ресторан быстрого обслуживания, поступление пациента в больницу, а также посещение Web-сайта.
Экспоненциальное распределение зависит только от одного параметра, который обозначается буквой λ и представляет собой среднее количество запросов, поступающих в систему за единицу времени. Величина 1/λ равна среднему промежутку времени, прошедшего между двумя последовательными запросами. Например, если в систему в среднем поступает 4 запроса в минуту, т.е. λ = 4, то среднее время, прошедшее между двумя последовательными запросами, равно 1/λ = 0,25 мин, или 15 с. Вероятность того, что следующий запрос поступит раньше, чем через X единиц времени, определяется по формуле (5).
(5) Р (время поступления запроса < X) = 1 – e–λx
где е — основание натурального логарифма, равное 2,71828, λ – среднее количество запросов, поступающих в систему за единицу времени, X – значение непрерывной величины, 0 < X < ∞.
Проиллюстрируем применение экспоненциального распределения примером.
Допустим, что в отделение банка приходят 20 клиентов в час. Предположим, что в банк уже пришел один клиент. Какова вероятность того, что следующий клиент придет в течение 6 мин? В данном случае λ = 20, Х= 0,1 (6 мин = 0,1 ч). Используя формулу (5), получаем:
Р(время прихода второго клиента < 0,1) = 1 – е–20*0,1 = 0,8647
Таким образом, вероятность, что следующий клиент придет в течение 6 мин, равна 86,47%.
Выборочные распределения
Основной целью анализа данных являются статистические выводы, т.е. применение выборочных показателей для оценки параметров генеральной совокупности. Статистические выводы относятся к генеральным совокупностям, а не к выборкам из них.
-
Например, социологи изучают результаты выборочных обследований только для того, чтобы оценить шансы кандидатов получить голоса из всей генеральной совокупности избирателей в целом. Выборочное среднее, полученное при обследовании конкретной выборки, само по себе интереса не представляет.
На практике из генеральной совокупности извлекается выборка заранее установленного объема. Элементы, принадлежащие данной выборке, выбираются случайным образом, например, с помощью датчика случайных чисел. Распределения выборочных параметров называют выборочными.
-
Выборочное распределение средних значений
-
Стандартная ошибка среднего (выборочное стандартное отклонение)
Пример.