- •2 Функция распределения
- •3 Плотность распределения
- •4 Числовые характеристики случайной величины
- •5 Законы распределения дискретной случайной величины
- •6 Законы распределения непрерывной случайной величины
- •7 Обработка результатов измерений, доверительный интервал
- •8 Корреляционный анализ
- •9 Регрессионный анализ
7 Обработка результатов измерений, доверительный интервал
Как правило, на практике приходится сталкиваться с задачами обработки результатов наблюдений. Это может быть анализ поступающего на станцию поездо- и вагонопотока, хронометраж работы бригад ПТОВ, времени обслуживания локомотивов, времени погрузочно-разгрузочных работ механизмов.
Исследуя какую-либо случайную величину, мы не имеем возможности исследовать абсолютно все её проявления, т.е. генеральную совокупность значений случайной величины. Поэтому мы вынуждены ограничиться определенной выборкой, на основании которой будут рассчитаны основные числовые характеристики случайной величины. Однако, определив числовую характеристику, например, математическое ожидание, необходимо задаться вопросом: насколько же она достоверна? Т.е. насколько математическое ожидание выборки соответствует математическому ожиданию генеральной совокупности. Во-первых, как говорилось ранее, большую роль при анализе случайных величин играет количество осуществленных измерений. Вовторых, каждая случайная величина обладает определенными особенностями: некоторые обладают большим рассеиванием, а значит большим средним квадратическим отклонением, другие – значительно меньшим. В-третьих, возникает вопрос достоверности данных: при любых измерениях присутствуют так называемые «выбросы», т.е. значения, чрезвычайно сильно отличающиеся от среднего. Такие значения могут возникать из-за грубых ошибок измерений или происшествия редких явлений, влияющих на результат измерения. Таким образом, чтобы дать представление о точности и надежности оценки среднего значения (математического ожидания), в математической статистике пользуются так называемыми доверительными интервалами. Доверительный интервал показывает, в каких границах будет лежать математическое ожидание
генеральной совокупности. Доверительный интервал выглядит следующим образом:
где |
|
|
|
|
|
√ , |
|
(1.16) |
|
- среднее квадратическое отклонение выборки, – число измерений в |
|||||||
|
|
|
|
[ ] ± · |
|
|
|
|
выборке, |
|
- коэффициент доверия. |
Данную формулу можно использовать |
|||||
|
|
|
|
|
|
|
|
|
|
условии, что случайная величина распределена по нормальному закону. |
|||||||
при |
|
|
|
|
|
|
|
|
|
Коэффициент доверия есть |
величина, |
соответствующая уровню |
|||||
доверия. Уровень доверия показывает, какому проценту значений выборки мы можем доверять. Он необходим для того, чтобы отбросить случайные ошибки, выбросы и др. Для уровня доверия 95% коэффициент доверия Z=1,96, т.е. он показывает число средних квадратических отклонений, которое нужно отложить вправо и влево от центра рассеивания для того, чтобы вероятность попадания в полученный участок была равна уровню доверия. Нетрудно определить, что, согласно правилу трёх сигм, при уровне доверия 99,73% коэффициент доверия Z=3.
Полученный доверительный интервал необходимо оценить экспертно. Если исследователь считает, что полученные границы приемлемы, то дополнительные измерения не нужны.
Пример. Среднее значение вагонного парка за смену |
|
|
|
, |
количество осуществлённых |
|||
измерений n=13, |
|
|
|
- |
|
|
|
. Определить доверительный |
среднее квадратическое отклонение выборки [ ] = 1287 |
|
|||||||
интервал выборки при уровне доверия 95%. |
|
|
= 91.4 |
|
||||
Решение. |
Коэффициент доверия |
Z=1.96, тогда доверительный |
интервал можно представить |
|||||
следующим образом: |
|
91,4 |
|
|
|
|
|
|
|
|
[ ] ± · √ |
= 1287 ± 1.96 √13 = 1287 ± 49,68 |
|||||
Т.е. математическое ожидание генеральной совокупности находится в границах [128749.68;1287+49.68] или [1237;1337]. Решение о достаточности измерений принимается исходя из конкретных условий.
8 Корреляционный анализ
При исследовании транспортных и иных производственных процессов, поиске путей их оптимизации часто требуется установить наличие или отсутствие зависимости между двумя факторами. Они представляются в виде двух выборок данных. Обычно связь между выборками носит не функциональный, а вероятностный (стохастический, случайный) характер. В этом случае строгой и однозначной зависимости между рассматриваемыми величинами, которую можно было бы выразить, например, в виде аналитической формулы, нет. При изучении стохастических зависимостей используют методы корреляционного и регрессионного анализа.
Корреляционный1 анализ2 состоит в определении степени связи между двумя величинами и , каждая из которых является случайной.
В качестве меры оценки такой связи используется коэффициент корреляции. Например, требуется
установить наличие зависимости между ростом и весом людей в определенной группе. Для этого используется статистика, полученная по указанным двум величинам для каждого человека в группе. Общая статистика может быть представлена в виде графика («облака» точек) – см. рисунок.
Коэффициент корреляции оценивается по выборке объема n связанных |
||||||||||||||
пар наблюдений ( |
|
i |
, |
|
i |
) из совместной генеральной совокупности |
и . |
|||||||
|
|
|
|
|||||||||||
Для оценки |
степени взаимосвязи величин |
|
и |
, если они могут быть |
||||||||||
|
|
X1 |
|
|
X2 |
|
|
|
|
|
|
X1 |
X2 |
|
измерены количественно, используется |
коэффициент линейной корреляции |
|||||||||||||
|
X1 |
|
X2 |
X1 |
|
|||||||||
(коэффициент |
Пирсона), предполагающий, |
|
что выборки |
и |
||||||||||
X2 |
распределены по нормальному закону. Коэффициент корреляции |
|||||||||||
|
||||||||||||
рассчитывается по формуле: |
|
|
|
|
|
|
||||||
|
|
|
|
|
|
1 2 = |
∑(X1i |
− 12)(X2i− 2) |
2 |
, |
(2.1) |
|
|
|
1 |
|
2 |
|
|
∑(X1i− 1) ∑(X2i− 2) |
|
|
|
|
|
где |
и |
– выборочные средние случайных величин. |
|
|
||||||||
|
|
|
|
|||||||||
|
|
Графическая |
интерпретация |
коэффициента |
корреляции |
для |
||||||
эмпирических (полученных опытным путем) данных показана на рисунке 2.1.
Рисунок 2.1 – Геометрическая интерпретация коэффициента корреляции
Построение подобных графиков может помочь в установлении связи (корреляции) между рассматриваемыми величинами, а коэффициент корреляции позволяет оценить эту связь количественно.
Коэффициент корреляции изменяется от -1 (строгая обратная линейная зависимость) до 1 (строгая прямая пропорциональная зависимость).
При значении 0 линейной зависимости между двумя выборками нет. Если коэффициент корреляции отрицательный, это означает наличие
противоположной связи: чем больше значение одной переменной, тем меньше значение другой. Для анализа полученного коэффициента корреляции можно использовать следующую шкалу:
− до 0,2 – очень слабая корреляция;
−0,2-0,5 – слабая корреляция;
−0,5-0,7 – средняя корреляция;
−0,7-0,9 – высокая корреляция;
−более 0,9 – очень высокая корреляция (фактически, имеется функциональная связь между параметрами X1 и X2).
Корреляционный анализ может использоваться для следующих целей:
1)определение наличия взаимосвязи между параметрами;
2)задачи прогнозирования, если известно поведение одного параметра, то можно предсказать поведение другого параметра, коррелирующего с первым;
3)классификация, отбор параметров. Наличие сильной корреляции между некоторыми параметрами может быть использовано для сокращения числа параметров, используемых при построении моделей процессов и систем, с целью их упрощения. Наличие слабой или отсутствие корреляции между изменяемым параметром и величиной отклика (исследуемая величина) дает основания для исключения этого параметра из модели как малозначимого.
Величина коэффициента корреляции может быть рассчитана при
помощи функции «КОРРЕЛ» Microsoft Excel.
