
- •1.1.2 Выборка и генеральная совокупность. Типы выборок.
- •1.1.3 Ранжирование (группировка, классификация) данных.
- •1.1.4 Распределение вариант и распределение средних. Выборочные характеристики как оценки характеристик генеральной совокупности. Свойства оценок: несмещенность, состоятельность, эффективность.
- •1.1.5 Оценка стандартного отклонения для распределения средних.
- •1.1.6 Доверительный интервал -1. Интервал для среднего случайной выборки, если генеральное среднее известно
- •1.1.7 Доверительный интервал -2. Интервал для генерального среднего
- •1.1.8 Нулевая гипотеза - 1. Основные понятия.
- •1.1.9 Нулевая гипотеза - 2. Зачем нам два уровня значимости
- •1.1.10 Критерий χ-квадарат.
- •1.2 Двумерные случайные величины
- •1.2.1 Правила вычислений моментов второго порядка
- •1.1.2 Коэффициент корреляции
- •2. Регрессионный анализ
- •2.1 Парная линейная регрессия
- •2.1.1 Простейшая модель – парная линейная регрессия
- •2.1.2 Мера оценки отклонений – метод наименьших квадратов (мнк).
- •2.1.3 Практические вычисления для линейной модели.
- •2.1.4 Условия применимости метода наименьших квадратов
- •2.1.5 Качество оценки переменной y, полученное с помощью уравнения регрессии.
- •2.1.6 Качество модели – f-критерий (критерий Фишера)
- •2.1.7 Оценки ошибок коэффициентов регрессии
- •2.1.8 Проверка гипотез для коэффициентов регрессии
- •2.2 Парная нелинейная регрессия
- •2.2.1 Распространение методов парной линейной регрессии на нелинейные задачи
- •2.2.2 Квадратичная регрессия
1.2 Двумерные случайные величины
Пусть нам дана дискретная двумерная случайная величина Z(X,Y), геометрически каждое ее значение может быть представлено точкой на плоскости (X,Y). При этом каждая из ее координат также является дискретной случайной величиной.
Как мы знаем из теории вероятностей, полное описание такой случайной величины задается таблицей вероятностей pij. Т.е. мы предполагаем, что нам известен набор возможных значений дискретных случайных величин Х и Y: {xi} и {yj}, тогда pij есть вероятность сложного события, состоящего в том, что в одном опыте одновременно величина X примет значение xi, а величина Y примет значение yj 12.
При сделанных предположениях мы можем вычислить характеристики всех упомянутых случайных величин.
M[X]
= µx
=
Dx
=
(1.6)
M[Y]
= µy
=
Dy
=
Как известно, для двумерной случайной величины помимо двух дисперсий Dx и Dy существует еще один центральный момент второго порядка – корреляционный момент:
(1.7)
Этот момент отражает наличие
некоторой связи между случайными
величинами X
и
Y, если они независимы,
то σху
равен нулю. Отметим, что обратное
вообще говоря неверно:
из того, что
=
0, не следует, что величины непременно
независимы, они могут оказаться
зависимыми; такие величины называют
некоррелированными.
В статистике мы не располагаем
вероятностями, но мы предполагаем, что
вероятности однозначно связаны с
частотами для генеральной совокупности,
а именно
;
здесь nij
– количество случаев в генеральной
совокупности, в которых случайная
величина X
= xi
, а
Y
= yj.
Таким образом, для характеристик
генеральной совокупности
получим выражения:
(1.8)
Однако и данными о генеральной совокупности мы располагаем редко, потому приведенные формулы имеют скорее теоретическую ценность. Чаще всего мы располагаем только выборочными данными. Причем обычно в ходе получения этих выборочных данных мы проводим n испытаний, в каждом из которых определяется одно значение двумерной случайной величины zi = (xi,yi), т.е. тут i уже не номер одного из возможных значений дискретной случайной величины, а номер опыта, в ходе которого устанавливаются значения двумерной величины zi. Таким образом, мы располагаем одинаковым количеством одинаково нумерованных значений xi и yi, которые получены в ходе i-го измерения.
Для выборочных данных мы получим такие формулы:
(1.9)
(1.10)
Напомним, что здесь, как и в
иных случаях, символами
,
мы будем обозначать выборочные средние,
в отличие от генеральных средних µх
и µу.
Соответственно, Var(x), Var(y), Cov(x,y) мы будем называть центральные моменты второго порядка, рассчитанные для выборки. Напомним, что все они являются смещенными оценками13 соответствующих моментов для генеральной совокупности:
M[Var(x)]
=
M[Var(y)]
=
M[Cov(x,y)]
=
14
1.2.1 Правила вычислений моментов второго порядка
Напомним основные правила вычисления центральных моментов второго порядка:
1. Var(X) = Cov(X,X)
2. Если X = b = const то Var(X) = 0
3. Если X = b Y то Var(X) = b2 Var(Y) (1.11)
4. Если X = b + Y то Var(X) = Var(Y)
5. Если X = V + Y то Var(X) = Var(Y) + Var(V) + 2 Cov(V,Y)
Кроме того, часто бывают полезны следующие формулы (они позволяют сократить объём необходимых вычислений):
(1.12)
Важное замечание. Мы привели формулы для вычислений моментов по выборочным данным. Однако поскольку природа указанных формул чисто алгебраическая, они сохраняют свою силу и для генеральной совокупности, и для непрерывных случайных величин. Например, для произвольной двумерной случайной величины справедливо утверждение, аналогичное формуле 3 из (1.11), а именно:
если X
и Y
случайные величины, причем X
= b
Y
, то
15