
- •1.1.2 Выборка и генеральная совокупность. Типы выборок.
- •1.1.3 Ранжирование (группировка, классификация) данных.
- •1.1.4 Распределение вариант и распределение средних. Выборочные характеристики как оценки характеристик генеральной совокупности. Свойства оценок: несмещенность, состоятельность, эффективность.
- •1.1.5 Оценка стандартного отклонения для распределения средних.
- •1.1.6 Доверительный интервал -1. Интервал для среднего случайной выборки, если генеральное среднее известно
- •1.1.7 Доверительный интервал -2. Интервал для генерального среднего
- •1.1.8 Нулевая гипотеза - 1. Основные понятия.
- •1.1.9 Нулевая гипотеза - 2. Зачем нам два уровня значимости
- •1.1.10 Критерий χ-квадарат.
- •1.2 Двумерные случайные величины
- •1.2.1 Правила вычислений моментов второго порядка
- •1.1.2 Коэффициент корреляции
- •2. Регрессионный анализ
- •2.1 Парная линейная регрессия
- •2.1.1 Простейшая модель – парная линейная регрессия
- •2.1.2 Мера оценки отклонений – метод наименьших квадратов (мнк).
- •2.1.3 Практические вычисления для линейной модели.
- •2.1.4 Условия применимости метода наименьших квадратов
- •2.1.5 Качество оценки переменной y, полученное с помощью уравнения регрессии.
- •2.1.6 Качество модели – f-критерий (критерий Фишера)
- •2.1.7 Оценки ошибок коэффициентов регрессии
- •2.1.8 Проверка гипотез для коэффициентов регрессии
- •2.2 Парная нелинейная регрессия
- •2.2.1 Распространение методов парной линейной регрессии на нелинейные задачи
- •2.2.2 Квадратичная регрессия
1.1.2 Коэффициент корреляции
Ковариация Cov как и корреляционный момент σху не очень удобные средство оценки связи между величинами, что прежде всего объясняется тем, что это размерные величины, а степень взаимосвязи или взаимозависимости естественно оценивать величиной безразмерной. В качестве такой безразмерной характеристики взаимосвязи двух случайных величин обычно используют коэффициент корреляции.
Теоретический (или генеральный)
коэффициент корреляции вычисляется по
формуле:
– т.е. корреляционный момент, делённый
на произведение стандартных отклонений.
Выборочный коэффициент корреляции вычисляется следующим образом:
(1.12)
т.е. ковариация, делённая на корень из произведения вариаций.
Это безразмерные величины, обе они могут принимать значения только из отрезка [–1, 1]16, причем значение 0 отвечает некоррелированым величинам, а значения –1 и 1 отвечают величинам, между которыми существует точная линейная зависимость типа Y = k X.
Во всех прочих случаях значение
по модулю лежит между
нулем и единицей, причем чем ближе
значение модуля к единице, тем теснее
взаимосвязь между рассматриваемыми
величинами. А знак коэффициента корреляции
указывает на позитивный или негативный
характер указанной связи: знак «–»
указывает, что когда одна из величин
растет, вторая уменьшается.
2. Регрессионный анализ
2.1 Парная линейная регрессия
2.1.1 Простейшая модель – парная линейная регрессия
Мы ищем взаимосвязь между двумя величинами в самой простой форме – в форме линейной зависимости: у = 1 + 2х
При этом мы предполагаем, что обе наши величины носят по крайней мере частично случайный характер, а нашей задачей является выяснить, существует ли между ними линейная зависимость и найти такие коэффициенты 1 и 2 , которые являются в некотором смысле «наилучшими».
П
рояснению
прежде всего подлежит последний термин
– что значит «наилучшие»? – попробуем
разобраться. Реально мы располагаем на
старте некоторыми наборами значений
{xi,yi}
(или геометрически – набором точек
{Pi}).
При этом как минимум одна переменная
yi
содержит случайную составляющую ui.
Поэтому точная запись нашего соотношения
будет иметь вид:
yi = 1 + 2 xi + ui (2.1)
Т.е. мы предполагаем, что в каждом наблюдении величина yj состоит из двух компонент: 1)неслучайной составляющей 1 + 2 xi и 2)случайного члена ui.
Неизбежность появления случайного члена связана с несколькими причинами.
1. Неполнота модели. Например, мы полагаем, что главной причиной инфляции последних лет был популизм правительств, выразившийся в необоснованном росте зарплат работников, не подкрепленным соответствующим ростом производительности труда. Тогда должна быть линейная связь между темпом инфляции и ростом зарплат. Однако в такой модели мы очевидным образом игнорируем другие составляющие инфляции, например, рост цен на углеводороды. Пусть вклад этих составляющих носит подчиненный характер, но он есть, а мы его не включили в модель, это приведет к появлению немотивированных в рамках модели отклонений, которые мы относим на счет случайной компоненты.
2. Ошибки измерения. Вполне очевидно, что и в определении средней зарплаты, и в определении инфляции присутствуют неизбежные ошибки уже потому, что эти величины определяются по выборочным данным, а не по генеральной совокупности (чтобы точно определить величину инфляции за месяц нужно получить данные по всем продуктовым рынкам, по всем магазинам и по всем видам продукции, что, разумеется, нереально). Подобные ошибки измерения присутствуют неизбежно и всегда при получении любых экономических показателей.
3. Не вполне адекватный выбор математической модели. Мы предположили, что связь между нашими переменными линейна, а в реальности она носит более сложный характер. Тем не менее в первом приближении и в ограниченном диапазоне вполне целесообразно рассмотреть линейную модель, но при этом неизбежны ошибки, которые мы тоже относим на счет случайного члена.
Мы перечислили лишь наиболее часто встречающиеся факторы, которые могут быть источниками наших ошибок. Но уже из этого перечня ясно, что отклонения реальности от модели имеют место всегда, вопрос лишь в том, как оценить масштаб этих отклонений и какой масштаб отклонений считать приемлемым.