Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лабораторные работы 6-8.doc
Скачиваний:
1
Добавлен:
01.05.2019
Размер:
874.5 Кб
Скачать
  1. Роз’яснити зміст “діагональної регресії”, відповісти, чи є діагональна регресія регресією взагалі (згідно з визначенням цього поняття), у яких випадках доцільно використовувати цю модель.

Наличие связи вовсе не означает, что одна из переменных определяет другую. Вполне возможно, что две переменные изменяются синхронно (“в такт”) потому, что обе они являются следствиями некой общей причины. В этом случае неверно будет приписывать какой-либо из этих переменных роль результативного признака, и выбирать соответствующую связь из числа взаимосопряженных; наилучшим графиком существующей зависимости в этом случае была бы главная ось эллипса рассеивания, вдоль которой он вытянут. Заметим, что уравнение главной оси облака рассеивания формально не является уравнением регрессии по определению, поскольку точки главной оси не есть средние значения одной переменной при фиксированных значениях другой. Уравнение этой «диагональной регрессии»: , где знак + выбирается для возрастающей, а знак – для убывающей зависимости.

  1. Викласти ідею принципу Лежандра (мнк), роз’яснити зміст системи нормальних рівнянь, скласти систему нормальних рівнянь для лінійної і квадратичної моделей однієї змінної.

По методу наименьших квадратов (МНК) параметры модели y = a0 + a1x1 + a2x2 + e необходимо подбирать таким образом, чтобы была минимальной сумма квадратов ошибок (e) по всем наблюдениям. Условия минимума суммы квадратов ошибок приводят к требованию ортогональности (нормальности) вектора ошибок к каждому члену модели: e = 0, ex1 = 0, ex2 = 0. Отсюда получаем такую систему «нормальных» уравнений для определения параметров a, a, a: y = a0n + a1x1 + a2x2 ; yx1 = a0x1 + a1(x1)2 + a2x1x2 ; yx2 = a0x2 + a1x1x2 + a2(x2)2 . Для квадратичной модели y = a0 + a1x + a2x2 + e условия ортогональности ошибки к каждому члену модели e = 0, ex = 0, ex2 = 0 приводят к такой нормальной системе уравнений: y = a0n + a1x + a2x2 ; yx = a0x + a1x2 + a2x3 ; yx2 = a0x2 + a1x2 + a2x3 .

  1. Сформулювати основні передумови дисперсійного аналізу. Показати, що середні по групах є найкращими МНК–оцінками центрів кожної групи. Розкласти загальну суму квадратів на міжгрупову і внутрішньогрупову складові.

Имеется p групп наблюдений yij . Группы описываются значениями некоторого параметра, например, разными значениями объясняющей переменной xi . Количество наблюдений в каждой группе – ki , общее количество наблюдений n =  k. Необходимо выяснить, имеются ли между группами значимые различия (т.е. имеется ли зависимость у от х). Оценку значимости различий между группами в целом производят с помощью дисперсионного анализа Фишера, а между каждой парой групп – по критерию Стьюдента. Модель дисперсионного анализа: yij uij . Основные предпосылки анализа – группы различаются только средними значениями ( ), изменчивость данных (дисперсия) по группам одинакова, все наблюдения независимые. Величины  u, которые характеризуют каждую группу, определяем методом наименьших квадратов (МНК): . Приравниваем нулю частные производные суммы квадратов ошибок по u и получаем , откуда следует: , т.е. наилучшими оценками для u являются средние групповые . Для каждой группы теперь выполняется «нулевое свойство»: , откуда . Аналогично разложению yij uij , общая сумма квадратов отклонений SSY = (yij – ycp)2  разлагается на сумму квадратов межгрупповую SSU = (u– ycp)2  и внутригрупповую SS = (ij)2 : SSY = SSU + SS . Действительно, SSY = (yij – ycp)2 = [(yij  ui) –(u– ycp)]2 SS SSU – 2[(yij  ui)(u– ycp)], где сумма произведений [(yij  ui)(u– ycp)] = (u– ycp)(yij  ui) равна нулю, т.к. в каждой группе (yij  ui) = 0.

Точно также разлагается общее число степеней свободы dfY = dfU + df (df – degree of freedom), где dfY = n  1, dfU = p  1, df = n  p . Средние квадраты (несмещенные оценки дисперсий) вычисляются по формулам MS =SS/df . Дисперсионное отношение Фишера показывает, во сколько раз изменчивость средних групповых ui превосходит изменчивость помехи ij . Если < F0,05(p–1; np), нуль-гипотеза об отсутствии значимых различий между группами не может быть отвергнута. Различия между группами считаются значимыми, если > F0,01(p–1; np).

  1. Викласти методику порівняння двох вибірок за критерієм Стьюдента. Сформулювати основні допущення (гіпотези) цього методу. Показати, цей аналіз є частковим випадком дисперсійного аналізу, коли число порівнюваних груп дорівнює двом.

Когда с помощью дисперсионного анализа устанавливают, что между группами в целом имеются значимые различия, далее следует выяснять, между какими именно группами имеются значимые различия. Различия между каждой парой групп можно проще (и быстрее) проверить с помощью критерия Стьюдента. Предпосылки этого анализа совпадают с предпосылками дисперсионного анализа – группы различаются только значениями средних групповых (u1 , u2); случайная изменчивость данных по группам одинакова ( ); все наблюдения независимые. Общую случайную дисперсию (несмещенную оценку) получаем объединением дисперсий по группам: , где (k1 k2 – 2) = df – ЧСС случайной изменчивости (две связи – в каждой группе сумма ошибок равна нулю). Случайная дисперсия среднего ui будет в ki раз меньше. Рассматриваем разность средних групповых  = |u1 – u2|. Дисперсия разности независимых величин равна сумме их дисперсий . Если статистика Стьюдента меньше табличного значения t0,05(k1+k2–2), нуль-гипотеза об отсутствии значимых различий между двумя группами не может быть отвергнута. Различия между группами считаются значимыми, если t t0,01(k1+k2–2). Применение дисперсионного анализа для выявления различий между двумя выборками (р = 2) приведет к тому же выводу, т.к. .

  1. Показати, як будується емпірична лінія регресії, як оцінюється тіснота кореляційного зв’язку. Пояснити, що таке “індекс детермінації” і “кореляційне відношення”, чим вони відрізняються від “коефіцієнта детермінації” і “коефіцієнта кореляції” відповідно.

Данные следует сгруппировать на несколько интервалов по возрастающим значениям объясняющей переменной так, чтобы в каждую группу попало не менее 5 наблюдений (для малой выборки – не менее 5% наблюдений); малонасыщенные группы объединяем с соседними. Обозначим через xi – центры интервалов, yij – значения отклика (результативного признака) в группе, ki – количество наблюдений в группе, n =  k– общее количество наблюдений. В каждой группе вычисляем среднее значение результативного признака , где . Строим кусочно-линейный график с узлами (x; u), который называется «эмпирической линией регрессии». В модели дисперсионного анализа предполагается, что группы различаются только средними значениями отклика: yij uij , где ij – случайные ошибки, которые не зависят ни от x, ни от u. Дисперсия суммы независимых случайных величин равна сумме дисперсий . Обозначим – относительный вклад в общую дисперсию, который определяется различиями между группами (т.е. влиянием объясняющей переменной х). Эту величину называют «индексом детерминации», а корень квадратный из нее – «корреляционным отношением». Из определения индекса детерминации следует: ; при все ij = 0, т.е. каждому значению аргумента x соответствует единственное значение отклика у, что является характерной особенностью функциональной зависимости; при все , т.е. корреляционной связи нет (никакой). Таким образом, индекс детерминации является объективной мерой тесноты корреляционной связи. В регрессионном анализе принимают иную модель: yypi e, где  ypi – расчетные значения по уравнению регрессии, e– остатки модели, которые не зависят от аргументов (и от расчетных значений). Поэтому . Отношение называется коэффициентом детерминации, а корень квадратный из этой величины – коэффициентом корреляции (коэффициентом парной корреляции rxy – если зависимость линейная от одного аргумента, или коэффициентом множественной корреляции R в остальных случаях). Коэффициент детерминации является мерой тесноты корреляционной связи указанного типа. Например, если для линейной модели yb0 b1 x оказалось R 0, то нельзя утверждать, что нет корреляционной связи вообще; правильный вывод – между x и y нет линейной корреляционной зависимости.

  1. Викласти послідовність розрахунків для оцінки значущості кореляційного зв’язку. Описати таблицю дисперсійного аналізу, роз’яснити зміст її окремих граф (стовпців) – сум квадратів, чисел ступенів свободи, середніх квадратів. Пояснити, який зміст має “дисперсійне відношення Фішера”, що таке “рівень значущості” і як їм користуватися.

Данные сгруппированы на р интервалов по возрастающим значениям объясняющей переменной х. В каждой группе вычислены средние значения результативного признака , подсчитаны значения: – общей дисперсии, – дисперсии средних-групповых, их отношение – индекс детерминаци. Аналогично разложению «общего сигнала» на «полезный сигнал» и «помеху» yij uij , разлагается общая сумма квадратов отклонений (SS – summa of squares) на межгрупповую и внутригрупповую суммы квадратов SSY = SSU + SS . Точно также разлагается общее число степеней свободы dfY = dfU + df (df – degree of freedom). Расчеты всех компонент сведены в таблицу дисперсионного анализа:

Изменчивость

Суммы квадратов

ЧСС

Средние квадраты

Дисп. Отношение

Между группами (u)

dfU = p  1

Внутри групп ()

df = n – p

Общая (y)

dfY = n – 1

Здесь dfY = ( 1), так как вследствие «нулевого свойства» сумма отклонений от среднего всегда равна нулю (линейная связь); dfU = ( 1) – по той же причине; df = ( p) – так как суммы ошибок в каждой группе равны нулю. Средние квадраты (несмещенные оценки дисперсий) вычисляются по формулам MS =SS/df  (MS – mean of squares)/ Дисперсионное отношение Фишера показывает, во сколько раз изменчивость средних групповых ui превосходит изменчивость помехи ij . Если < F0,05(p–1; np), нуль-гипотеза об отсутствии значимых различий между группами не может быть отвергнута. Различия между группами считаются значимыми, если > F0,01(p–1; np). Вместо таблиц квантилей F0,05 , F0,01  можно использовать таблицы уровня значимости  = P(F). Если получилось, что  < 0,01 , то это означает F0,01 (корреляционная связь значима), а если  < 0,01 , то F0,05  (корреляционной связи нет).

  1. Викласти послідовність розрахунків для оцінки значущості регресійної моделі. Описати таблицю дисперсійного аналізу, роз’яснити зміст її окремих граф. Виразити для цієї проблеми дисперсійне відношення через коефіцієнт детермінації.

Для линейной (относительно параметров) модели y+ e = b0 + b1 x1 + b2 x2 +  bx+ e получены МНК-оценки (+ 1) параметра (коэффициентов регрессии) и коэффициент детерминации . Аналогично разложению y+ e , разлагается сумма квадратов отклонений SSY = SSR + SSE  и число степеней свободы dfY = dfR + dfE. Расчеты всех компонент сведены в таблицу дисперсионного анализа:

Изменчивость

Суммы квадратов

ЧСС

Средние квадраты

Дисп. отношение

Регрессия (yp)

dfR = m

Остаток (e)

dfE = n – m –1

Общая (y)

dfY = n – 1

Здесь dfE = n – m – 1, так как для определения (m + 1) параметра модели на остатки е наложена (m + 1) связь (система нормальных уравнений). – несмещенная оценка остаточной дисперсии. Дисперсионное отношение Фишера показывает, во сколько раз изменчивость расчетных значений y превосходит изменчивость помехи e . Если < F0,05(m; nm1), нуль-гипотеза об отсутствии значимой корреляционной связи не может быть отвергнута. Регрессионная модель признается значимой, если > F0,01(m; nm1).

  1. Викласти методику оцінки значущості коефіцієнта регресії і коефіцієнта парної кореляції за критерієм Стьюдента. Показати, що ця методика є частковим випадком дисперсійного аналізу для оцінки значущості лінійної одномірної моделі.

Выборочная оценка коэффициента парной корреляции rxy  с математическим ожиданием xy  и оценкой дисперсии для малых xy  0 распределена приблизительно нормально, поэтому статистика распределена по закону Стьюдента (для малых xy) с ЧСС = – 2. Проверяется «нуль-гипотеза» о том, что действительное значение параметра равно нулю xy = 0. В этом случае абсолютная величина статистики Стьюдента показывает, во сколько раз параметр (коэффициент корреляции) превышает свою оценку стандартного отклонения. Если статистика будет меньше табличного значения t0,05(n–2) , нуль-гипотеза не может быть отвергнута. Корреляционная зависимость признается значимой, если статистика Стьюдента будет больше t0,01(n–2). Сравним статистику Стьюдента с дисперсионным отношением Фишера и убедимся в эквивалентности этих двух критериев. Что касается оценок коэффициентов регрессии b, то они всегда распределены асимптотически нормально, поэтому с помощью критерия Стьюдента можно не только проверить нуль-гипотезу = М(bi) = 0, но также вычислить границы 95%-ного доверительного интервала на генеральные значения коэффициентов регрессии: . Для линейной однофакторной модели имеем оценку и значимость коэффициента регрессии b1  оказывается эквивалентной значимости коэффициента корреляции и значимости модели в целом .

  1. Викласти послідовність розрахунків для оцінки адекватності моделі. Описати таблицю дисперсійного аналізу, роз’яснити зміст її окремих граф. Показати, у чому різниця між оцінкою дисперсії залишку моделі і дисперсією випадкової похибки.

Адекватность (форму связи) принятой модели можно проверить, если имеются дополнительные данные, которые не были использованы для оценки параметров модели (контрольная выборка); или же известна величина дисперсии случайной ошибки, с которой можно сравнить величину дисперсии остатков модели. Дисперсия случайной изменчивости известна, когда данные для каждого значения аргумента x приведены в нескольких повторениях (так называемый, «активный эксперимент»). Можно получить оценку дисперсии случайной изменчивости, если сгруппировать данные на классы по возрастающим значениям аргумента (объясняющей переменной) х. Дисперсию данных внутри групп можно принять за оценку случайной дисперсии. Обозначим через u– средние в каждой группе, – их дисперсию, – «индекс детерминации», который показывает, во сколько раз изменчивость «между группами» превышает изменчивость «внутри групп», т.е. во сколько раз изменчивость, связанная с влиянием х, превышает случайную изменчивость. Тогда оценку случайной дисперсии можно выразить, как . Если рассчитать коэффициент корреляции по сгруппированным данным, то дисперсию остатка модели можно сравнивать с оценкой случайной дисперсии. Остатки модели кроме случайной компоненты содержат «ошибку спецификации модели», «ошибку неадекватности», систематическую ошибку из-за выбора неверной формы связи: e =  + A, с дисперсией .

Оценку значимости ошибки неадекватности модели получаем с помощью дисперсионного анализа:

Изменчивость

Суммы квадратов

ЧСС

Средние квадраты

Дисп. отношение

Неадекватность (А)

dfA = p  2

Случайность ()

df = n – p

Остаток модели (У)

dfE = n – 2

Здесь dfE = n – 2, так как для определения 2-х параметров линейной модели на остатки е наложены две связи (система нормальных уравнений); df = n  p, так как в каждой группе сумма случайных отклонений ij = (yij  ui) равна нулю («нулевое свойство средних групповых»). несмещенные оценки дисперсий. Дисперсионное отношение Фишера показывает, во сколько раз изменчивость систематической ошибки (ошибки неадекватности) превышает случайную изменчивость. Если F0,05 , нуль-гипотеза об отсутствии систематической ошибки не может быть отвергнута, то есть принятая модель – адекватная. Модель признается неадекватной (недоброкачественной), если F0,01 .

  1. Вивести формули для розрахунку параметрів парної лінійної регресї. Дати визначення коефіцієнта парної кореляції, викласти його властивості. Пояснити, що таке “коефіцієнт детермінації”, чим відрізняється він від “індексу детермінації”.

Для линейной однофакторной модели = b0 b1 + e составляем условия ортогональности вектора ошибок к каждому члену модели: . Кроме этого учтем, что . Получим: ; ; . С помощью первого уравнения исключаем b0  из остальных равенств: . Отсюда получаем: .Из первого уравнения имеем . Квадрат коэффициента парной корреляции (нормированного смешанного момента) оказался равен коэффициенту детерминации , который показывает, какая часть полной изменчивости у определяется моделью (линейной зависимостью от х). Отсюда следует, что: –1  rxy  +1; при | rxy | = 1 ошибок нет (все e= 0), связь точная, функциональная; при rxy = 0 все ур = уср , корреляционной связи указанного типа нет (т.е. нет линейной связи). В отличие от коэффициента детерминации, индекс детерминации является более определенной оценкой тесноты корреляционной связи; если индекс детерминации равен нулю, корреляционной связи нет (никакой). Для определения индекса детерминации требуется сгруппировать данные на классы с разными значениями аргумента хi , вычислить средние в каждой группе , дисперсию этих средних , после чего найти отношение , которое показывает, какая часть полной изменчивости y определяется различиями между классами (т.е. разными значениями аргумента х).