Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
dissertatsia_2.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
695.84 Кб
Скачать

3.1.3 Интервальные переменные

Для интервальных значений, зависимая переменная и переменная предиктор , где , . Регрессионный анализ будем проводить с помощью уравнений классической методологии, но с символическими переменными для матриц и ( ).

Таким образом

(3.20)

и

(3.21)

где ,

И где вычисляется по формуле[50]

. (3.22)

Данные таблицы 3.5 приводят интервал-значные переменные для прогнозируемой переменной X = Возраст и двух зависимых случайных величин Y1 = холестерина и Y2 = вес для определенной группы людей. Возрастные группы представлены ​​для лиц, входящих в состав исходного набора данных.

Таблица 3.5 Возраст, уровень холестерина, вес.

X Возраст

Y1 уровень холестерина

Y2 вес

[20, 30)

[114, 192]

[108, 141]

43

[30, 40)

[103, 189]

[111, 150]

66

[40, 50)

[120, 191]

[127, 157]

75

[50, 60)

[136, 223]

[130, 166]

43

[60, 70)

[149, 234]

[139, 161]

59

[70, 80)

[142, 229]

[143, 169]

35

[80, 90)

[140, 254]

[140, 176]

18

Предположим, Y1 = Холестерин единая зависимая переменная, предиктор X= возраст.

(3.23)

Следовательно уравнение регрессии примет следующий вид .

Предположим, что мы сейчас берем зависимую переменную Y2 = Вес, и предположим, мы проводим взвешенную анализ с весами, пропорциональными количеству лиц, что были объединены, в соответствующие классы . В этом случае получаем и .

Альтернатива методологии регрессии. Расчета середины для каждого интервала

(3.24)

а затем использовать методологию регрессии.

Уровень холестерина

Возраст

Рисунок 3.1 Регрессия

3.1.4 Гистограммные переменные

Понятия, используемые для интервал-значных значений могут быть применены к гистограмм-значным значениям по аналогии с использованием, среднего, дисперсии и ковариационной функции от гистограмм-значных данных. Для простоты, будем считать, что существует единая р = 1 переменная предиктор Х и зависимая переменная является Y. Когда мы рассматривали многозначные переменные, предпологалось, что они могут содержать все возможные значения, хотя некоторые с нулевой вероятностью. Это обобщение не возможно для модальных интервальных-значных (т.е. количественных гистограмм) так как гистограмма подынтервалов не то же самое для всех наблюдений . [20]

(3.25)

где количество гистограмм подинтервалов для значения Y.

(3.26)

где число гистограмм подинтервалов для наблюдаемых значений X.

В общем , для и . Где и для как частный случай интервал-значных данных.

и , (3.27)

где

(3.28)

(3.29)

(3.30)

Пример. Данные таблицы 3.6 представляют гистограмм-значных переменных, где зависимой переменной является Y = гематокрит и переменной предиктором является X = гемоглобин. Обратите внимание, что и интервал-значные. Мы хотим, чтобы данные соответствовали модели . Имеем . подставляя значения X, имеем следующие значения.

Таблица 3.6 Гистограмные переменные

Y

X

{[33.29, 37.52), 0.6| [37.52, 39.61], 0.4}

{[11.54, 12.19), 0.4| [12.19, 12.80], 0.6}

{[36.69, 39.11), 0.3| [39.11, 45.12], 0.7}

{[12.07, 13.32), 0.5| [13.32, 14.17], 0.5}

{[36.69, 42.64), 0.5| [42.64, 48.68], 0.5}

{[12.38, 14.20), 0.3| [14.20, 16.16], 0.7}

{[36.38, 40.87), 0.4| [40.87, 47.41], 0.6}

{[12.38, 14.26), 0.5| [14.26, 15.29], 0.5}

{[39.19, 50.86]}

{[13.58, 14.28), 0.3| [14.28, 16.24], 0.7}

{[39.70, 44.32), 0.4| [44.32, 47.24], 0.6}

{[13.81, 14.50), 0.4| [14.50, 15.20], 0.6}

{[41.56, 46.65), 0.6| [46.65, 48.81], 0.4}

{[14.34, 14.81), 0.5| [14.81, 15.55], 0.5}

{[38.40, 42.93), 0.7| [42.93, 45.22], 0.3}

{[13.27, 14.00), 0.6| [14.00, 14.60], 0.4}

{[28.83, 35.55), 0.5| [35.55, 41.98], 0.5}

{[9.92, 11.98), 0.4| [11.98, 13.80], 0.6}

{[44.48, 52.53]}

{[15.37, 15.78), 0.3| [15.78, 16.75], 0.7}

Если бы середина значения каждой гистограммы подинтервале использовались вместо классических значений, Уравнения (3.28) - (3.30) даст .

Как уже говорилось в разделе для интервал-значных переменных, использование только середин подинтервала имеет эффект потери внутренних изменений в пределах наблюдений, в то время как с помощью символической ковариации можно избежать этих потерь.

Для гематокрита-гемоглобина гистограмм-значных данных таблицы 6.8, использование в полной мере символических интервалов дает значение ковариационной , в то время как с метод подинтервальной середины дает значение . Видно что, при использовании средних точек некоторые вариации данных теряются.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]