Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

страхование для выдачи студентам / Элементы страховой математики

.pdf
Скачиваний:
197
Добавлен:
22.03.2016
Размер:
2.33 Mб
Скачать

OCK(0) =YQY

где Q = In - Xd(X d Xd)-1X d;

В полученном выражении Y заменяется на Y-X·Θ , и после этого

определяется такое Θ которое минимизирует полученное выражение. Итак,

OCK (Θ) = (Y XΘ)Q(Y XΘ);

{OCK (Θ) }= 2XQX Θ − 2XQY = 0,

∂Θ

откуда

Θ =(XQX)-1 · XQY.

Подсчитывается остаточная сумма квадратов для общей модели, равная :

 

ˆ

ˆ

OCK = minOCK (Θ) = (Y − Χ Θ) Q(Y − ΧΘ) =

 

Θ

 

 

ˆ ′ ′

 

 

= Y QY −Θ Χ QY.

 

 

 

 

 

 

Для получения оценок Θ d в выражении для

Θ d ( 0 ) вектор Y

заменяются вектором Y-X·Θ .

Проверка гипотез относительно параметров θdi проводится так же, как в моделях дисперсионного анализа, т.е. проверяется гипотеза об отсутствии влияния рассматриваемых неколичественных переменных на результативный показатель: Н: θD1= θD2=…= θD1=0, но со значением OCK , подсчитанным по приведенной выше формуле, и с числом

степеней свободы k

, равным числу степеней свободы OCK модели

дисперсионного анализа минус ранг матрицы X. Проверка гипотезы HΘ:

Θ≡0 проводится с помощью статистики

 

 

 

 

 

1

ˆ

 

 

1

 

 

 

 

Θ′Χ′

 

 

 

OCK,

 

ранг(X)

 

QY

 

k

 

 

 

 

 

 

которая, в предположении справедливости гипотезы HΘ, имеет F(t,k) распределение (где t –ранг (Х)).

Таким образом, если окажется, что подсчитанная по этой формуле величина F превосходит значение 100α %-ной точки F (α, t ; k), F- распределения Фишера-Снедекора, то гипотеза Н отвергается (с уровнем значимости критерия, равным α) /1/.

После проверки существенности влияния на результативный признак отдельных факторов или их всевозможных комбинаций (включая все факторы вместе) в дисперсионном анализе, (а следовательно, и в ковариационном анализе), могут быть поставлены и решены еще некоторые задачи, рассмотренные в /Болч или Афифи/.

271

Построение доверительных интервалов. Если в результате применения F- критерия гипотеза Н отвергается, то необходимо

выявить, насколько параметры θi отличаются друг от друга. Обычно представляют разности вида:

θ1 θ2 , θ1 2 + θ3 )/2, (θ1 + θ2 )/2 3 + θ4 + θ5 )/3 и т.п.

Данные линейные комбинации, имеющие вид: i θi = 0, где

C i = 0, называют “сравнениями” или “контрастами” параметров θi . Если линейная комбинация задана до получения экспериментальных данных, то (1-α) - доверительный интервал для Ci θi - строится как:

 

 

 

 

c 2

Ci

yi*

± (tα/2

(n I))

i

se

 

где

 

 

 

J i

 

 

 

 

 

tβ(k) - 100 β % -ная

точка

t - распределения Стьюдента с k

степенями свободы.

Однако на практике такие сравнения составляются обычно после

получения экспериментальных данных, т.е. когда известны оценки θˆ i .

Опираясь на них, среди всех возможных сравнений отбираются те, которые кажутся наиболее важными. В данном случае применение указанной формулы (для построения доверительного интервала) к отобранным сравнениям не оправдано и приводит к более узкому, чем должно быть, доверительному интервалу. Обычно в этих условиях отказываются от индивидуального доверительного интервала и строят множественные доверительные интервалы, которые одновременно выполняются либо для всех возможных сравнений, либо для какогонибудь выделенного подмножества сравнений. Наиболее известны три метода построения таких интервалов: S- метод Шеффе, Т- метод Тьюки и метод уменьшения уровня критерия Стьюдента /А., Е., М./.

S- метод Шеффе формулируется следующем образом:

| ci i y i* ) |=| ci i* ε** ) |=

i

=| ci

Ji i* ε** ) (ci2

)1/2

×(Jk k* ε** )2 )1/2

i

Ji

i Ji

 

k

Правая часть равенства состоит из двух сомножителей, первый из которых носит не случайный характер, а второй не зависит от выбора Ci

, распределен, как σ2χ2 (I 1) и не зависит от S2Њ . Отсюда выводится, что величина второго сомножителя с вероятностью (1-α ) будет меньше, чем [(I 1) ×Fα(I 1, n 1)]1/2 st . Следовательно, с вероятностью не

272

меньше (1-α ) , для всех сравнений одновременно выполняется неравенство:

 

 

2

 

1/2

| Ci θi Ci y i* |

ci

 

×[(I 1)Fα (I 1, n I)]1/2 se

J i

 

i

 

 

Т - метод Тьюки применяют только к сравнениям вида θi θj . Пусть

yi* θi

расположены в вариационный ряд, где Zmin

- наименьшее из них

и Zmax

- наибольшее. Для всех I (I - 1)/2 пар (i , j):

 

 

 

 

| y i* y j* θi + θj |Z max Z min = max εi*

min εj*

 

 

i

 

j

 

Разность в правой части этого неравенства

при Ji = J

с

вероятностью (1- α ) ограничена величиной

qα(I,n 1)SЊ ,

где

qα(I,n 1) - 100α %- ная точка стьюдентизированного размаха с числом

степеней свободы I

, n-I.

(Если случайные величины η1 ,...ηI , χ2 (k)

независимы

между

собой

и

ηi N(0,1) , тогда случайная величина

qik = (maxηi

minηi )/

χ2 (k)

называется стьюдентизированным размахом

с числом степеней свободы I ,

k .

Метод уменьшения уровня критерия Стьюдента. При построении k доверительных интервалов, где k не слишком велико, обычно пользуются приведенным выше неравенством с меньшим значением

уровня: α′ = α/k . В этом случае вероятность того, что будут верны одновременно все k доверительных интервалов, не менее (1-α ).

Поскольку описание объектов экономико-статистического исследования часто включает признаки разных типов, а статистические методы рассчитаны на обработку информации определенных видов шкал, преимущественно метрических, то возникают проблемы соизмерения признаков различной природы.

Качественные - это описательные признаки, их значения выражаются не числовой, а словесной характеристикой. Выделяют три основные шкалы измерения признаков: номинальная, порядковая, интервальная. Номинальная шкала указывает градации признака исследуемого объекта - это отношение объекта к одному из классов по данному признаку. Значения количественных показателей здесь выступают в роли указателей. По данной шкале могут быть измерены количественные и качественные признаки.

Для порядковой шкалы характерно упорядочение между собой градации признака асимметричным образом. Эта шкала расставляет градации признака по ступенькам, но величины различий (ступенек) она не указывает. В данном случае представляет интерес не числовое значение признака, а порядковый номер его места (ранг).

273

По номинальной шкале также могут быть измерены как количественные, так и качественные признаки. Наиболее высок уровень измерения по интервальной шкале. Эта шкала дает возможность не только указать ранг, но и описать в точности его отличие от других градаций - определить интервал между соответствующими градациями по шкале. В случае существования абсолютного нуля по шкале получаем еще более высокий уровень измерения - шкалу отношений. По интервальной шкале измеряются только количественные признаки.

Поскольку в модели присутствуют качественные признаки, то в исследовании они учитываются следующим образом.

Методика анализа, включенного в исследование страхового тарифа, основана на применении матриц корреляции, которые рассчитываются для признаков, измеряемых по интервальным шкалам. В практических исследованиях часты случаи, когда основная масса признаков регистрируется номинальными и ранговыми шкалами /А., Е., М./. В этих случаях характеру исходной информации в большей мере будут отвечать иные меры связи - меры взаимной сопряженности либо теоретико-информационные показатели связи. Очень часто в исследованиях сталкиваются именно с данной ситуацией, когда признаки программы наблюдения измеряются в различных шкалах. В итоге возникает противоречие между характером исходной информации и математическим аппаратом ее обработки, в связи с чем появляется необходимость факторизации качественных данных. В решении этой проблемы наметилось несколько направлений /1/.

С одной стороны, разработаны процедуры факторного анализа непосредственно для качественных признаков, но данный подход ограничивается исследованием дихотомических (альтернативных) переменных и поэтому имеет достаточно узкое применение в практических исследованиях. Хотя всякую дискретную переменную путем незначительных преобразований можно превратить в объединение дихотомических переменных, объем информации возрастает в такой степени, что этот подход оказывается часто неприемлемым.

Другое направление, используемое в данной работе, основывается на специальных приемах преобразования качественных признаков. Основная идея таких преобразований заключается в переходе от номинальной шкалы измерений к порядковой, а затем к интервальной, т.е. проводится усиление шкал /1/. Переход от качественных оценок, полученных в ходе исследования, к количественным расчетам требует преобразований. Для этого проводится отождествление различных качественных уровней признаков с ранговой шкалой, что оправдано лишь в том случае, если расстояние между соседними рангами на некоторой гипотетической интервальной шкале одинаково.

Поскольку анализ базируется на данных выборочного наблюдения, всегда существует ненулевая вероятность получить непредставительную

274

выборку, и даже в случае полного соблюдения принципов выборочного обследования - из-за случайности, разной возможности для единиц генеральной совокупности попасть в выборку (под представительностью понимают адекватность структуры выборки структуре генеральной совокупности). Идеальную представительность получают в случае полной адекватности обеих структур, что реализовать практически невозможно, поэтому принято считать представительной выборку, которая обеспечивает отклонения значений основных характеристик выборочной совокупности не более, чем на 5%, относительно параметров генеральной совокупности. Следовательно, в том случае, когда имеются данные по генеральной совокупности, фактическую репрезентативность выборки можно проверить сравнением показателей по генеральной и выборочной совокупностям, и если фактическая ошибка не превышает, например, 5%, считают, что фактически полученная выборка – представительна.

Такой подход имеет некоторую условность. Однако, если учесть, что исследуемое подмножество договоров является достаточно многочисленным и случайным подмножеством из всех договоров, то можно считать малые различия результатов по этим двум множествам свидетельством адекватности построенной модели реальному исследуемому процессу.

Информативность признака определяется суммой (по модулю) коэффициентов взаимной информации либо иных показателей связи (коэффициентов парной корреляции - по модулю, коэффициентов взаимной сопряженности и т.п.) данный подход лучше характеризует информативность признаков системы.

Очень часто описание объектов статистического исследования включает отдельные качественные по своей природе факторы, которые не измеряются по числовой шкале и которые необходимо ввести в

ковариационную модель, рассматриваемую как частный случай регрессионного анализа. Сразу в такой модели возникает серьезная проблема соизмерения признаков различной природы. Наиболее часто решение этой задачи основывается на включении в регрессионную модель фиктивных переменных.

Фиктивными называют искусственные переменные, используемые в регрессионном анализе для описания качественных или трудно квантифицируемых характеристик, как правило, принимает значение 0

или 1 /1/.

Качественное различие можно формализовать с помощью любой переменной, принимающей два значения, а не обязательно значения 0 или 1. Однако в эконометрической практике почти всегда используют лишь фиктивные переменные типа “0 - 1”, поскольку в этом случае интерпретация выглядит наиболее просто.

Если включаемый в рассмотрение качественный признак имеет не два, а несколько значений, то иногда вводят дискретную переменную,

275

принимающую такое же количество значений. Но таким методом пользуются крайне редко, т.к. в таком случае трудно дать содержательную интерпретацию соответствующему коэффициенту. Тогда используют несколько бинарных переменных. Типичным примером является исследование сезонных переменных.

Фиктивные переменные являются весьма гибким инструментом при исследовании влияния качественных признаков. Они позволяют строить и оценивать так называемые кусочно-линейные модели, которые можно применять для исследования структурных изменений. С помощью фиктивных переменных можно исследовать влияние разных качественных признаков, а так же их взаимное влияние.

Способ включения фиктивных переменных зависит от априорной информации влиянии соответствующих качественных признаков на зависимую переменную и от гипотез, которые проверяются с помощью модели. От способа включения фиктивной переменной зависит и интерпретация оценки коэффициента при ней.

Чтобы повысить адекватность регрессионной модели, включающей признаки различного вида, обычно используют один из двух подходов к решению данной задачи.

В первом из них для каждого вида признаков строится своя модель. На основании этих частных моделей формируется общая модель. Иногда по качественным признакам проводят группировку объектов, а по количественным признакам строят групповые модели. Решение о возможности применении этого подхода принимается в каждом конкретном случае с учетом его особенностей. Однако в этом методе не учитывается связь разнотипных признаков, что может привести к неадекватности модели. При исследовании риска в договоре страхования жизни разбиение на 0 или 1 недостаточно информативно опишет такие качественные факторы, как профессию, образ жизни, национальность (а следовательно, генетические особенности), место жительства (экологические характеристики) и т.д.

Во втором подходе все признаки приводят к одному виду. Здесь различают три метода: перевод (перекодировка) качественных признаков в количественные, перевод количественных признаков в качественные, перевод качественных признаков в дихотомические.

1) Перевод качественных признаков в количественные заключается в последовательном перекодировании значений

~

качественных признаков. Т.е., если x j - качественный признак,

 

 

 

 

 

~

l

 

 

 

 

 

принимающий

k

значений x

j ,

l =

1,

k

.

То задача состоит в

замене

качественных, кодовых

значений

~

на количественные

x j

~

l

 

 

 

 

 

 

 

 

 

 

x

j ,

l =

1,

k

. Их определение производится путем минимизации

среднего риска модели.

276

В частности, при построении линейной регрессии используют следующую процедуру. Устанавливают очередность перекодировки о качественных признаков. Для перекодирования очередного

~

качественного признака x j строят линейное уравнение y , включающее все количественные и все перекодированные к этому

моменту качественные признаки.

Далее

совокупность

разбивают на

 

 

 

 

 

 

~

l

 

 

 

группы объектов с одинаковыми значениями x

j , l =

 

1, k

. После

этого находят числовые значения

 

 

 

 

 

 

 

 

 

 

 

1

n

 

 

 

 

 

 

 

 

 

 

xlj =

l (yi

 

i ) ,

l =

 

 

 

 

 

y

1, k

 

 

 

 

 

 

 

 

nl i=1

 

 

 

 

 

 

 

 

 

 

Суммирование проводится по всем объектам l-го - класса; nl - число

объектов l-го класса. Величина xlj

 

равна среднему значению ошибки

аппроксимации в l -м классе.

Линейная модель, в которую дополнительно включен признак xj

имеет вид: y' = y + x j .

Данный метод по существу представляет собой последовательную подгонку моделей под значения результативного показателя исходной совокупности, что может привести к получению искаженной модели

риска.

 

 

2) Перевод

количественных признаков в качественные. В этом

методе вначале

каждый

количественный признак xj переводят в

качественный

~

 

x j . Для этого проводят разбиение совокупности

объектов по значениям xj

на k групп. Значением нового качественного

~

признака x j i-го объекта служит номер группы, в которую попал данный объект. Построение моделей в дальнейшем осуществляют на основании признаков, имеющих качественный вид.

Недостатком этого способа является потеря информации при переводе количественных признаков в качественные и невозможность использования методов изучения связи количественных показателей, что также не приемлемо в исследовании риска при страховании жизни.

3)Перевод качественных признаков в дихотомические

(альтернативные), принимающие два значения 0 или 1. Здесь

~

качественный признак x j , имеющий k значений заменяется на k дихотомических признаков x1j ,..., xkj для i-го объекта:

~

l

 

 

x

j , l =

1, k

,

 

, значения которых

l

~

~

l

x ji =1, если значение признака

x j i-го объекта равно

x

j ;

277

l

~

~

l

x ji =0, если значение признака

x j i-го объекта на равно x

j .

 

~ k

исключается из

Иногда последний дихотомический признак x j

анализа. Это правомерно, поскольку информация о его значениях содержится в первых k-1 дихотомических признаках. При построении моделей связи дихотомические признаки рассматривают, как количественные.

Недостатком этого метода является искусственное увеличение признакового пространства, что снижает качество моделей, а также описание качественных признаков с помощью 0 или 1 не отражает полной взаимосвязи между качественными и количественными признаками в модели и не полностью отражает их влияние на результирующий при исследовании риска в страховании жизни.

Проблему перевода качественных признаков в количественные для дальнейшего использования в регрессионном анализе можно решить с помощью оцифровки, т.е. присвоения числовых меток градациям неколичественных переменных. Такой же подход пригоден для преобразования количественных переменных, которые предварительно подвергаются квантированию и для анализа данных смешанной природы.

Возможность оцифровки номинальных переменных в данном подходе основывается на том, что в рамках конкретной задачи каждой категории кодируемой переменной соответствует некоторая совокупность значений скрытых, не измеряемых непосредственно, но реально существующих переменных. Числовая метка, присваиваемая категории номинальной переменной при оцифровке, является некоторым обобщенным результирующим значением для совокупности значений не наблюдаемых переменных, характерных для объектов, выделяемых данной категорией кодируемой переменной.

Требования, которым должны удовлетворять наборы числовых меток, получаемые в результате работы процедуры оцифровки, для дальнейшего использования в исследовании зависимости следующие: пусть x- некоторый неколичественный признак из матрицы данных X, имеющий lx градаций (категорий) значений. Пусть каждой из lx градаций

присвоена числовая метка cr (r =1,l x ). Поскольку корреляции между признаком x и другими признаками не зависят от преобразования сдвига и масштабирования меток, требуется выполнение условий центрирования и нормировки:

n

1

n

cr (i ) = 0 ;

cr2(i ) =1 ,

 

i=1

n i=1

где

r(i) - номер градации признака x для i-го объекта.

278

 

 

 

 

Пусть теперь

P =

ni

 

- частота i-й градации признака x у объектов

n

 

 

 

 

 

 

из X . Тогда условия нормировки записываются в виде:

 

l

 

l

P)rcr2 =1 ,

 

x

P)rcr = 0 ; x

 

r=1

 

r=1

 

Выполнение модифицированных условий нормировки гарантирует от появления тривиальных наборов меток, (когда числовые метки, присваиваемые градациям признака x , одинаковы).

Далее категориям неколичественных признаков приписываются числовые метки, удовлетворяющие условиям нормировки, и максимизирующие величину:

p

Q2 = ρij2 i< j

где i, j = 1, p

p - число признаков,

pi, j - коэффициенты корреляции между i-м и j-м признаками после кодировки.

Теперь множество переменных x1,…,xq разбито на две группы -

группу X(1) из q переменных, подлежащих оцифровке, и группу X (2) из p- q переменных, для которых сохраняются исходные значения меток. В частности, в группе X(2) могут быть переменные, измеренные и в количественной шкале. Считается, что признаки пронумерованы так, что в X(1) входят признаки x1,…,xq, а в X(2) - признаки xq+1,…,xp. Критерий Q2 представляется в виде суммы трех слагаемых :

Q2 = Q12 + Q12,2 + Q22 ,

где

Q 12 - сумма квадратов коэффициентов корреляции между переменными

X (1);

Q 12, 2 - сумма квадратов коэффициентов корреляции между переменными

X (1 ) и X (2);

Q22 - сумма квадратов коэффициентов корреляции между переменными

X (2).

Величина слагаемого Q22 не зависит от кодировки, и поэтому определение оптимальных меток проводится, исходя из условия максимума критерия:

Q~2 = Q12 +Q12,2

279

Ci(j )

Далее приведены формулы для вычисления оценок коэффициентов

корреляции, входящих в состав сумм

Q2

и

Q12,2

.

1

 

Пусть признаки xi X (1)

и x j X (1)

и li - число категорий признака

xi. Тогда, если выполнены условия нормировки, то:

ρ)ij = Ci F (i, j)C j

где

- вектор числовых меток для категорий признака xi(i) :

F(i, j) - нормированная таблица сопряженности размера li*lj между

признаками xi и xj, т.е.

F)(i, j)= 1n N (i, j)

Пусть теперь признак x i X (1 ), а x j X (2) и пусть предварительно признак x j нормирован и центрирован. Тогда:

 

 

 

 

)

 

 

 

 

 

)

 

 

(i )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ρij = Ci Pi

C j

 

 

 

 

 

 

 

 

 

 

где -

P = diag

(p)

,K, p) )

 

 

 

 

 

 

 

 

 

 

 

 

,

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

1

 

 

 

 

li

 

 

 

 

 

 

 

 

 

p)k - частота появления k-й градации признака xi (k =1,li )

;

 

 

 

 

 

 

(

 

 

j(i ))= (

c1(ij),K,

cl(i )

 

 

)

 

 

 

 

 

 

 

 

 

 

C

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

(i)k - среднее значение признака

 

xi

 

 

 

 

 

c

 

на множестве объектов с k-й

 

 

 

x

(k =

 

 

)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

X (1)

категорией признака

1,l

i

.

Для

каждого признака

i

i

 

 

 

 

 

 

 

введется симметричная неотрицательно определенная матрица AI, такая,

 

 

 

 

 

 

 

 

 

 

 

~

 

Ci = Ai Ci .

 

 

 

чтобы удовлетворялось равенство Q /

 

 

 

Непосредственным дифференцированием получается:

 

 

 

 

 

q

 

 

 

 

 

 

 

 

(j,i)+ P)i

 

j(i)(

 

j(i ))P)j

 

 

 

 

 

Ai = N(i, j)CjCj N

 

 

 

 

 

 

 

C

C

 

 

 

 

 

j i

 

 

 

 

 

 

 

 

 

 

 

 

 

j =q+1

 

 

 

 

 

 

 

 

 

 

(x j X (1) )

 

 

 

 

 

 

 

 

 

 

 

 

 

(x j X (2 )

)

 

 

 

 

 

 

 

Вычислительная процедура данного итерационного процесса состоит в том, что числовые метки, максимизирующие величину критерия Q2, находятся по правилу:

Задаются начальные значения для C10 ,...,Cq0 ( координатам каждого

вектора присваиваются натуральные числа, т.е. номера градаций). Эти метки нормируются и центрируются.

280