Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Все шпоры по САНИ.doc
Скачиваний:
4
Добавлен:
01.03.2025
Размер:
1.26 Mб
Скачать

32. Коэффициент Гудмена-Краскала λb, его свойства, вероятностная интерпретация и интервальные оценки (таблицы rХs).

где ;

Если , то существует однозначная или взаимооднозначная зависимость Y от X, т.е. Y жестко связан с X или связан по вероятности.

Если , то Y не зависит от X, т.е. информация об X не улучшит прогноза Y, а также когда все максимальные значения наблюдаемых частот по строкам находятся в одном столбце, соответствующей максимальной маргинальной частоте, что является главным недостатком коэффициента.

Вероятностный смысл – показывает снижение вероятности ошибки предсказания признака Y при известной информации о принадлежности наблюдения к некоторому классу признака X по сравнению с ситуацией, когда информация отсутствует.

Интервальная оценка:

где - сумма только таких максимальных элементов строк, для которых значение i обеспечивает попадание в столбец с наибольшим итогом.

33. Коэффициент Гудмена-Краскала λ, его свойства, вероятностная интерпретация и границы определения (таблицы rХs).

где ; ; ;

В числителе λ сумма числителей λa и λb, а в знаменателе сумма знаменателей λa и λb.

Вероятностный смысл – показывает снижение вероятности ошибки предсказания признака при известной информации о принадлежности наблюдения к некоторому классу другого признака по сравнению с ситуацией, когда эта информация отсутствует.

Для λ выполнено . Но это не интервальная оценка.

34. τ-меры Гудмена-Краскала. Их отличие от коэффициентов λ Гудмена-Краскала.

Коэффициенты основаны на сравнении ситуаций, когда есть информация о принадлежности наблюдений к тому или иному классу и когда этой информации нет. Отличие τ-мер от коэффициентов λ Гудмена-Краскала состоит в методе предсказания. τ-мера предсказывает не наиболее вероятную категорию, а различные категории в пропорции, которая имеет место для их наблюдаемых итогов.

Асимметричные τ-меры показывают на сколько процентов уменьшится неправильный прогноз категории одного признака для случайно взятого объекта при условном пропорциональном прогнозировании по сравнению с безусловным.

Симметричная τ-мера показывает на сколько процентов уменьшится неправильный прогноз категории для случайно взятого объекта при условном пропорциональном прогнозировании по сравнению с безусловным.

Но это не интервальная оценка.

35. Простейшая мера связи между упорядоченными признаками, ее недостатки.

Рассматривается пара наблюдений, одно из которых имеет категорию i переменной X и j переменной Y, а второе i` переменной X и j` переменной Y.

S – общее число пар наблюдений, для которых либо одновременно i>i` и j>j`, либо одновременно i<i` и j<j` (юго-восточнее или северо-западнее элемента)

D – общее число пар наблюдений, для которых либо одновременно i>i` и j<j`, либо i<i` и j>j` (северо-восточнее или юго-западнее элемента)

Ta – общее число пар наблюдений, для которых i=i` (в этой строке)

Tb – общее число пар наблюдений, для которых j=j` (в этом столбце)

S – число положительных слагаемых в сумме

D – число отрицательных слагаемых в сумме

Ta + Tb – число нулевых слагаемых в этой сумме

Простейшая t-мера ta

В данных нет совпадений -> и ≠0

изменяется от –n(n-1) до n(n-1) ->

Недостатки:

  • не достигает

  • Ее истинные границы определяются числом нулей в данных

36. t-меры Кендэла для упорядоченных признаков и их свойства

Рассматривается пара наблюдений, одно из которых имеет категорию i переменной X и j переменной Y, а второе i` переменной X и j` переменной Y.

S – общее число пар наблюдений, для которых либо одновременно i>i` и j>j`, либо одновременно i<i` и j<j` (юго-восточнее или северо-западнее элемента)

D – общее число пар наблюдений, для которых либо одновременно i>i` и j<j`, либо i<i` и j>j` (северо-восточнее или юго-западнее элемента)

Ta – общее число пар наблюдений, для которых i=i` (в этой строке)

Tb – общее число пар наблюдений, для которых j=j` (в этом столбце)

S – число положительных слагаемых в сумме

D – число отрицательных слагаемых в сумме

Ta + Tb – число нулевых слагаемых в этой сумме

tb – мера Кэндела: Если нет совпадений -> и ≠0

= tb, если нет нулевых клеток

Если в данных есть совпадения, то > tb,

tb может достигать , но только в случае квадратной таблице сопряженности, когда все наблюдения сосредоточены на положительной или отрицательной главной диагонали.

В случае прямоугольных таблиц rxs мера достигает максимума, когда все наблюдения лежат в клетках самой длинной диагонали таблицы (т.е. диагонали, содержащей m=min(v,s) клеток) и насколько возможно поровну распределены между этими клетками. В этом случае

При больших объёмах (n>100)

Когда все наблюдения лежат в клетках самой длинной диагонали таблицы и насколько возможно поровну распределены между клетками, при дополнительном условии n кратно m

Может достигать приблизительно для любых таблиц rxs

При больших объёмах выборки

Если равны все частоты в маргинальной строке и все частоты в маргинальном столбце, тогда для квадратной таблицы . Если таблица прямоугольная, то

37. d-меры Сомерса, их вероятностная интерпретация.

Рассматривается пара наблюдений, одно из которых имеет категорию i переменной X и j переменной Y, а второе i` переменной X и j` переменной Y.

S – общее число пар наблюдений, для которых либо одновременно i>i` и j>j`, либо одновременно i<i` и j<j` (юго-восточнее или северо-западнее элемента)

D – общее число пар наблюдений, для которых либо одновременно i>i` и j<j`, либо i<i` и j>j` (северо-восточнее или юго-западнее элемента)

Ta – общее число пар наблюдений, для которых i=i` (в этой строке)

Tb – общее число пар наблюдений, для которых j=j` (в этом столбце)

S – число положительных слагаемых в сумме

D – число отрицательных слагаемых в сумме

Ta + Tb – число нулевых слагаемых в этой сумме

У полагают зависимой от Х

Представляет собой разность между вероятностями получить правильный и неправильный порядок при случайном извлечении из совокупности 2 наблюдений, когда переменная Х не имеет совпадающих рангов.

Х полагают зависимой от У

Представляет собой разность между вероятностями получить правильный и неправильный порядок при случайном извлечении из совокупности 2 наблюдений, когда переменная Y не имеет совпадающих рангов.

38. Мера Гудмена-Краскала для упорядоченных признаков и ее свойства.

Рассматривается пара наблюдений, одно из которых имеет категорию i переменной X и j переменной Y, а второе i` переменной X и j` переменной Y.

S – общее число пар наблюдений, для которых либо одновременно i>i` и j>j`, либо одновременно i<i` и j<j` (юго-восточнее или северо-западнее элемента)

D – общее число пар наблюдений, для которых либо одновременно i>i` и j<j`, либо i<i` и j>j` (северо-восточнее или юго-западнее элемента)

Ta – общее число пар наблюдений, для которых i=i` (в этой строке)

Tb – общее число пар наблюдений, для которых j=j` (в этом столбце)

S – число положительных слагаемых в сумме

D – число отрицательных слагаемых в сумме

Ta + Tb – число нулевых слагаемых в этой сумме

Представляет собой разность между вероятностями правильного и неправильного порядка для 2 наблюдений, случайно извлеченных из совокупности, при условии, что совпадающих рангов нет.

Свойства:

  1. γ может достигать своих пределов , если все наблюдения лежат на самой длинной диагонали таблицы.

  2. Если Х и У независимы, то γ=0. Обратное верно не всегда. Если γ≠0, то они точно зависимы

  3. Выборочное распределение γ приблизительно нормально

39. Определение и свойства трехмерных таблиц сопряженности. Маргинальные частоты и частные распределения признаков. См фото 2 и 3