- •1. Основные понятия теории вероятностей
- •1.1. Распределения вероятностей
- •Непрерывной случайной величины х
- •1.1.2. Теоретические распределения вероятностей
- •Распределения Пирсона
- •1.3. Моделирование реализации случайных процессов
- •2 Экспериментальные факторные математические модели
- •2.1. Особенности экспериментальных факторных моделей
- •2.1.1. Основные принципы планирования эксперимента
- •2.1.2 План эксперимента
- •2.2. Регрессионный анализ
- •2.2.1. Оценка параметров регрессионной модели
- •2.3. Корреляционный анализ
- •2.3.1. Основные понятия
- •3.2.1. Точечные оценки параметров
- •2.3.3. Приемы вычисления выборочных
- •2.3.4. Проверка значимости параметров связи
- •2.3.5. Интервальные оценки параметров связи
- •2.4. Трехмерная модель
- •2.4.1. Основные параметры модели
- •Условное распределение при заданном z
- •Условное распределение при заданном (х, у)
- •2.4.2. Оценивание и проверка значимости параметров
- •3. Методы многомерной классификации
- •3.1. Классификация без обучения. Кластерный анализ
- •3.1.1. Основные понятия
- •3.1.2. Расстояние между объектами и мера близости
- •Расстояние махаланобиса (общий вид)
- •Обычное евклидово расстояние
- •"Взвешенное" евклидово расстояние
- •Хеммингово расстояние
- •3.1.3. Расстояние между кластерами
- •3.1.4. Функционалы качества разбиения
- •3.1.5. Иерархические кластер-процедуры
- •3.2. Дискриминантный анализ
- •3.2.1. Методы классификации с обучением
- •3.2.2. Линейный дискриминантный анализ
- •3.2.3. Дискриминантный анализ при нормальном законе распределения показателей
Условное распределение при заданном z
Так
как это двумерное нормальное распределение
(x,y)/z,
то оно определяется пятью параметрами
(двумя условными математическими
ожиданиями x/z,
и y/z,
двумя условными дисперсиями
и
;
условным коэффициентом корреляции
xy/z):
![]()

Форма
зависимости выражается следующими
линиями регрессии в плоскости Z=
:
![]()
![]()
Коэффициенты частной регрессии имеют вид:
![]()
(127)
![]()
причем
![]()
Условные средние квадратические отклонения (при двух условиях), характеризующие рассеяние относительно указанных линий регрессии и совпадающие с остаточными средними квадратическими отклонениями, определяются формулами:
![]()
![]()
Центр
условного двумерного распределения
(M(x/y)/z, M{y/x)/z)
при изменении Z
описывает прямую в пространстве 0xyz,
в то время, как условные дисперсии
и условный коэффициент корреляции xy/z
остаются постоянными.
Условное распределение при заданном (х, у)
Это распределение z/(x,y) является одномерным и определяется своими математическим ожиданием и дисперсией (естественно условными):
![]()
Если точку (х,у) менять, то будем иметь плоскость регрессии z на (х,у)
![]()
и остаточную дисперсию относительно плоскости регрессии (совпадающую с условной дисперсией)
.
Коэффициент множественной регрессии (совпадающий с соответствующим коэффициентом частной регрессии), например, zx/y, показывает, на сколько единиц своего измерения изменится признак z в среднем, если признак х изменится на единицу своего измерения, а остальные признаки не изменятся. Таким образом, коэффициент регрессии может выступать в качестве норматива.
Множественный коэффициент корреляции z можно вычислить в силу линейности регрессии и как корреляционное отношение z на (ху):

Если, например, zx/y = 0, то из последней формулы следует:

2.4.2. Оценивание и проверка значимости параметров
Пусть дана выборка объемом из трехмерной нормально распределенной генеральной совокупности с признаками х, у и z:
![]()
Обработку данных будем производить, руководствуясь таблицей приведенной ниже:
|
x |
y |
z |
x2 |
y2 |
z2 |
xy |
xz |
yx |
|
. . . xj
. . . |
. . . yj
. . . |
. . . zj
. . . |
. . .
. . . |
. . .
. . . |
. . .
. . . |
. . .
. . |
. . .
. . |
. . .
. . |
|
|
|
|
|
|
|
|
|
|
Точечные
оценки девяти генеральных параметров
x,
y,
z,
xy,
xz
и yz
можно вычислить по формулам:

(128)
![]()

Затем вычисляются оценки условных средних квадратических отклонений при фиксировании одной компоненты, частных коэффициентов корреляции, условных средних квадратических отклонений при двух фиксированных компонентах и множественных коэффициентов корреляции, используя формулы, соответствующие формулам для вычисления параметров генеральной совокупности:
![]()
![]()

(129)

(130)
![]()

Проверка значимости множественного коэффициента детерминации 2M (следовательно, и M) осуществляется с помощью F-распределения. Вычисляется
(131)
Затем с заданным уровнем значимости и числами степеней свободы vi=2 (числителя) и v1=n-3 (знаменателя) находят Fтабл. Если Fнабл>Fтабл, то гипотеза Н0:2М =0 отвергается с вероятностью ошибки , т. е. 2М значимо отличается от нуля. Если коэффициент незначим, связь между случайной величиной Z и случайной величиной (х,у) отсутствует.
Конечно, проверку значимости коэффициентов связи начинать с частных коэффициентов корреляции не обязательно. Можно в некоторых случаях сократить такую проверку, например, если z незначим, то коэффициенты zx/у и zy/x становятся незначимыми. Далее, если zx/у незначим, то z=|z/у| (множественный коэффициент корреляции незначимо отличается от абсолютной величины парного коэффициента корреляции).
Для значимых множественных коэффициентов корреляции можно получить оценки уравнения регрессии.
Например, пусть z значимо отличается от нуля, тогда оценкой соответствующего уравнения регрессии служит
(132)
При этом коэффициенты регрессии вычисляются по формулам:
(133)
и
является оценкой Мz/(х,у).
Напомним, что если какой-либо частный коэффициент корреляции незначим, то соответствующий коэффициент плоскости регрессии также незначим. Поэтому, если позволяют условия практического анализа, с точки зрения надежности статистических выводов, предпочтительнее рассматривать модель взаимозависимости признаков такую, для которой множественный коэффициент детерминации — наибольший (и, конечно, значимый): ему соответствует максимальное число значимых частных коэффициентов детерминации (корреляции).
Для значимых параметров связи представляет интерес найти интервальную оценку с надежностью = 1 - .
Интервальная оценка для частн находится с помощью статистики Фишера:
![]()
По
таблице указанного преобразования
находят величину Z/частн.
Затем вычисляют точность интервальной
оценки для MZ,
воспользовавшись тем фактом, что
статистика Z(r)
распределена приближенно нормально с
параметрами
и![]()
![]()
где t является решением уравнения Ф(t)= и находится по таблице интегральной функции Лапласа.
Затем вычисляются границы интервальной оценки для MZ по формуле
![]()
и, наконец, доверительные границы для част получают по таблице обратного преобразования Фишера.
Для
значимого множественного коэффициента
корреляции интервальная оценка также
находится с помощью Z-преобразования
Фишера, с дисперсией, приблизительно
равной
для достаточно больших значенийn.
Имеются
графики и таблицы (Эзекиела и Фокса; К.
Крамера) для получения интервальных
оценок
по
значениям
.
Определение доверительных интервалов для коэффициентов плоскости регрессии производится исходя из статистик:

(134)

которые имеют Z-распределение Стьюдента с v=n-3 степенями свободы. Для этого достаточно решить относительно оцениваемого коэффициента регрессии неравенство |t| t(,n-3), где t(,n-3) находится по таблице Стьюдента.
Для значимых частных и множественных коэффициентов детерминации можно указать более предпочтительные точечные оценки, чем выборочные коэффициенты, например:
-
оценка для
![]()
-
оценка для
![]()
