Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Интелектуальный анализ данных.docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
163.03 Кб
Скачать

Регрессионный анализ

выборка, состоящая из n единиц, которая имеет два значения X и Y. Полученное значение роста мы упорядочиваем в порядке возрастания . Начинаем обрабатывать данные для значения роста (студенты минимального роста). Получаем значение весов студентов с ростом и находим их среднее значение. Полученное значение отображаем на графике. Продолжаем делать аналогичные вычисления, до тех пор, пока не получим значения людей с самым высоким ростом.

…(график)…

- условное математическое ожидания случайной величины Y (вес), при котором случайное значение X (рост) имеет значение .

– полученную функцию назовем функцией регрессии случайной величины Y на случайную величину X.

Мы сделали статистическую оценку функции регрессии, полученную по выборке объему m.

- условное математическое ожидания случайной величины X (рост), при котором случайное значение Y (вес) имеет значение .

– функции регрессии веса на рост.

– статистическая оценка функции регрессии на рост по выборке объема n.

Проверка статистических гипотез

Исходные данные:

  1. Известно, что рост юношей распределен по нормальному закону с известными параметрами.

  2. Известен закон распределения роста девушек.

Дисперсия у них будет равна, а математическое ожидание будет различаться.

…(график)…

Поступило n значений. Принадлежность этих измерений к определенному классу не известно. Целью обработки является …

Гипотезу о том, что результаты измерений принадлежат юношам, назовем 0. А гипотезу о том, что результаты измерений принадлежат девушкам, назовем K.

Возможны такие варианты:

  1. Верна основная гипотеза и мы приняли решение, что основная гипотеза верна. O,O

  2. Верна основная гипотеза, но мы приняли решение, что вторая гипотеза конкурирующая. В дальнейшем мы будем называть это ошибкой первого рода. Вероятность этой ошибки равна верности отвергнуть основной гипотезы. Будем обозначать ошибку первого рода O,K

  3. Верна вторая гипотеза и мы приняли решение, что вторая гипотеза верна.

  4. Верна вторая гипотеза, но мы приняли решение, что верна основная гипотеза. Вероятность этой ошибки равна вероятности отвергнуть эту гипотезу. В дальнейшем мы будем называть это ошибкой второго рода. В дальнейшем будем обозначать ошибку второго рода . К,O.

Критерий качества оценки решающего правила

- нужно найти такое решение, чтобы этот критерий оценки стремился к минимуму.

- априорная вероятность того, что верна основная гипотеза.

– априорно верна конкурирующая гипотеза.

Ошибка второго рода называется ложной тревогой. Ее цена намного меньше, нежели цена ошибки первого рода.

– оценка ошибки штрафа.

– критерий среднего риска или Байеса.

…(график)…

– условная плотность вероятности случайного значения X при условии, что верна основной теории.

– условная плотность вероятности случайного значения Y при условии, что верна вторая теории.

– функция правдоподобия при условии верной конкурирующей гипотезы.

– функция правдоподобия при условии верной основной гипотезы.

При – верна основная гипотеза.

– отношение правдоподобия.

– при использовании критерия среднего риска, решающее правило приобретает вид, где C константа определяемая функцией штрафов и априорными вероятностями появления объектов.

В случае нормального закона распределения и критерия использование этого аппарата дает следующий результат – средне выборочное. – математическое ожидания и .

08.11.12

C1 – рост

C2 – вес x – сопоставление роста и веса одного студента – образ.

Набор образов относящихся к одному объекту, мы будем называть кластером.

Два и более кластеров относящихся к одному объекту называется таксономом.

В общем случае, разделяющая поверхность задается в n-мерном пространстве и может быть достаточно сложной формой.