Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Глазков - Редкие регрессии (1).doc
Скачиваний:
12
Добавлен:
01.03.2025
Размер:
109.06 Кб
Скачать

8

Национальный исследовательский университет Высшая школа экономики

Домашнее задание

на тему:

«Менее известные методы регрессионного анализа»

Выполнил:

Глазков Константин Павлович

студент 332 группы

Москва 2012

Содержание

Содержание 2

Введение 2

Основы регрессии и её связь с физическим смыслом эксперимента 2

Линейные и нелинейные регрессионные модели 3

Проблема оценки нелинейной регрессионной модели 4

Проблема данных в регрессионных моделях 5

Доверительные интервалы в нелинейной регрессионной модели 5

Заключение 7

Список литературы 8

Введение

В данной работе выполнена попытка выделить содержательную основу из докторской диссертации Алексея Померанцева, посвященной теме использования нелинейных регрессионных моделей для описания химических процессов. Опуская химические и математические подробности, мы постараемся обратить внимание на общность и различия линейной и нелинейной регрессии, обозначив плюсы последней и способ её построения.

Основы регрессии и её связь с физическим смыслом эксперимента

Мы будем полагать, что состояние исследуемой системы можно исчерпывающе описать некоторым (возможно бесконечным) набором детерминированных величин. Часть этих величин известна априори (например, условия эксперимента), а другая часть неизвестна. Известные величины принято называть предикторами (x), а неизвестные параметрами (a). В результате эксперимента мы получаем другой (уже конечный) набор величин (y) экспериментальные данные, которые являются реализацией случайных величин, т.е. выборкой из некоторой гипотетической генеральной совокупности. Случайность результатов измерений это результат действия многих неизвестных факторов, действующих на исследуемую систему, которые принято называть ошибкой или шумом (ε). Если удалить шум из данных, то оставшиеся детерминированные значения будут являться сигналом (f) полезной информацией, получаемой в эксперименте. Принципиально важно, что различие между сигналом и шумом не является абсолютным и зависит от постановленной задачи и от возможностей прибора. То, что в одной задаче можно рассматривать как шум, в другом случае будет уже полезной информацией сигналом. Результаты эксперимента, называемые откликами, зависят от набора величин, характеризующих состояние системы, как от предикторов, так и параметров. В общем случае эту зависимость можно представить некоторым оператором y=T(x, a, f, ε). Этот оператор может представлять простую, линейную зависимость, но в чаще всего это сложная, нелинейная функция. Большинство приборов устроено таким образом, что оператор T можно записать в виде y= f(x, a)+ε, (абсолютная ошибка измерения) или в виде y= f(x, a)(1+ε).

Такое представление связи между измеряемым откликом и неизвестным сигналом называется регрессией, а математические методы анализа этих зависимостей носят название регрессионных.

Линейные и нелинейные регрессионные модели

Выбор вида регрессионной модели, т.е. функция f(x, a) является центральным моментом при обработке экспериментальных данных. Если эта функция строится на основе базовых представлений о природе процессов, происходящих в исследуемой системе, то она, как правило, является сложной нелинейной зависимостью. Такой подход называется содержательным моделированием (hard modeling). Другой подход, называемый формальным моделированием (soft modeling), используется в тех случаях, когда содержательная природа исследуемого процесса либо неизвестна, либо слишком сложна. Тогда строится простейшая линейная зависимость сигнала от неизвестных параметров.

Противопоставление линейного и нелинейного моделирования имеет важное методическое значение. В Табл. 1 в схематичном виде представлены некоторые ключевые свойства того и другого метода. Их сравнительный анализ помогает понять, в чем состоят особенности, недостатки и преимущества каждого подхода. Заметим, что существует стойкое убеждение, заключающееся в том, что использование линейного моделирования значительно проще, чем нелинейного. Однако оно не всегда верное.

Табл. 1

Свойства линейной и нелинейной регрессионных моделей

Свойства

Линейное моделирование

Нелинейное моделирование

Формула

f=a1ϕ1(x)+ +apϕp(x)

любая f(x, a)

Различие

∂2 f / ∂2 a ≡ 0

∂2 f / ∂2 a ≠ 0

Модель

формальная

содержательная

Построение

легкое

трудное

Интерпретация

хорошо известна

плохо исследована

Назначение

интерполяция

экстраполяция

Мультиколлинеарность

избыток параметров

нехватка данных

Рассмотрим, в чем проявляется различие между линейным и нелинейным моделированием. Линейная модель представляется уравнением

f=a1ϕ1(x)+ +apϕp(x)

в котором ai это неизвестные параметры, а xi это известные независимые переменные или их функции. Существенно то, что модель линейна именно по параметрам т.е. При этом она зависимость от предикторов x может быть не линейной. Например, модель f = a*exp(-20x) линейна, поскольку она линейна по параметру а, несмотря на нелинейную зависимость от x.

Формально говоря, линейная модель это точка в пространстве всех возможных функций от p аргументов. Все остальное пространство занято нелинейными моделями. Поэтому понятно, что основная проблема нелинейного моделирования это выбор функции для описания эксперимента.