Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
km_2.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
1.09 Mб
Скачать

2.11. Регрессионный анализ

Математический метод обеспечивающий подгонку выбранной кривой, при которой экспериментальный точки ложатся на нее наилучшим образом в смысле критерия наименьших квадратов называется регрессионным анализом. Общий вид кривой наилучшего приближения аналитик должен выбрать по результатам изучения диаграммы разброса. Используемый в дальнейшем математический аппарат должен обеспечить наилучшее приближение кривой к экспериментальным данным независимо от того, насколько хорошо выбран вид кривой. Под приближением кривой понимается только процесс вычисления значений констант, или параметров таким образом, чтобы сумма квадратичных отклонений была минимальной. Аналитик должен предварительно выбрать наилучшее аппроксимирующее уравнение.

Детальное описание регрессионного анализа выходит за рамки курса. Его исчерпывающее рассмотрение можно найти в соответствующей литературе (Езекиэл М., Фокс К.А. Методы анализа корреляций и регрессий линейных и криволинейных. М., Статистика, 1966).

В качестве примера ограничимся обсуждением простейшего случая, когда ожидается, что у является линейной функцией одной переменной х.

Основная модель линейного соотношения между зависимой переменной у и независимой х дается уравнением

у = а0 + а1х + Е, (2.1)

где ао – начальное значение у, а1 – tg угла наклона прямой, Е – случайная ошибка. Величины ао, а1 и Е неизвестны. Если имеется совокупность данных, состоящая из соответствующих значений х и у, оценки а0 и а1 необходимо получить их этих данных, для этого надлежит воспользоваться следующими уравнениями:

(2.2)

(2.3)

Пример: Пусть имеется 4 экспериментальных точки (n = 4) и следует получить линейную аппроксимацию этой совокупности данных. Соответственные вычисления приведены в таблице 2.1.

Таблица 2.1

Линейная аппроксимация экспериментальных данных

х

у

х2

ху

0

1

0

0

2

4

4

8

2

3

4

6

3

5

9

15

7

13

17

29

S

2.12. Корреляция

Следует осознавать тот факт, что наилучшее приближение прямой (или кривой) к экспериментальным данным вовсе не означает, что реально существующая физическая зависимость наилучшим образом описывается аппроксимирующим уровнем, соответствующим именно этой прямой. Математические операции всегда лишь приводят к значению параметров, обеспечивающих наилучшее, в смысле критерия наименьших квадратов, приближение к уравнению выбранного типа. Наглядный этому пример дает рис. 2.11, из которого видно, что экспериментальные данные здесь вовсе не соответствуют линейной зависимости, хотя прямая подобрана так, что обеспечивает наилучшее приближение к этим данным.

Рис. 2.11

Для оценки того, насколько хорошо наша прямая (и соответствующее ей уравнение) в действительности согласуются с экспериментальными данными, необходимо ввести понятие корреляции. Это понятие дает возможность судить о том, насколько тесно ложатся экспериментальные точки на аппроксимированную кривую. Если регрессия определяет предполагаемое соотношение между переменными, то корреляция показывает, насколько хорошо это соотношение отражает действительность. Сильная корреляция между переменными означает, что их изменения взаимосвязаны. Однако необходимо иметь в виду, что это еще не доказывает наличия причинно-следственной связи между переменными. При регрессионном анализе предполагается наличие причинно-следственной связи между зависимой и независимой переменными, при корреляционном анализе такое допущение не делается.

Известна история об одном государственном деятеле, который обнаружил, что в его государстве имеется весьма сильная корреляция между ростом продажи пива и увеличением доходов школьных учителей. Отсюда он сделал вывод, что не следует повышать учителям зарплату, т.к. они начнут употреблять больше пива. Он мог бы обнаружить столь же сильную корреляцию между ростом зарплаты учителей и ростом преступности, числом незаконнорожденных и инфляцией. Фактически он мог бы найти сильную корреляцию и связать регрессионной кривой любые два явления, которые возрастают более или менее одинаковым образом.

В этом шутливом примере существенно то, что аналитик принял допущения, гипотезы о наличии причинно-следственной связи между явлениями, какое делается при регрессионной анализе, но в данном случае это допущение может и не быть правильным. Корреляция говорит лишь о том, что насколько тесно экспериментальные точки ложатся на аппроксимируемую кривую, но она не может сказать справедливо ли основное допущение о наличии причинно-следственной связи. Корреляционный анализ показывает лишь степень соответствия данных принятой гипотезе. Мерой этого соответствия является коэффициент корреляции, который изменяется в пределах от –1 до +1. Коэффициент –1 соответствует максимально отрицательной корреляции, когда у уменьшается с увеличением х, а все экспериментальные точки лежат точно на кривой. Коэффициент 0 соответствует полному отсутствию корреляции, а коэффициент +1 – максимальному положению корреляции. Все эти крайние случаи встречаются очень редко. Обычно коэффициент корреляции имеет дробное значение и его следует проверить на статистическую значимость.

Рис. 2.12.

Для случая простой или регрессионной задачи (т.е. для случая, когда имеются одна зависимая и одна независимая переменные, связанные между собой линейно) коэффициент корреляции r вычисляется по формуле:

(2.4)

Пример: Используя данные из предыдущего примера, мы можем вычислить коэффициент корреляции так, как это показано в таблице 2.2.

Таблица 2.2

х

у

х2

ху

у2

0

1

0

0

1

2

4

4

8

16

2

3

4

6

9

3

5

9

15

25

7

13

17

29

51 S

Общий разброс у определяется как , т.е. равен сумме квадратов отклонений у от среднего значения . Отношение величины разброса, обусловленной регрессионным уравнением к общему наблюдаемому разбросу, называется коэффициентом детерминации и равно квадрату коэффициента корреляции.

Таким образом, из примера видно, что коэффициент детерминации r2 = 0,9692 = 0,939. Это означает, что в 93,9 % случаев отклонение у при изменениях х соответствует выведенному уравнению у = 0,947 + 1,316 х.

2.13. Нелинейные и многомерные задачи

Те же основные идеи и концепции применимы в ситуациях, когда ожидаемые соотношения нелинейны и (или) когда число независимых переменных более одной. Ясно, что математические выражения в нелинейном и (или) многомерном регрессионном и корреляционном анализе гораздо более сложные и к тому же лежат за пределами главной темы данного курса.

Детальное рассмотрение теории и практики регрессионного и корреляционного анализа можно найти в соответствующей литературе.

2.14. Экспертные оценки

Когда нет возможности определить значения тех или иных параметров экспериментально или из ранее зарегистрированных данных, приходится полагаться на субъективные оценки. В подобных случаях чаще всего желательно воспользоваться мнениями коллектива экспертов, а не отдельного лица. Такой коллектив должен состоять из специалистов, обладающих глубокими знаниями моделируемого процесса и по возможности обладающих правом принятия ответственного решения. Выявление индивидуальных точек зрения и формирования на их основе единого мнения коллектива экспертов можно осуществить несколькими методами, но, пожалуй, самым полезным является метод Дельфы.

Это итерационная процедура, которая позволяет подвергать мнение каждого эксперта критике со стороны всех остальных, не заставляя их фактически сталкиваться лицом к лицу. Идея метода заключается в том, чтобы создать механизм, обеспечивающий сохранение анонимности точек зрения отдельных лиц и тем самым свести к минимуму влияние красноречивых и обладающих даром убеждать личностей на поведение группы в целом. Все взаимодействия между членами группы находятся под контролем со стороны координатора, направляющего всю деятельность группы. Координатор регулирует процедуру анализа мнений и сохраняет их анонимность. Групповая оценка вычисляется им путем некоторого усреднения (обычно посредством нахождения среднего значения или медианы) и доводится до сведения всех членов группы.

Рассмотрим в качестве примера распространенную задачу определения значения некоторого числа N. Пусть в группе экспертов будет 12 членов. Метод Дельфы имеет несколько вариантов, и можно выбрать, к примеру, следующий способ действий:

1. Опросить каждого члена группы по отдельности, какова его оценка числа N.

2. Расположить ответы на общей шкале в порядке возрастания значений и определить квартили Q1, М1 и Q3 таким образом, чтобы в каждом из 4-х отрезков шкалы содержалась четвертая часть всех оценок. Результат при 12 членах группы будет выглядеть так, как это показано на рис. 2.13.

Рис. 2.13.

3. Сообщить каждому из членов группы значения Q1, М1 и Q3 и попросить его пересмотреть свою оценку, а если его новая оценка выше Q3 или ниже Q1, попросить его кратко обосновать свое мнение.

4. Подсчитать результаты второго тура и сообщить членам группы новые значения Q1, М1 и Q3 (обычно эти значения будут иметь меньшую дисперсию, чем после первого тура) вместе с письменными обоснованиями предельных значений (обязательно сохраняя анонимность мнений). Попросить каждого из представивших письменные ответы учесть новые данные и аргументацию и при желании пересмотреть свою предыдущую оценку. Если в этом третьем туре пересмотренная оценка у данного члена группы будет выше Q3 или ниже Q1, попросить его кратко обосновать, почему он счел не заслуживающими внимания аргументы, которые могли бы заставить его сместить свою оценку ближе к средней.

5. Повторять эту процедуру столько раз, сколько представляется желательным координатору, или пока промежуток между Q1 и Q3 сузится до некоторой заранее установленной величины. Для этого обычно требуется 3 или 4 тура, поскольку аргументы скоро начнут повторяться. Далее берется медиана, как представляющая групповое мнение относительно того, каким должно быть значение N.

Как уже отмечалось, возможны некоторые варианты методы Дельфы. Например, вместо использования медианы и квартилей можно брать среднее значение и среднеквадратическое отклонение. В этом случае координатор сообщает членам группы в каждом туре среднее значение и среднеквадратическое отклонение и просит их кратко обосновать все оценки, отличающиеся от среднего значения более чем на среднеквадратическое отклонение (в любую сторону). Предположим, что мнения будут иметь нормальное распределение относительно среднего значения, а это допущение необязательно справедливо. Опросы можно повторять до тех пор, пока среднеквадратическое отклонение не уменьшится до заданной величины или пока не станет ясно, что дальнейшего уменьшения дисперсии не будет.

Цель метода Дельфы уменьшить психологическое давление, испытываемое некоторыми людьми приличном контакте, и следовательно, исключает влияние на конечный результат особо красноречивой и сильной личности. Однако метод нельзя считать полностью надежным. Например, неизвестно, какое влияние на расхождение мнений оказывает желание участников приспособиться к общему мнению группы или устранению основных причин разногласий. Возложение на членов группы ответственности за обоснование своих мнений явно влечет за собой стремление экспертов располагать оценки ближе к медиане без особой аргументации. Кроме того, те участники, которые первоначально были уверены, что обладают сильными аргументами в пользу своего мнения, легко могут отказаться от своих позиций, когда видит, что им не удалось сразу же убедить остальных членов группы. Это может усилить “эффект толпы” вместо того, чтобы уменьшить его, как ожидалось.

Метод Дельфы, предполагающий анонимность мнений, итеративную процедуру обработки результатов, управляемую обратную связь, числовые оценки и статистическое определение групповой оценки, тем не менее является ценным инструментом исследования для разработчиков моделей.

Рядом экспериментов было установлено следующее:

1. Личные дискуссии не дают столь же эффективных результатов как метод Дельфы.

2. Точность оценок улучшается с ростом числа членов группы и количества итераций.

3. Точность оценки падает с увеличением интервала времени между ответами членов группы.

4. При использовании метода Дельфы достигается большее согласие между групповым мнением и мнениями отдельных членов группы, чем при методах, требующих личных контактов. Эта сторона дела особенно важна, если некоторые из членов группы являются руководящими работниками, ответственными за внедрение результатов моделирования.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]