
Информационные системы менеджмента - Бажин И.И
..pdfГлава 5. Анализ данных как этап принятия решений |
301 |
в выбранных ранее точках (например, х2, х4, х6) отклонения равны нулю и по этому учитываться не должны.
5.Полученная таблица вновь является представлением некоторой функции, описывающей на данном интервале отклонения ранее выбранной интерполи рующей функции (например, у = Asin(ax+b)) от исходной таблично заданной функции. Теперь можно снова представить графически полученную функцию от клонений и подобрать подходящую интерполирующую функцию, после чего по вторить описанную выше процедуру.
6. В результате последовательно выполненных 1-5 шагов алгоритма полу чим общую интерполирующую функцию в виде набора частных функций
F(x) = f^x) + 0,5*f2(x) +...+ 0,5*fn(x),
Количество итераций п определяется требуемой точностью интерполяции. Критерием точности.может быть, например, сумма квадратов отклонений, так что последовательный процесс приближенной интерполяции прекращается, ко гда на очередном шаге к выполняется условие
Zfk2(x)^s.
где Е -требуемая точность интерполяции.
5.1.4. ВЫЧИСЛЕНИЕ ОПРЕДЕЛЕННЫХ ИНТЕГРАЛОВ
В математических моделях задач управления и проектирования часто воз никает потребность получения интегральных показателей и характеристик какихлибо свойств или процессов, что приводит к необходимости вычисления опре деленных интегралов. Если функция f(x), подлежащая интегрированию, непре рывна на отрезке (а, Ь) и известна ее первообразная функция F(x), то опреде ленный интеграл вычисляется по формуле Ньютона-Лейбница
ь
Jf(x)dx = F(x)|ab = F(b)-F(a)
а
Однако, во многих случаях первообразная F(x) не может быть найдена с помо щью элементарных средств или является слишком сложной. Это зачастую при водит к непреодолимым трудностям в решении практически важных задач. Кро ме того, в условиях различных исследований (например, предпроектных или маркетинговых) функция f(x) часто задается таблично, и тогда само понятиепервообразной теряет смысл.
Поэтому для вычисления определенных интегралов часто приходится при бегать к различным приближенным формулам. Довольно просто это сделать,
302 |
|
Часть 1. Новые принципы работы |
|
|
||
,' f ( x ) |
|
исходя из геометрического смысла определен |
||||
|
ного интеграла, а именно: если |
f(x) |
> 0, то |
|||
|
|
|
ь |
|
|
|
|
|
|
ff( x )dx - |
площадь криволинейной |
трапеции |
|
|
|
S |
а |
|
|
|
|
|
под кривой f(x) (рис.5.7). |
|
|
||
|
|
|
|
|
||
0 |
a |
b ' х |
Для приближенного вычисления указанной |
|||
площади |
должны быть известны |
отдельные |
||||
|
|
Рис.5.7 |
значения подынтегральной функции и некото |
|||
|
|
|
рые ее общие свойства. В общем случае, при таком подходе интегрирование заменяется суммированием площадей элемен тарных криволинейных трапеций, на которые разбивается исходная трапеция площади S (рис.5.7). Способ вычисления площади элементарной криволинейной трапеции определяет тот или иной алгоритм приближенного метода интегриро вания. Формула прямоугольников требует определения значения интегри руемой функции в одной точке элементарного участка, формула трапеций - вычисления значений в двух крайних точках элементарного участка, формула Симпсона - в трех точках: на концах и в середине этого участка. Рассмотрим подробнее один из методов - формулу Симпсона, дающий большую точность по сравнению с другими указанными методами.
Формула Симпсона
Этот способ приближенного вычисления определенного интеграла основан на том, что на элементарном отрезке (х0, х0+ 2h) дугу кривой у = f(x) заменяют
|
|
|
|
дугой квадратичной параболы, |
проходящей |
|
У |
к |
В |
С |
через три точки |
- А(х0> f(x0)), |
|
|
|
|
||||
|
B(x0+h, f(x0, Xo+h)), C(x0+2h, f(x0, x0+2h)) |
|||||
|
|
|
|
|||
|
А / ^ |
|
|
(рис.5.8). |
|
|
|
|
|
Площадь |
элементарной |
параболиче |
|
|
Уо |
У1 |
У2 |
|||
|
ской трапеции, |
представленной |
на рис.5.8, |
|||
|
|
|
|
|||
0 |
|
|
. X |
определяется по формуле |
|
|
|
Хо |
Хо+П |
x0+2h |
Si= |
^(Уо+4у1 +у2 ) |
|
|
|
|
|
Рис.5.8
Воспользуемся приведенной формулой для вычисления интеграла. Разделим исходный интервал (а,Ь) на п равных час тей, где п - четное число (п = 2т). Тогда h = (b-a)/n = (b-a)/2m. Получим точки деления интервала Xo, Xi, хг,. . . , xn = b. Определим ординаты функции в этих точках yo=f(xo); yi=f(xi); . . . yn=f(xn)- Тогда, с использованием приведенной вы ше формулы, суммируя площади всех п элементарных криволинейных трапе ций, получим приближенное значение интеграла в виде
Sn = |[(Уо+ 4у, + у2)+(У2+ 4у3 + у4)+(У4+ 4у5 + у6)+...+(Уп-2+ 4уп., + у„)]
Глава 5. Анализ данных как этап принятия решений |
303 |
Группируя в последнем выражении члены с четными и нечетными номера ми, получим для вычисления Sn следующую формулу
S„ = -| [(Уо+ Уп) + 4(у,+ уз + у5 +...+ Упи) + 2(у2+ у4 + Уб+...+Уп-2)] =
|
III |
П1-1 |
|
= ^ ( У о + У 2 т + 4 2 у 2 к _ 1 + 2 2 у 2 к ) ; |
( п = 2 т ) |
||
J |
k=l |
к=1 |
|
Алгоритм вычисления определенного интеграла по формуле Симпсона
Пусть известна функция f(x) и интервал интегрирования (а,Ь).
1. |
Выбираем число п = 2т; вычисляем шаг h = (b-a)/n и точки деления от |
|
2. |
резка (а,Ь). х0 = a, xi = х0 + h, х2 = + 2 п , . . . , хп = х0 + nh = b. |
|
Вычисляем значения функции у = f(x) в точках деления |
||
|
Уо = f(x0), У1 = =^х,), |
. . . , уп = f(xn). |
3. |
Определяем суммы |
|
|
V0 = f(x0) + f(xn) = f(a) + f(b), |
|
|
|
in |
|
Vi = f(x0 + f(x3) + f(x5) + f(xn-i) = |
^ f ( x 2 k - i ) ~ сумма значений |
|
|
k=l |
функции в точках с нечетными номерами;
i i i - i
V2 = f(x2) + f(x4) + f(x6) + f(xn-2) = X ^ ( x 2 k ) ~~ сумма значений k=l
функции в точках с четными номерами.
4. Вычисляем приближенное значение интеграла
ь•
Jf(x)dx = Sn = i (V0 +4V, + 2V2)
a
Рассмотрим пример. Вычислить определенный интеграл
1,2 |
|
| е"х dx. |
Выберем п = 6, h = 1,2/6 = 0,2. |
о |
|
Все вычисления удобно вести в программном комплексе Microsoft Excel. Ре зультаты вычислений приведены в форме таблицы Microsoft Excel.
304 |
Часть 1. Новые принципы работы |
|
|
|
Значения функции у=ехр(-х ) |
к |
хк |
для к=0 и к=6 для нечетных к для четных к |
0 |
0 |
1 |
1 |
0,2 |
0,96078944 |
2 |
0,4 |
0,852144 |
3 |
0,6 |
0,69767633 |
4 |
0,8 |
0,527292 |
5 |
1 |
0,36787944 |
6 |
1,2 |
0,2369278 |
Суммы: |
для к=0;6 |
1,2369278 |
|
для нечет |
2,02634521 |
|
длячетн. |
1,379436 |
Значение интеграла |
0,8067454 |
5.2.МЕТОДЫ ОБРАБОТКИ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
Для получения исходных данных при построении математических моделей в различных задачах управления часто возникает необходимость обобщить полу ченную в процессе исследований информацию с целью построения аналитиче ских зависимостей, пригодных для использования в алгоритмах моделей опера ции.
Например, рассмотрим компанию, которая регулярно помещает рекламу на один из своих товаров в местную газету. Компания ежемесячно ведет записи о суммах денег, затраченных на рекламу и поступивших от продажи этого товара.
Если реклама эффективна, то можно предположить, что, вероятно, сущест вует какая-то связь между затратами на рекламу и соответствующими ежеме сячными объемами продаж. Предположим, что чем больше сумма затрат на рекламу, тем больше объем продаж (по крайней мере, в определенных преде лах). Не существует теоретической основы, исходя из которой мы могли бы на писать уравнение, математически устанавливающее связь продаж с расходами на рекламу. Имеется ряд факторов, неразрывно связанных между собой, кото рые точно определяют ежемесячный объем реализаций. Это такие факторы, как цена товара, цена товара-конкурента, период времени, погодные условия. Тем не менее, если расходы на рекламу являлись бы главным фактором, опреде ляющим продажу, то знание связи между этими двумя переменными было бы очень полезным для оценки объема продаж и соответствующего планирования финансовой политики компании.
Глава 5. Анализ данных как этап принятия решений |
305 |
Обычно для определения связи между переменными используется термин "ассоциация". Термин "регрессия" используется для описания природы связи, термин "корреляция" - для измерения тесноты связи.
Необходимо знать, например, насколько тесная связь существует между ежемесячными расходами на рекламу и ежемесячным объемом продаж. Знание этого фактора может обеспечить надежную оценку продаж. Если связь слабая, то ее изучение обеспечивает только описание продаж при весьма низкой надеж ности этого описания.
Процедура анализа связи между переменными необходима для установле ния природы любой связи. Тогда можно разработать математическое уравнение или алгоритм для описания этой связи с математической точки зрения. Линей ные уравнения - простейшие для анализа, поэтому зачастую описывают связь между переменными посредством линейной модели. Этот процесс носит назва ние построения линейной регрессии. Степень пригодности линейной модели к исходным данным является индикатором силы линейной связи между перемен ными, а, следовательно, и надежности любых оценок, производимых при помо щи этой модели. На этой стадии полезно графическое представление данных.
Рис. 5.9. показывает, что линейная модель может быть применена при опи сании связи между продажей и расходами на рекламу.
Продажа, |
Продажа |
дол./мес. |
дол./мес. |
Расходы на рекламу, дол./мес. |
Расходы на рекламу, дол./мес. |
Рис. 5.9. Пример линейной связи |
Рис. 5.10. Пример нелинейной связи |
Если бы мы получили другой график (рис. 5.10)-, то можно было бы сделать вывод, что линейная модель неприменима при описании связи между объемом продаж и расходами на рекламу.
Линейная регрессия - первый пример использования математических мо делей. Модель линейной регрессии используется наиболее часто. Они включа ют в себя как простые модели для двух переменных, с которыми читатель, главным образом, познакомится, так и более совершенные модели для многих переменных, которых мы лишь коснемся. Для таких моделей существуют пакеты прикладных программ (ППП), которые осуществляют требуемые расчеты. Нужно быть предельно внимательным при использовании ППП для того, чтобы оконча-
306 |
Часть 1. Новые принципы работы |
тельно убедиться, что мы досконально понимаем результаты и правильно их оцениваем.
Эта глава охватывает анализ простой модели линейной регрессии, постро енной на конкретных данных (парной линейной регрессии). В конце главы рас сматриваются множественные регрессионные модели, а также несколько моде лей нелинейной связи.
5.2.1. ЛИНЕЙНАЯ РЕГРЕССИЯ
Простая линейная регрессия связана с тем, что мы называем двумерным распределением, т.е. распределением двух переменных. Существует ли линей ная связь между двумя переменными или нет? Всегда лучше использовать две переменные, нежели одну. Например, нас интересует соотношение между рос том и весом у определенной группы людей; между ценой и количеством продан ного товара; возрастом служащих и их заработной платой; возрастом и весом кур; еженедельными издержками и отработанным временем в отделах; прой денной дистанцией и затраченным временем.
Первым шагом в анализе является изучением переменных: какие из них от носятся к факторам, каково их влияние друг на друга. Предположим, что марке тинговая служба птицефабрики хочет предсказать вес кур, которых выращивают на этой фабрике. Вес - это переменная, которую он желает предсказать, поэто му это будет зависимая переменная. Отмечать значения зависимой перемен ной будем на оси 0Y (рис.5.11). Пусть вес курицы зависит от ее возраста. Тогда возраст - это независимая переменная, значение которой нам известно по предположению и которое мы можеи использовать при оценке ее веса. Независимая переменная будет нами отмечаться на оси ОХ. Если мы установим природу связи между возрастом и весом курицы, то сможем предсказать вес ку рицы в заданном возрасте. Любая курица, для которой реальный вес значитель но отличается от прогнозируемого, может быть подвергнута специальному об следованию.
Теперь мы должны ответить на вопрос: как изменяется вес в зависимости от изменения возраста. Во-первых, можно предположить, что вес увеличивается с возрастом. Когда курица совсем взрослая, мы можем предположить, что ее вес с небольшими отклонениями зависит от пищи и погодных условий. Прибавка в весе и ее вес в зрелом возрасте также будут зависеть от природы и способа ее выращивания и кормления. Существует также множество других факторов, по мимо возраста, влияющих на вес. Процесс исследования возможной связи пе ременных - зависит ли зависимая переменная у от независимой переменной х и от других факторов, которые также могут повлиять на связь, - очень важная часть статистического моделирования. Наша цель - не просто построить какуюто любую линейную регрессию, а постараться выяснить, чем объясняется ва риация веса курицы с помощью моделирования, и решить, можно ли опреде лить вес курицы, зная только ее возраст.
Вероятно, выводом из вышеприведенной задачи будет то, что существуют
|
Глава 5. Анализ данных как этап принятия решений |
307 |
||
Ул. |
|
несколько |
взаимосвязанных между |
собой |
Вес, кг |
факторов для определения точного веса кон |
|||
|
кретно взятой курицы. Общая картина воз |
|||
|
|
|||
|
|
можной связи между весом и возрастом кури |
||
|
|
цы определенной породы представлена на |
||
|
|
рис.5.11. |
|
|
|
|
Теперь мы должны собрать данные для |
||
|
Возраст, мес. |
того, чтобы |
проверить правильность |
наших |
|
Рис.5.11 |
предположений о наличии и характере связи |
||
|
между переменными. |
|
||
|
|
|
Простая модель линейной регрессии
Рассмотрим пример. Он касается времени, которое занимают поставки. Займемся, например, специальными услугами, которые предоставляет частная фирма - поставками на короткие расстояния внутри города. Оценим стоимость услуги, определив время поставки при любом расстоянии.
Факторы, помимо пройденного расстояния, которые повлияют на затрачен ное время: пробки на дорогах, время суток, дорожные работы, погода, дорожная система, водитель, вид транспорта. Однако первоначальное исследование бу дет предельно простым, насколько это возможно: будем рассматривать связь только между расстоянием, измеряемым кратчайшим маршрутом на линиях, и затраченным временем в минутах. Рассмотрим все возможные поездки за опре деленный период, которые могут быть совершены в городе. Измерим время и расстояние каждой десятой поездки, начиная с произвольно выбранного часа и дня недели. Пусть фирма работает шесть дней в неделю, кроме воскресенья. Случайное число, выброшенное игральной костью, равно 2, таким образом, сле дующий вторник - выбранный нами день. Услуги оказываются с 8 часов утра до 6 часов вечера. Случайное число от 0 до 9, полученное из таблицы случайных чисел для выбора времени, оказалось числом 6. Таким образом, первая поездка после часа дня (т.е. шестой час, начиная с восьми утра). Затем мы отберем ка ждую десятую поставку. Выборочные данные первых десяти поставок будут ис пользованы для анализа. Эти данные о расстоянии и времени поставок сведем в представленную таблицу.
Исходные данные о расстоянии и времени поставок
Расстояние, км |
3,5 |
2,4 |
4,9 |
4,2 |
3,0 |
1,3 |
1,0 |
3,0 |
1,5 |
4,1 |
Время, мин. |
16 |
13 |
19 |
18 |
12 |
11 |
8 |
14 |
9 |
16 |
Нам нужно объяснить изменения времени (переменная у), принимая рас стояние в качестве независимой переменной х. Предположим, что затраченное время растет по мере увеличения расстояния. Представим данные на графике, чтобы определить связь, которая существует между переменными.
308 Часть 1. Новые принципы работы
Рисунок 5.11 изображает зависимость времени поставок от расстояния по совокупности случайных данных о поставках. Эта зависимость свидетельствует
об общем увеличении времени с увеличением расстояния. |
|
|
|
|
||||||||
|
|
|
|
|
|
|
Точки на графике собраны в |
|||||
|
Зремя одной |
|
|
|
|
пучки вокруг прямой линии. |
Это |
|||||
|
|
|
|
|
означает, что мы можем исполь |
|||||||
,поставки, мин. |
|
|
|
|
||||||||
|
|
|
|
зовать |
линейную |
|
модель |
для |
||||
20- |
|
|
|
|
|
описания связи между двумя пе |
||||||
16- |
|
|
* ^ |
• |
|
ременными. Точки не находятся |
||||||
|
|
|
точно на линии. Но было бы уди |
|||||||||
12- |
• |
|
•^""* |
|
|
вительно, если бы это было так, |
||||||
8- |
|
|
|
|
с точки зрения остальных факто |
|||||||
|
|
у = а + Ьх |
|
|
ров, |
которые |
могут |
повлиять на |
||||
Г, |
|
|
|
время |
поездки. |
Линейная |
мо |
|||||
|
|
|
|
дель, описывающая связь между |
||||||||
1 |
1 |
1 |
1 * |
двумя |
переменными, будет |
при |
||||||
ближением к действительности - |
||||||||||||
|
1 |
2 |
3 |
4 |
5 |
к истинному времени и расстоя |
||||||
|
|
Расстояние одной поставки, км |
нию. |
На рис.5.12, кроме экспери |
||||||||
|
|
Рис.5.12 |
|
|
ментальных |
точек, |
изображена |
|||||
|
|
|
|
|
|
также |
прямая, |
показывающая |
||||
наилучший вариант приближения линейной модели к действительности. |
|
Теперь нам необходимо найти способ для нахождения приемлемой схемы определения точек этой линии по исходным данным. Эта линия называется ли нией наилучшего подбора. Таким образом, на рис.5.12 прямая линия - это возможная линейная модель для описания связи между переменными.
Уравнение этой линии может быть записано следующим образом
у = а + Ьх ,
где а - определяется как координата точки пересечения линии регрессии с осью у; b - тангенс угла наклона линии регрессии к оси х, называемый коэффициен
том регрессии.
Таким образом, ставится задача по заданным .результатам измерений (экспериментов) подобрать коэффициенты а и b этой линии наилучшего подбо ра. Здесь возможны два варианта:
1)такая линейная зависимость существует, и тогда задачей является оты скание коэффициентов, наилучшим образом описывающих эту зависи мость;
2)неизвестно, есть ли такая связь переменных. Тогда в предположении существования такой связи необходимо определить коэффициенты а и b искомой прямой и установить, имеется ли эта связь.
В приведенном ранее примере рассмотрим конкретное значение пройденно го пути, которое мы обозначим как х,. Для Xi фактическое время будет уч, тогда как время, прогнозируемое линейной моделью (теоретическое), определяется из уравнения
А
У
У1
Глава 5. Анализ данных как этап принятия решений |
309 |
yt = а + bxj
Разница между этими двумя зна чениями (на рис.5.13 показана жир ным отрезком)
• e i = У1 - У1
|
у = а + Ьх |
называется ошибкой, или отклоне |
|
|
нием, или остатком. Мы можем оп |
0 |
|
ределить величину ошибки для всех |
Х1 |
X отмеченных точек. Линейная модель, |
|
|
|
которая наилучшим образом аппрок |
Рис.5.13 |
симирует данные, - одна из тех, для |
|
|
|
которой общая ошибка выборки име |
ет наименьшее значение. Чтобы рассчитать ее, нужно избежать положительных и отрицательных значений отклонений. Это можно сделать, возведя все ошибки в квадрат и делая их положительными величинами. Линия наилучшего подбора - та, которая минимизирует сумму квадратов указанных отклонений. Эта линия называется линией регрессии, полученной методом наименьших квадратов (МНК). При использовании МНК составляется функция F, представляющая со бой сумму квадратов отклонений для всех п экспериментальных точек
n |
n |
|
р = Е(у1-У1)2 |
=£(у1-а -ьх; )2 |
|
i=l |
|
i=l |
Из условия минимума этой функции (F -» min), приравнивая нулю произ водные F по переменным а и Ь, получим систему линейных уравнений, решая которую, определяем искомые коэффициенты.
Функция F является критерием метода наименьших квадратов. В принципе, может быть избран и другой критерий подбора наилучшей линии.
Формулы для определения угла наклона линии регрессии (Ь) и ее пересече ния с осью OY (а) по методу наименьших квадратов следующие:
Ey,Zx ?-Zx iZx iyi nZxiyi-2>iZyi
i=l |
i=l |
i=l |
|
|
|
" |
f" V |
»Z*HZ*, |
|
||
i=i |
M=i J |
J |
|||
i=l |
i=l |
Приведем расчеты по полученным формулам для примера, изложенного ранее и описывающего исследование связи времени поставок с расстоянием по совокупности случайных данных о поставках для выборки п = 10. Расчеты, вы-
310 |
Часть 1. Новые принципы работы |
полненные с использованием Microsoft Excel, представлены в виде таблицы указанного программного комплекса.
|
Расчет уравнения регрессии |
|
|
||
Номер i |
Расстояние Xj, км Время yi, мин |
XiYi |
** |
И* |
|
1 |
3,50 |
16,00 |
56,00 |
12,25 |
256,00 |
2 |
2,40 |
13,00 |
31,20 |
5,76 |
169,00 |
3 |
4,90 |
19,00 |
93,10 |
24,01 |
361,00 |
4 |
4,20 |
18,00 |
75,60 |
17,64 |
324,00 |
5 |
3,00 |
12,00 |
36,00 |
9,00 |
144,00 |
6 |
1,30 |
11,00 |
14,30 |
1,69 |
121,00 |
7 |
1,00 |
8,00 |
8,00 |
1,00 |
64,00 |
8 |
3,00 |
14,00 |
42,00 |
9,00 |
196,00 |
9 |
1,50 |
9,00 |
13,50 |
2,25 |
81,00 |
10 |
4,10 |
16,00 |
65,60 |
16,81 |
256,00 |
Сумма: |
28,90 |
136,00 |
435,30 |
99,41 |
1972,00 |
|
Коэффициенты |
а = 5,91 |
|
|
|
|
уравнения |
Ь = 2,66 |
|
|
Таким образом, по полученным результатам можно записать уравнение рег рессии в виде
у = 5,91 + 2,66х
Теснота линейной связи - коэффициент корреляции
Для совокупности, данные из которой мы использовали в предыдущем при мере, существует множество различных расстояний при различном времени. Фактически же для любого расстояния существует некоторое распределение возможного времени поставок. Наш пример включает десять поездок. Их можно сгруппировать по дальности поставки. Например, поставки на расстояние 1,0 км; 1,3 км; 1,5 км; 2,4 км; 3,0 км и т.д. Изобразив эту ситуацию графически, получим распределение времени поставок при определенном расстоянии (рис.5.14). Та кое представление может быть целесообразно при всестороннем анализе дан ных.
В приведенном примере данные подтвердили обоснованность линейной модели. Однако мы не имеем обоснованного представления о том, насколько хорошо аппроксимирует данные линейная модель. Подбор на основе графика в данном случае оказался точным, но он может быть обманчивым, так как распре деление точек на графике зависит от масштаба. Необходимо объективное изме рение тесноты линейной связи.