Скачиваний:
114
Добавлен:
08.04.2015
Размер:
3.32 Mб
Скачать

Вопросы

yОцените шансы риэлтера по выполнению заявки клиента – оцените вероятность появления на рынке квартир с ценой 1 кв. метр меньшей, чем 1350 долларов?

yЗа заявки в каком ценовом диапазоне имеет смыл браться в первую очередь?

yКаковы шансы удовлетворить заявку клиента, желающего приобрести качественное жилье в этом районе со стоимостью 1 квадратного метра не ниже, чем 1600 долларов за кв. метр?

Решение

Результаты обработки выборки инструментом «Описательная статистика»

Среднее

1445,798

Стандартная ошибка

14,03637

Медиана

1454,55

Мода

1400

Стандартное отклонение

78,1512

Дисперсия выборки

6107,61

Эксцесс

0,040493

Асимметричность

-0,10458

Интервал

332,04

Минимум

1279,07

Максимум

1611,11

Сумма

44819,74

Счет

31

Результаты обработки выборки инструментом «Гистограмма»

Карман Частота Отн. Частота

1280

1

3%

1345

2

6%

1410

7

23%

1475

10

32%

1540

8

26%

1605

2

6%

1670

1

3%

Еще

0

0%

101

Гистограмма распределения квартир по стоимости одного квадратного метра

35%

 

 

 

 

32%

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

30%

 

 

 

 

 

 

26%

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

25%

 

 

 

 

23%

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

20%

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

15%

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10%

 

 

 

 

 

 

 

6%

 

 

 

 

 

6%

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5%

 

 

3%

 

 

 

 

 

3%

0%

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0%

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

до 1280 1280-345

1345-1410 1410-1475 1475-1540 1540-1605 1605-1670 > 1670

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Проверка гипотезы о соответствии эмпирического распределения – нормальному (на основе критерия согласия χ2)

Гипотеза Hо: "распределение нормально" (гипотеза не может быть отвергнута с уровнем значимости a =1 – Pдовер.)

Гипотеза H1: распределение отличается от нормального

 

Карман

Частота

Отн.част

Теор.

χ2

 

1280

1

0,032258065

0,017

0,429417

 

1345

2

0,064516129

0,082

0,111149

 

1410

7

0,225806452

0,225

0,000116

 

1475

10

0,322580645

0,322

1,27E-05

 

1540

8

0,258064516

0,240

0,040708

 

1605

2

0,064516129

0,093

0,2738

 

1670

1

0,032258065

0,019

0,301078

Число интер-

7

 

 

χ2

0,581403

валов

 

 

 

 

 

Число степ.

 

 

 

χ2крит. 9,487729

своб.

4

 

 

Ур. значимо-

 

 

 

 

 

сти

0,05

 

Выводы:

 

Среднее

1445,8

 

С ур. значимости

 

0,05

Станд.откл

78,15

 

распеделение нормально?

ДА

Число набл.N

31

 

с параметрами:

 

 

 

 

 

среднее =

1445,8

 

 

 

 

ст.отклонение =

78,15

 

102

y Вероятность появления на рынке квартир с ценой 1 кв. метр меньшей, чем 1350 долларов за кв. метр:

P(цена< 1350) =

= НОРМРАСП(1350;1445,8;78,15;ИСТИНА)=0,11.

y Наибольшей будет вероятность найти жилье в ценовом диапазоне от 1350 до 1540 долларов за кв.м. Доля таких предложений на рынке составляет около 80%.

y Вероятность найти на рынке жилье со стоимостью 1 квадратного метра не ниже, чем 1600 долларов за кв. метр:

P(цена>1600) = 1-НОРМРАСП(1600;1445,8;78,15;ИСТИНА) = = 0,02424.

103

5. АНАЛИЗ ВЗАИМОСВЯЗЕЙ МЕЖДУ ЗАВИСИМОЙ ПЕРЕМЕННОЙ И ВЛИЯЮЩИМИ НА НЕЕ ФАКТОРАМИ

5.1. Постановка задачи

При исследовании и анализе различных бизнес процессов часто возникает проблема выявления факторов, оказывающие влияние на интересующий аналитика показатель. Кроме того, обычно требуется оценить степень этого влияния, отобрать из нескольких влияющих факторов наиболее весомые.

Например:

Как установить, какие из факторов – цена, уровень инфляции, средняя заработная плата, возраст покупателей и т.д. влияют на спрос определенного товара, какие из них влияют в большей, а какие в меньшей степени?

Какие из факторов – класс офиса, его площадь, удаленность от центра или от метро, наличие парковки, этаж, удаленность от автомагистралей в наибольшей степени влияют на ставку арендной платы?

От чего зависит доходность торгового центра – от расположения, ассортимента, торговой площади, численности персонала, уровня дохода населения? Какие из перечисленных факторов наиболее значимы с точки зрения вклада в доходность?

Что в наибольшей степени влияет на стоимость квадратного метра у объекта жилой недвижимости? Какие из его характеристик – тип дома, удаленность от метро, этаж, общая площадь, площадь кухни следует отнести к числу основных ценообразующих?

104

Формально такие задачи можно сформулировать следующим образом. Имеется «объект» – рис. 5.1, «эффективность» работы которого характеризуется некоторым показателем y . На величину y ,

как показывает, например, предшествующий опыт или предварительный эвристический анализ, может оказывать влияние ряд факторов x1 , x2 ,K, xn .

x1

 

 

 

x 2 .

Объект

y

M

.

.

 

 

x m

 

 

 

 

 

Рис. 5.1.

Необходимо:

выявить факторы, оказывающие влияние на интересующий аналитика показатель;

оценить степень этого влияния;

отсеять (исключить) те факторы, которые не оказывают существенного влияния на анализируемый показатель.

Информацией, которую можно использовать для решения таких задач, являются статистические наблюдения – данные об объектах аналогах, о результатах предшествующей деятельности или статистика, собранная в ходе проведения специально организованного эксперимента. Как правило, подобную информацию представляют в виде таблицы, в которой фиксируют значения анализируемого показателя при определенном наборе факторов – табл. 1.1.

 

 

 

 

 

Таблица 1.1.

 

 

 

 

 

 

 

 

Наблюдения

Значения

 

 

 

 

 

 

анализируемого

 

Значения факторов

 

(аналоги, периоды

 

 

предыстории)

показателя

 

 

 

 

 

 

y

x1

 

x2

...

 

xm

 

 

 

1

y1

x11

 

x21

...

 

xm1

2

y2

x12

 

x22

...

 

xm 2

M

M

M

 

M

M

 

M

i

yi

x1i

 

x2i

...

 

xmi

M

M

M

 

M

M

 

M

N

yN

x1N

 

x2 N

...

 

xmN

105

В математической статистике связи между переменными изучают методами корреляционного и регрессионного анализа (см. Приложение 4). Термин корреляция, от латинского “correlation”, означает взаимосвязь. Основной задачей корреляционного анализа является выявление связи между случайными величинами и оценка тесноты этой связи.

Термин регрессия (от лат. “regressio” – движение назад) введен английским статистиком Ф. Гальтоном в середине XIX века, который, изучая взаимосвязь между ростом родителей и ростом их детей, получил модель, указывающую на то, что у детей высоких родителей наблюдался регресс – тенденция снижения роста к средним значениям – [6]. Термин регрессионные модели используют для моделей (математических соотношений), в которых зависимую переменную y , а точнее, ее условное математическое

ожидание – среднее значение для определенного набора факторов y = M ( y / x1 , x2 ,K, xm ) , можно представить как функцию от влияю-

щих на нее факторов. Основной задачей регрессионного анализа является установление формы зависимости между исследуемым показателем и факторами на основе статистических данных. Эту процедуру называют построением математической (регрессионной) модели.

5.2. Анализ взаимосвязей на основе точечных диаграмм

(однофакторных регрессионных моделей)

Рассмотрим основные идеи, положенные в основу соответствующих процедур, для случая однофакторного анализа – рис. 5.2.

x

 

y

 

 

 

 

 

 

Рис. 5.2.

Пусть требуется установить – влияет ли фактор x на показатель y , и если да, то в какой степени.

106

Исходной информацией для ре-

Таблица 5.2.

шения

задачи

является

статистика

 

 

 

Наблюдения

 

 

(выборка), приведенная в табл. 5.2, в

(аналоги, периоды

y

x

которой отражено изменение показа-

предыстории)

 

 

теля y

в

зависимости от изменения

1

y1

x1

фактора

x

– табл. 5.2.

Эти данные

2

y2

x2

можно отразить на графике в виде то-

M

M

M

чечной диаграммы. Для этого пары

i

yi

xi

чисел –

(xi , yi )

(i =1, 2,K, N ) отобра-

жают точками на диаграмме – рис. 5.3.

M

M

M

N

yN

xN

Точечный график иллюстрирует

характер влияния одной

переменной

 

 

 

x на другую – y и дает наглядное представление об особенностях

изучаемого экономического явления, о том, как изменение анализируемого фактора, сказывается на изменении исследуемого показателя. Если эту закономерность описать аналитически, с помощью некоторого математического соотношения (функции), то геометрически это означает, что необходимо подобрать такую кривую, которая наилучшим образом отражает зависимость y от x – рис. 5.4.

Уравнение подобранной кривой y = f (x) – математическая

модель, позволяющая количественно оценивать влияние фактора x , на зависимую переменную y и проводить различные расчеты для

анализа и прогнозирования. Очевидно, что чем ближе точки подобранной кривой к экспериментальным (статистическим) точкам, тем адекватнее математическая модель будет отражать существующую закономерность.

Y

Y

 

y=f(x)

X

X

Рис. 5.3.

Рис. 5.4.

 

107

Процедуру «замены» экспериментальных данных некоторой кривой называют аппроксимацией. Под аппроксимацией (от лат. approximo приближаюсь) в данном случае подразумевается замена экспериментальных, статистических точек, точками, лежащими на кривой y = f (x) .

Набор кривых (функций), с помощью которых можно отражать основные тенденции влияния одной переменной на другую, как правило, ограничен классом основных элементарных функций и их различными комбинациями.

Рассмотрим, случай, когда аппроксимирующая линия – это прямая, уравнение которой y = a +bx рис. 5.5. Задача ставится

следующим образом – необходимо «подобрать» прямую линию, которая наилучшим образом «соответствует» экспериментальным точкам. С математической точки зрения задача подбора наилучшей прямой заключается в определении соответствующих коэффициентов a и b уравнения y = a +bx .

25

Y

 

 

 

 

 

 

 

 

 

 

20

 

 

y = a +bx

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y i

 

 

 

 

 

 

ε

i

 

 

εN

15

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y рi

 

 

 

 

 

 

 

 

 

 

 

10

 

 

 

 

 

 

 

 

 

 

 

5

 

 

ε1

ε2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

x i

 

 

 

 

 

0

1

2

3

4

5

7

8

9

10

 

6

 

 

 

 

 

Рис. 5.5.

 

 

 

 

 

В качестве критерия выбора «наилучшей» из прямых, используют какую-либо меру отклонения реальных данных от расчетных, рассчитанных на основе функции y = a +bx .

Чаще всего, в качестве такой меры применяют сумму квадратов отклонений расчетных данных от статистических – рис. 5.5

108

N

N

N

2 ,

S = ( yi

y рi )2 = ( yi

a bxi )2 = εi

i =1

i =1

i =1

 

где xi , yi – статистические данные (точки);

y рi = a +bxi – расчетные значения y для значения фактора xi ;

a, b – коэффициенты прямой, которые необходимо подобрать (найти);

εi = yi y рi – «ошибки» (невязки) – разница между i -м наблюдаемым (статистическим) значением показателя yi и расчетным значением y рi = a +bxi , лежащим на прямой (i =1, 2, K, N ) ;

N – объем выборки.

Суть метода наименьших квадратов (МНК) (см. Приложе-

ние 4) заключается в отыскании таких коэффициентов a и b уравнения прямой y = a +bx , при которых сумма квадратов отклоне-

ний расчетных данных от набора статистических данных будет минимальной (наименьшей из всех возможных). Иначе говоря, коэффициенты a и b находят из условия:

N

 

N

 

min .

S = εi

2

min или S = ( yi

a bxi ) 2

i =1

 

i =1

 

 

Метод наименьших квадратов может применяться для аппроксимации статистических данных и другими типами линий – полино-

мами различных степеней, например, параболой y = ax2 +bx +c (по-

лином второго порядка), степенной, экспоненциальной, логарифмической.

По терминологии, используемой в Excel, аппроксимирующие статистику линии, независимо от того, каков фактор – время или ка- кая-либо другая переменная, названы «трендами», хотя общепринятым считается, что тренд отражает тенденцию изменения показателя y во времени (когда фактор x – время). Хотя, с точки зрения

математической статистики, это не что иное, как линии регрессии –

однофакторные регрессионные модели – см. Приложение 4.

В Excel 97-2003 для аппроксимации статистических данных различными линиями (трендами) удобно использовать «Мастер диаграмм» – Вставка ¾ Диаграмма ¾ Точечная – рис. 5.6. После

109

пошагового ввода статистических массивов y и x в «Мастере диа-

грамм», на рабочий лист Excel будет выведена точечная диаграмма. Для подбора аппроксимирующей кривой необходимо выделить точки диаграммы левой кнопкой мыши, затем вызвать контекстное меню правой кнопкой мыши и выбрать в контекстном меню пункт

«Добавить линию тренда». После чего в диалоговом окне «Линия тренда» – рис. 5.7 на вкладке «Тип» необходимо выбрать наиболее походящий тип кривой.

Рис. 5.6.

Для того, чтобы помимо аппроксимирующей кривой на диаграмме было показано ее уравнение, и критерий качества аппрок-

симации критерий R2 (см. Приложение 4) на вкладке «Параметры» – рис. 5.8 необходимо поставить галочки у пунктов

«показывать уравнение на диаграмме» и «поместить на диаграмму величину достоверности аппроксимации R^2». После нажатия клавиши «ОК» на диаграмме появится подобранная аппроксимирующая линия (по терминологии, используемой в Excel – тренд), ее

уравнение и значение критерия R2 .

110