Кол. методы МБА 2012 / 1. Статистика / Книга по стат. методам / Книга
.pdf
|
|
|
Таблица 4.4. |
|
|
|
|
Месячные эксплуатационные расходы |
|||
|
(тысяч рублей) |
|
|
39 |
|
41 |
40 |
39 |
|
49 |
41 |
40 |
|
46 |
48 |
43 |
|
47 |
45 |
43 |
|
31 |
41 |
44 |
|
35 |
45 |
35 |
|
49 |
43 |
57 |
|
44 |
47 |
49 |
|
51 |
43 |
37 |
|
44 |
42 |
39 |
|
45 |
53 |
48 |
|
52 |
48 |
Решение
Используя алгоритм группировки и инструменты Пакета анализа Excel «Описательная статистика» и «Гистограмма» получаем таблицу ряда распределения – рис. 4.6 и гистограмму – рис. 4.7.
Рис. 4.6.
81
45% |
|
|
|
|
|
|
|
|
|
|
39% |
|
|
|
|
40% |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
35% |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
30% |
|
|
|
|
25% |
|
|
|
|
|
|
|
|
||
25% |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
20% |
|
|
17% |
|
|
|
|
|
|
|
|
|
|
||
15% |
|
8% |
|
|
|
8% |
|
|
|
|
|
|
|||
|
|
|
|
|
|||
10% |
|
|
|
|
|
||
|
|
|
|
|
|
3% |
|
5% |
|
|
|
|
|
|
|
|
|
|
|
|
|
||
0% |
|
|
|
|
|
|
|
|
до 35 |
35 - 40 |
40-45 |
45-50 |
50-55 |
> 55 |
|
|
|
Рис. 4.7.
Вид гистограммы свидетельствует о том, что эмпирическому распределению в наибольшей степени соответствует нормальный закон распределения (теоретическое распределение). Переход к теоретическому – нормальному распределению позволит далее вычислять вероятностные оценки более точно и значительно расширить круг решаемых задач.
Для того, чтобы обоснованно перейти к теоретическому распределению, необходимо подтвердить или опровергнуть гипотезу о том, что случайная величина – месячные эксплуатационные расходы имеет нормальное распределение с параметрами: математическим ожиданием μ ≈ y = 43,97 и стандартным отклонением
σ ≈ S = 5,43. В качестве математического ожидания μ и стандарт-
ного отклонения σ теоретического распределения используют выборочные оценки – «среднее» (ячейка D18) и «стандартное отклонение» (ячейка D22), вычисленные инструментом «Описательная статистика» – рис. 4.6.
Для проверки гипотезы и вычисления выборочного значения критерия согласия
|
|
n |
i |
2 |
||
|
|
N |
|
− pi |
||
χвыб2 . |
N |
|||||
= ∑ |
|
|||||
|
m |
|
|
|
|
|
|
i =1 |
|
pi |
82
на рабочем листе Excel удобно создать дополнительную таблицу – рис. 4.8.
Рис. 4.8.
Ячейки «Среднее» и «Станд. откл.» таблицы заполняются на основе вычислений, выполненных с помощью инструмента «Описательная статистика» из «Пакета анализа». Колонки «Карман» и «Частота» заполняются на основе вычислений, выполненных с помощью инструмента «Гистограмма» из «Пакета анализа» – рис. 4.6. Формулы для вычисления компонентов критерия согласия, а также
вычисления χвыб2 |
. и сравнения χвыб2 |
. с χкр2 . |
(Приложение 3) показаны |
|||||||
на рис. 4.8. Уровень значимости α и объем выборки N вводятся |
||||||||||
вручную. |
|
|
|
|
|
|
|
|
||
|
|
Как |
видно – |
рис. 4.9, |
для |
рассматриваемой |
задачи |
|||
χвыб2 |
. =1,9098988 , а |
χкр2 |
. = χ02,01; 3 =11,34487 . Поскольку χвыб2 |
. < χкр2 |
. = |
|||||
= χα2 |
; m−k −1 , |
то с уровнем значимости 0,01 (с надежностью 0,99) |
можно утверждать, что для отклонения нулевой гипотезы нет оснований. Следовательно, можно считать, что рассматриваемая случайная величина – месячные эксплуатационные расходы – имеет нормальное распределение с параметрами: математическим ожиданием μ ≈ y = 43,97 и стандартным отклонением
σ ≈ S = 5,43.
83
Рис. 4.9.
Число степеней свободы m − k −1=3, вычислено с учетом того, что число интервалов в данном примере равно шести m = 6 , а число параметров нормального распределения (математическое ожидание и стандартное отклонение) равно двум k = 2 .
Используя тот факт, что анализируемая случайная величина имеет нормальное распределение, можно вычислять вероятности любых событий, используя хорошо изученные свойства этого распределения, соответствующие таблицы или стандартные функции
Excel.
Найдем вероятности для событий, заданных по условию задачи, на основе стандартной функции Excel – НОРМРАСП(…) – Приложение 1.
• Вероятность того, что месячные эксплуатационные расходы не превысят 50 т.руб.:
P(расходы < 50 тыс. руб.) =
=НОРМРАСП(50;43,97;5,432;ИСТИНА) = 0,8665
•Вероятность того, что в будущем расходы будут не ниже 38 тыс.руб.:
P(расходы > 38 тыс. руб.) =
= 1-НОРМРАСП(38;43,97;5,432;ИСТИНА) = 0,8641
84
• Вероятность того, что предстоящие расходы окажутся в диапазоне 38–50 т.руб.:
P(38 тыс. руб. < расходы < 50 тыс. руб.) =
=НОРМРАСП(50;43,97;5,432;ИСТИНА) -
-НОРМРАСП(38;43,97;5,432;ИСТИНА) = 0,730645
Вычисления легко формализуются в Excel – рис. 4.10.
Рис. 4.10.
ОСНОВНЫЕ ТЕРМИНЫ (ГЛОССАРИЙ)
Дискретная случайная величина – случайная величина, все возможные значениякоторой можноперечислитьили пронумеровать.
Непрерывная случайная величина – случайная величина,
все возможные значения которой непрерывно заполняют некоторый промежуток.
Закон распределения дискретной случайной величины –
соотношение, связывающее между собой ее возможные значения с соответствующими им вероятностями.
Функция распределения (интегральная функция распределения) непрерывной случайной величины – функция вида
F(yi) = P (Y < yi) – вероятность события Y < yi .
Функция плотности вероятности – f ( y) = F′( y) используемая
наряду с F(x) для задания закона распределения непрерывной случайной используют также
85
Статистика – любая функция θN = f (x1, x2 ,K, xN ) от выборочных наблюдений x1 , x2 , K, xN .
Оценка – статистика θN , используемая в качестве приближенного значения неизвестного параметра генеральной совокупно-
сти θ, (θN ≈θ).
Доверительный интервал – числовой интервал (θN1 , θN 2 ) ,
который с заданной вероятностью Pдов. = γ «накрывает» истинное значение параметра θ
Уровень значимости – величина α =1 −γ , связанная с понятием доверительной вероятности или надежности. Если доверительная вероятность (надежность) Pдов. = γ, то уровень значимости α =1 − γ . Уровень значимости – это вероятность, того, что статистика попадет в критическую область – область «неправдоподобно» больших (или малых) значений. Как правило, α задается достаточно малым, таким, чтобы попадание статистики в критическую область можно было считать маловероятным (практически невозможным) событием.
Критическая область – как правило, область «неправдоподобно» больших или «неправдоподобно» малых значений случайной величины. Обычно выбирается такой, чтобы попадание статистики в критическую область можно было считать маловероятным событием.
Критическая точка – граница доверительного интервала, за пределы которого случайная величина выходит с малой вероятностью, равной α , где α задаваемый уровень значимости.
Выборочная средняя – оценка x среднего значения μ генеральной совокупности, полученная на основе выборочных данных x ≈ μ .
Выборочное стандартное отклонение – оценка S стандарт-
ного отклонения σ генеральной совокупности – S ≈σ , полученная на основе выборочных данных.
Статистическая гипотеза – любое предположение относительно генеральной совокупности.
Нулевая гипотеза H0 – гипотеза, которая утверждает, что различие между сравниваемыми величинами отсутствует, а наблю-
86
даемые отличия объясняются случайными отклонениями выборочных данных.
Альтернативная (конкурирующая) гипотеза H1 – гипотеза,
которая противоречит нулевой гипотезе.
Статистический критерий – специально подобранная случайная величина, применяемая для проверки нулевой гипотезы – выборочная статистика, точное или приближенное распределение которой, известно.
Критерий согласия – критерий, который используют для проверки гипотез о предполагаемом законе распределения случайной величины. С его помощью выясняют, достаточно ли хорошо опытные данные согласуются с предполагаемым законом распределения, для того, чтобы его можно было использовать далее для описания случайной величины.
Число степеней свободы – определяется как общее число наблюдений N минус число уравнений m, связывающих эти наблю-
дения: n = N-m-1.
87
ПРИМЕРЫ ЗАДАЧ И РЕШЕНИЙ
4.1. Исследование рынка офисных помещений
Риэлтерская компания «PQ-инвест», занимающаяся строительством, ремонтом и сдачей в аренду офисных помещений, решила провести маркетинговое исследование с целью выявления наиболее востребованных (с точки зрения стоимости арендной платы) типов офисов. Для этого менеджер компании по маркетингу провел опрос руководителей 120 случайно выбранных коммерческих фирм, расположенных в районе. Результаты он свел в таблицу, в которой зафиксировал ответы на вопрос о том какую максимальную арендную плату (в долларах/ кв.м. в год) они считают приемлемой для своих фирм и откажутся от аренды офисов в данном районе в случае ее превышения.
Вопросы
yКакую полезную информацию можно извлечь из собранной статистики?
yНа какой сегмент (долю) рынка можно рассчитывать, если предлагать офисы со стоимостью арендной платы, не превышающей 1000 долларов / кв.м.?
yИмеет ли смысл уделять внимание подготовке и предложению офисных помещений со стоимостью аренды превышающей 1200 долларов / кв.м.?
Максимальная арендная плата, приемлемая для арендаторов (долларов/ кв.м. в год)
702 |
724 |
949 |
766 |
783 |
883 |
646 |
791 |
922 |
1109 |
799 |
851 |
1169 |
842 |
1046 |
919 |
731 |
538 |
900 |
1003 |
883 |
839 |
625 |
827 |
493 |
935 |
671 |
920 |
906 |
1056 |
1096 |
785 |
856 |
773 |
836 |
927 |
619 |
773 |
417 |
482 |
864 |
853 |
797 |
844 |
431 |
874 |
869 |
873 |
1231 |
1000 |
671 |
612 |
840 |
865 |
956 |
1177 |
758 |
1073 |
901 |
1013 |
811 |
804 |
875 |
1094 |
871 |
683 |
955 |
589 |
1189 |
655 |
857 |
962 |
1019 |
742 |
795 |
954 |
685 |
855 |
930 |
548 |
882 |
1070 |
971 |
859 |
934 |
538 |
690 |
730 |
931 |
967 |
749 |
851 |
1297 |
824 |
925 |
979 |
940 |
733 |
1183 |
1028 |
569 |
923 |
980 |
982 |
989 |
964 |
984 |
1043 |
924 |
1312 |
770 |
989 |
1187 |
384 |
1042 |
733 |
1074 |
713 |
1255 |
1097 |
88
Решение
Результаты обработки |
|
|
|
|
|
|
|
Результаты обработки |
|||||
выборки инструментом |
|
выборки инструментом |
||||
«Описательная статистика» |
|
|
«Гистограмма» |
|||
Среднее |
868,0166667 |
|
Карман |
Частота |
Отн. Частота |
|
Стандартная ошибка |
16,86655062 |
|
350 |
|
0 |
0% |
Медиана |
872 |
|
500 |
|
5 |
4% |
Мода |
883 |
|
650 |
|
9 |
8% |
Стандартное отклонение |
184,7638049 |
|
800 |
|
26 |
22% |
Дисперсия выборки |
34137,66359 |
|
950 |
|
42 |
35% |
Эксцесс |
0,223866093 |
|
1100 |
|
28 |
23% |
Асимметричность |
-0,174453813 |
|
1250 |
|
7 |
6% |
Интервал |
928 |
|
1400 |
|
3 |
3% |
Минимум |
384 |
|
Еще |
|
0 |
0% |
Максимум |
1312 |
|
|
|
|
|
Сумма |
104162 |
|
|
|
|
|
Счет |
120 |
|
|
|
|
|
Распределение офисов по величине ставки арендной платы, приемлемой для арендаторов
40% |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
35% |
|
|
|
|
|
35% |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
30% |
|
|
|
|
|
|
|
23% |
|
|
|
|
|
|
|
|
|
|
|
|
|
||
25% |
|
|
|
|
|
22% |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
20% |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
15% |
|
|
|
|
8% |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
10% |
|
|
|
|
|
|
|
6% |
|
|
|
|
|
4% |
|
|
|
3% |
|
||||
5% |
|
|
|
|
|
|
|
||||
|
0% |
|
|
|
|
|
|
0% |
|||
|
|
|
|
|
|
||||||
0% |
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
до 350 350- |
500- |
650- |
800- |
950- |
1100- |
более |
|||
|
|
|
|||||||||
|
|
500 |
650 |
800 |
950 |
1100 |
1250 |
1250 |
|
Так как, полученное распределение можно считать нормальным (проверка по критерию согласия приведена в таблице ниже), то
y Если предлагать офисы со стоимостью арендной платы, не превышающей 1000 долларов за кв.м, то
89
«Доля рынка (S<1000)" =
= НОРМРАСП(1000;868;184,764;ИСТИНА)=0,762 ¾ (~76%)
(вероятность того, что случайная величина – ставка, которая будет приемлема для арендаторов – окажется не выше 1000 долларов за кв.м.)
y Смысла уделять внимание подготовке и предложению офисных помещений со стоимостью аренды превышающей 1200 долларов/кв.м. нет, т.к. доля рынка арендаторов, готовых платить более 1200 долл. за кв.м.:
«Доля рынка (S>1200)» =
= 1- НОРМРАСП(1200;868;184,764;ИСТИНА)=0,036 ¾ ~ 4%.
Проверка гипотезы о соответствии эмпирического распределения – нормальному (на основе критерия согласия χ2)
Гипотеза Hо: "распределение нормально" (гипотеза не может быть отвергнута с уровнем значимости a =1 – Pдовер.)
Гипотеза H1: распределение отличается от нормального
|
|
|
|
|
|
|
|
|
Карман |
Частота |
Отн.частота |
Теор. |
χ2 |
|
|
350 |
0 |
0 |
0,002526232 |
0,3031479 |
|
|
500 |
5 |
0,041666667 |
0,020669047 |
2,5597699 |
|
|
650 |
9 |
0,075 |
0,095809804 |
0,5423845 |
|
|
800 |
26 |
0,216666667 |
0,237383941 |
0,2169677 |
|
|
950 |
42 |
0,35 |
0,314988337 |
0,466995 |
|
|
1100 |
28 |
0,233333333 |
0,223986135 |
0,0468083 |
|
|
1250 |
7 |
0,058333333 |
0,085288938 |
1,0223196 |
|
|
1400 |
3 |
0,025 |
0,017354528 |
0,404182 |
Число |
ин- |
7 |
|
|
χ2 |
4,0892651 |
тервалов |
|
|
|
|
|
|
Число степ. |
|
|
|
χ2крит. |
9,487729 |
|
своб. |
4 |
|
|
|||
|
|
|
|
|||
Ур. Значи- |
|
|
|
|
|
|
мости |
0,05 |
|
Выводы: |
|
||
Среднее |
868,017 |
|
С уровнем значимости |
0,05 |
||
Станд.откл |
184,764 |
|
распеделение нормально? => |
ДА |
||
Число набл.N |
120 |
|
с параметрами: |
|
|
|
|
|
|
|
среднее = |
868,017 |
|
|
|
|
|
ст.отклонение = |
184,764 |
|
|
|
|
|
|
|
|
90