Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Тема_Excel.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
348.16 Кб
Скачать

1.18Статистическая обработка данных с помощью ms Excel

На практике достаточно часто встречаются задачи, в которых результат полностью и жестко не определяется влияющими на него факторами. Например, невозможно однозначно и точно сказать, сколько времени будет светить только что приобре­тенная электрическая лампочка или, несмотря на наличие расписания движения, в какой момент времени прибудет ожидаемый поезд. Невозможно заранее сказать, сколько покупателей придет в магазин. Ежедневное количество покупателей в ма­газине изменяется случайно изо дня в день, принимая любые натуральные значения в некотором интервале. Конкретный результат можно получить, только проведя соответствующую проверку, испытание. Причем очевидно, что в разных испыта­ниях будут получены разные результаты. Ясно, что в приведенных примерах кро­ме основных факторов, влияющих на срок службы лампочки, на время прибытия поезда, на количество покупателей в магазине, действует множество второстепен­ных, учесть которые в полном объеме невозможно. Для описания явлений с не­определенным исходом используется понятие случайной величины. Величина, значение которой зависит от множества одновременно действующих факторов и изменяется от одного испытания (измерения) к другому, называется случайной. Теоретическое изучение случайных величин является предметом теории вероят­ностей, а изучением их применения для решения прикладных задач занимается математическая статистика.

Говорят; что значения случайной величины наблюдаются в испытаниях с некото­рой вероятностью. Случайность значений таких величин на самом деле подчиня­ется некоторым закономерностям, которые описываются так называемыми зако­нами распределения вероятностей. На практике достаточно часто приходится сталкиваться с равномерным законом распределения, описывающим случайные величины, которые с одинаковой степенью вероятности принимают значения из не­которого интервала. Например, равномерным законом описывается количество очков, выпавших на игровом кубике. Эта случайная величина с равной долей ве­роятности может принимать любое значение в диапазоне от единицы до шести.

Во время решения задач статистического характера иногда возникает необходи­мость в имитации наблюдения значений некоторой случайной величины. Для это­го в программе MS Excel предусмотрена функция СЛЧИС(), отнесенная к катего­рии математических. Эта функция не имеет аргументов, поэтому справа от ее названия находятся пустые круглые скобки. Она .вырабатывает значения случайной величины, равномерно распределенные, в интервале от 0 до 1. Если в задаче требуется, чтобы случайная величина была равномерно распределена в другом интервале, значение, выработанное функцией, нужно подвергнуть масштабирова­нию. Например, с помощью формулы =ЦЕЛОЕ(СЛЧИС()*100) можно получить целочисленные значения случайной величины, равномерно распределенной в ин­тервале от 1 до 100. Такую формулу можно записать в некоторую ячейку таблицы, а затем с помощью маркера заполнения занести последовательность случайных величин в некоторый диапазон ячеек.

----------------------------------------------------------------------

ВНИМАНИЕ

Полученные таким путем значения случайных величин изменяются в ячейках таблицы при каждом пересчете.

---------------------------------------------------------------

Более простые по сравнению с законами распределения способы описания слу­чайных величин связаны с использованием их статистических характеристик: среднего значения, дисперсий, среднеквадратичного отклонения, медианы, моды, квартиля, скоса и т. д.

ПРИМЕР

Рассмотрим случайную величину Х — ежедневное количество покупателей в не­котором магазине. Пусть это фактически подсчитанные количества покупателей соответственно в первый, второй,..., n-й день проведения подсчетов. Такую группу фактически измеренных значений случайной величины принято называть выборкой. Среднее значение случайной величины Х (обозначается как <х> или М[Х]) по имеющейся выборке вычисляют с помощью формулы:

Пусть, например, замеры количества покупателей в течение недели в магазинах № 1 и № 2 дали результаты, представленные в табл. 4 и 5 соответственно. Обозначим ежедневное количество покупателей в первом магазине как случай­ную величину X, а ежедневное количество покупателей во втором магазине как случайную величину Y. По приведенным в таблицах данным видно, что в среднем в день в каждом из рассматриваемых магазинов бывает 700/7= 100 покупателей, то есть<x>=100 и <y>=100.

Таблица 4. Замеры количества покупателей в магазине № 1

№п/п

День недели

Условное обозначение

Количество покупателей

(xi - <x>)2

1

Понедельник

x1

140

40*40=1600

2

Вторник

x2

120

20*20=400

3

Среда

x3

80

(-20)*(-20)=400

4

Четверг

x4

150

50*50=2500

5

Пятница

x5

90

(-10)*(-10)=100

6

Суббота

x6

70

(-30)*(-30)=900

7

Воскресенье

x7

50

(-50)*(-50)=2500

Итого

700

8400

Таблица 5. Замеры количества покупателей в магазине № 2

№п/п

День недели

Условное обозначение

Количество покупателей

(yi - <y>)2

1

Понедельник

y1

101

1*1=1

2

Вторник

y2

98

(-2)*(-2)=4

3

Среда

y3

100

0*0=0

4

Четверг

y4

102

2*2=4

5

Пятница

y5

97

(-3)*(-3)=9

6

Суббота

y6

103

3*3=9

7

Воскресенье

y7

99

(-1)*(-1)=1

Итого

700

28

Средние величины используются при решении довольно широкого спектра задач экономического анализа. Рассмотрим, например, применение средних для опре­деления уровня сезонности явлений (так называемой «сезонной волны»). Под сезонностью понимают изменения показателей величин, вызванные различными объективными факторами сезонного характера (например, такими факторами могут выступать смена времен года или изменения природно-климатических ус­ловий). В качестве показателей сезонности обычно применяют индексы сезон­ности. Наиболее часто для определения индексов сезонности применяют метод простой средней. В этом случае индекс сезонности вычисляют по следующей формуле:

,

где среднее по определенному периоду времени (месяц, квартал), взятое в течение t лет;

- общее среднее, взятое за общее число периодов времени,

п — число анализируемых периодов, N=t*n,

yij наблюдав­шиеся значения случайной величины.

Пусть, например, ведутся помесячные на­блюдения (период — месяц, число периодов n=12) за продажей некоторого товара в течение трех лет (t=3, N= t*n=36). Тогда i это порядковый номер месяца, j — порядковый номер года наблюдения, yij количество единиц товара, проданных в i-м месяце j-го года. Чтобы рассчитать индекс сезонности, скажем, января, нужно найти среднее число продаж только по январям за срок наблюдения и поделить на общее среднее по всем месяцам всего срока.

Среднее значение можно трактовать как своеобразную середину области возмож­ных значений случайной величины. Важно также знать, как сильно значения изу­чаемой величины отличаются от ее среднего, насколько кучно размещаются изме­ренные значения вокруг среднего значения или, иначе говоря, насколько широк разброс случайной величины. Разброс или рассеивание случайной величины во­круг ее среднего характеризуется параметром, который называется дисперсией D[X] случайной величины X. Чем больше дисперсия, тем больше разброс возможных значений случайной величины. Чтобы наглядно представить себе смысл этой ве­личины, рассмотрим следующий пример. Имеются две группы сотрудников неко­торой организации. В каждой группе по три человека. Зарплаты сотрудников пер­вой группы: 1000 рублей, 6000 рублей и 11 000 рублей, зарплаты сотрудников во второй группе: 5800 рублей, 6000 рублей и 6200 рублей. В среднем сотрудники каждой из групп получают по 6000 рублей. А теперь сравните отклонения от сред­ней величины в первой и во второй группах. Очевидно, что во второй группе со­трудники получают примерно одинаковую зарплату, отклонения от средней вели­чины незначительны, дисперсия мала. А в первой группе очень велик разброс между уровнями зарплаты, отклонения от средней величины большие, дисперсия вели­ка. Итак, дисперсия характеризует степень отклонения возможных значений слу­чайной величины относительно среднего. Для вычисления значения дисперсии случайной величины Х используют следующую формулу:

На практике часто используют и другую характеристику рассеивания — средне­квадратичное отклонение , вычисляемое по формуле .

Величина также характеризует размах колебаний случайной величины Х около среднего зна­чения, но среднеквадратичное отклонение , в отличие от дисперсии D[X], имеет ту же размерность, что и случайная величина X.

Вновь обратимся к рассматриваемому примеру. Так, в магазине № 1 (см. данные последнего столбца табл. 4) в среднем количество покупателей каждый день отличается от средней величины (100 человек в день) на 35 человек (так как D[Х]=8400/7=1200 и ). В магазине же № 2 (см. данные последнего столбца табл. 5) в среднем количество покупателей каждый день отличается от средней величины (100 человек в день) на 2 человека (так как D[Х] =28/7=4 и ). Таким образом, в нашем примере разброс случайной величины Х (ко­личество покупателей в магазине №1) около своего среднего значения достаточно велик и составляет приблизительно третью часть средней величины, в то время как разбросом случайной величины Y (количество покупателей в магазине № 2) около ее среднего значения можно пренебречь, так как он составляет всего лишь 2% от средней величины. Исходя из этого, следует определенным образом планировать, например, завоз скоропортящихся продуктов в магазины. В первом магазине в один из дней может оказаться очень мало покупателей и существует большой риск, что продукция не будет распродана и пропадет; в то время как во втором магазине та­кой риск очень мал и им можно пренебречь.

Медиана — это статистическая характеристика, которая определяет середину вы­борки, то есть половина чисел, образующих выборку, имеют значения большие, чем медиана, а половина чисел имеют значения меньшие, чем медиана. Не нужно путать среднее с медианой. Так, для магазина № 1 среднее число покупателей, со­гласно проведенным выше расчетам, равно 70, в то время как медиана равна 90. В самом деле, если выстроить количество покупателей в разные дни недели по воз­растанию, то будет получена следующая последовательность: 50, 70, 80, 90, 120, 140,150. Очевидно, что в этой последовательности три значения 50, 70, и 80 мень­ше, чем 90, и три значения 120, 140, 150 — больше. Следовательно, 90 является медианой рассматриваемой выборки.

Аналогичный характер имеют характеристики, которые называются квартилями, каждый из них определяет положение четвертой части выборки. Так, первый квар­тиль — это число, меньше которого 25% выборки. Второй квартиль совпадает с ме­дианой, так как он определяется числом, меньше которого 50% выборки, а третий квартиль определяется числом, меньше которого 75% выборки.

Следующая статистическая характеристика мода определяется как наиболее час­то встречающееся в выборке значение случайной величины. Так, в выборке {5,6,5, 4,4,3, 2, 4} мода равняется 4.

Числовая характеристика, которая называется скос или асимметрия, характери­зует степень несимметричности размещения элементов выборки относительно ее среднего значения. Положительный скос свидетельствует о перекосе выборки в сторону больших значений, и наоборот, отрицательный — о перекосе в сторону мень­ших значений. Так, скос для данных по первому магазину равен 0,196, а для дан­ных по второму магазину равен 0, следовательно, в первом случае наблюдается положительная асимметрия, а во втором — отсутствует.

Для определения степени однородности случайной величины по формуле вычисляется ее коэффициент вариации Vx. Если величина Vx <0,33, то совокуп­ность значений случайной величины Х можно считать достаточно однородной, в противном случае — неоднородной, состоящей из различных по своему содержа­нию совокупностей.

Для исследования степени связи между двумя различными случайными величина­ми Х и У определяется мера тесноты связи, которую принято называть коэффициен­том корреляции и обозначать rxy. Возможные значения коэффициента корреля­ции находятся в диапазоне от минус единицы до плюс единицы. После вычисления коэффициента корреляции необходимо проанализировать его значение. Принято считать, что между величинами имеется некоторая корреляционная зависимость, если модуль коэффициента корреляции больше 0,1. При | rxy | >0,3 корреляционная связь признается существенной, при | rxy | >0,5 — значительной, при | rxy | >0,7 - тесной. Если величина коэффициента корреляции близка к единице, то можно считать, что между случайными величинами имеется прямая причинно-следствен­ная связь. Если коэффициент корреляции близок к минус единице, то это свидетельствует об обратной зависимости исследуемых величин. При коэффициенте корреляции, близком к 0, можно считать, что, связь между величинами отсутствует.

Для вычисления рассмотренных и многих других статистических характеристик случайных величин программа MS Excel располагает широким набором статистических функций. Их полный список можно получить, выполнив команду Вставка > Функция.... Программа MS Excel предусматривает также применение 18 статистических инструментов анализа, в том числе таких, как описательная статистика, гистограмма, генерация случайных чисел, корреляция и ряд других. Эти инструмен­ты позволяют автоматизировать статистический анализ данных. Доступ к ним можно получить, выполнив команду Сервис > Анализ данных.... Затем в диалоговом окне Анализ данных в списке Инструменты анализа следует выбрать нужный инструмент и задать входной и выходной интервалы, а также другие требуемые параметры. Например, инструмент анализа Описательная статистика создает спи­сок рассмотренных выше статистических характеристик записанной в некотором диапазоне ячеек выборки. При помощи этого инструмента можно получить ин­формацию об основной тенденции и изменчивости данных. В частности, можно вычислить следующие характеристики: дисперсию выборки, среднеквадратичное отклонение, медиану, моду и скос.

Если в меню Сервис отсутствует команда Анализ данных..., это свидетельствует о том, что инструменты анализа статистических данных не установлены в MS Office. В этом случае следует выполнить команду Сервис > Надстройки... и в списке над­строек окна команды включить флажок в строке Пакет анализа, нажав затем кноп­ку ОК

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]