Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Белорусский государственный университет информатики и радиоэлектроники

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Овчаренко_8

.pdf

Скачиваний:

Добавлен:

11.05.2015

Размер:

2.2 Mб

Скачать

☆

1 / 51 2 3 4 5 > Следующая >>>

6. Использование методов статистической обработки в среде EXCEL для задач бизнес-анализа

Для исследования экономической информации задач бизнес-анализа широко используются статистические методы обработки. Электронная таблица EXCEL содержит набор встроенных функций категории Статистические, а также предоставляет специальные информационные технологии, выполняемые в среде Пакета анализа. Команда меню СЕРВИС, Надстройки позволяет выбрать Пакет анализа. После установки Пакета анализа изменяется состав команд меню режима СЕРВИС — появляется новая команда Анализ данных.

6.1. Описательная статистика

Массивы экономических показателей характеризуются значениями средних величин различного вида, вариацией ряда, моментами распределения (начальные, центральные) и формой (законом) распределения.

Статистика различает два вида моментов случайной величины определенной степени:

•начальный — математическое ожидание случайной величины (mi);

•центральный — математическое ожидание отклонения случайной величины от математического ожидания (Mi).

В описательной статистике применяются следующие оценочные показатели значений случайной величины:

• средняя арифметическая — начальный момент первого порядка, математическое ожидание значений случайной величины при большом числе испытаний — x ;

• средняя квадратическая — начальный момент второго порядка—

xср.кв. ;

•средняя кубическая — начальный момент третьего порядка — xср.куб.;

•средняя геометрическая для оценки средних темпов роста случайных величин, нахождения значения признака, равноудаленного от минимального и максимального значения — xср.геом.;

•средняя гармоническая для определения средней суммы обратных величин — хср.гарм.;

Между средними величинами существует соотношение:

хср.гарм≤ xср.геом≤ x ≤ xср.кв≤ xср.куб

Для измерения рассеивания значений признака относительно математического ожидания используются другие показатели:

•Дисперсия — второй центральный момент, математическое ожидание квадрата отклонения случайной величины от ее математического ожидания.

•Среднее квадратическое отклонение — корень квадратный из дисперсии случайной величины.

Чем выше значения указанных величин, тем больше вариация случайной величины. Среднеквадратическое отклонение имеет ту же размерность, что и случайная величина, что облегчает сопоставление вариации значений.

•Средняя квадратическая ошибка средней с учетом размера выборки.

•Средний модуль отклонения — среднее значение абсолютной величины разности случайной величины и средней.

•Максимум (хmax ) — максимальное значение.

•Минимум (xmin) — минимальное значение.

•Наибольшее (k-e) — предшествующее максимуму значение с номером k.

•Наименьшее (k-e) — следующее после минимума минимальное значение с номером k.

•Интервал (I) — интервал значений случайной величины, равный

I= xmax − xmin .

•Мода — значение случайной величины, плотность вероятности которого максимальна.

•Медиана — значение случайной величины, при котором площадь, ограниченная кривой распределения, делится пополам

•Квартили распределения — подмножество данных с одинаковым числом элементов:

•0 — минимальное значение случайной величины;

•1 — первая четверть (квартиль), или 25% массива значений случайной величины;

•2 —медиана, вторая четверть, или 50% массива значении случайной величины;

•3 — третья четверть, или 75% массива значений случайной величины;

•4 — максимальное значение случайной величины.

•Доверительный интервал для значений случайной величины и заданного уровня надежности (альфа) значений. Если альфа = 0.05, для

нормальной кривой это значение равно	x ±1,96	σ	(т.е. в 95% случаев
		n

значение случайной величины находится в указанном интервале, где σ — среднеквадратическое отклонение, п — число наблюдений).

•Форма распределения случайной величины, в том числе:

♦Степень асимметричности ряда или плотности распределения вероятности случайной величины относительно ее математического ожидания — асимметрия. Если распределение симметрично, то все центральные моменты нечетного порядка, в том числе и коэффициент асимметрии, равны нулю;

♦Крутизна ряда или плотности распределения вероятности — эксцесс, определяется через четвертый центральный момент. Для нормального распределения эксцесс равен 0, положителен для крутых кривых распределения и отрицателен для плоских по сравнению с нормальной плотностью распределения кривых.

•Сумма значений случайной величины.

•Среднее значение случайной величины.

Указанные показатели описательной статистики в EXCEL вычисляются по принятым в статистике формулам, с которыми можно ознакомиться в режиме справки к статистическим функциям.

6.1.1. Информационная технология описательной статистики на базе Пакета анализа

Исходные данные для анализа могут быть представлены на рабочем листе в виде списка значений. Как правило, для идентификации массива значений используются названия столбцов — метки, а также создаются именованные блоки.

При выполнении команды Сервис, Анализ данных вызывается диалоговое окно Анализ данных, в котором выбирается режим Описательная статистика (рис. 6.1); в одноименном диалоговом окне задаются установки:

Рис. 6.1. Диалоговое окно режима Описательная статистика.

Входной интервал — блок ячеек, содержащий значения исследуемого экономического показателя. Можно указать один или несколько смежных столбцов/строк ячеек, содержащих числовые данные для анализа, которые находятся в произвольном месте (этот же, другой лист этой или любой открытой рабочей книги);

Группирование — определяет ориентацию блока исходных данных на рабочем листе (по строкам или по столбцам);

Метки — наличие имен в блоке ячеек.

Вывод результатов описательной статистики осуществляется по месту указания (блок ячеек на листе с исходными данными, другой лист или новая рабочая книга).

Вывод описательной статистики осуществляется на тот же рабочий лист — указывается начальная ячейка выходного диапазона, на новый лист, для которого можно указать имя, или в новую рабочую книгу. Содержание вывода определяется установками:

Итоговая статистика — полный вывод показателей описательной статистики;

Уровень надежности — указывается процент надежности данных для вычисления доверительного интервала;

k-ый наименьший — порядковый номер наименьшего после минимального значения;

k-ый наибольший — порядковый номер наибольшего после максимального значения.

6.1.2. Информационная технология использования статистических функций EXCEL

EXCEL содержит статистические встроенные функции для расчета показателей описательной статистики:

СРЗНАЧ — среднее арифметическое значений массива, который может состоять из нескольких интервалов ячеек — максимум 30. При вычислении не учитываются ячейки диапазона, которые содержат пустые или текстовые значения (ноль является учитываемым значением).

СРЗНАЧА — среднее арифметическое значении массива. Помимо чисел в расчете могут участвовать текст и логические значения, такие как ИСТИНА (интерпретируется как 1) и ЛОЖЬ (интерпретируется как 0).

СРГЕОМ — средняя геометрическая величина массива или интервала положительных чисел.

СРГАРМ — средняя гармоническая величина множества данных. СЧЕТ — количество чисел в интервалах или массивах ячеек ДИСП — дисперсия по выборке для массива чисел (блока ячеек).

ДИСПР — дисперсия для генеральной совокупности:

СРОТКЛ — среднее абсолютных значений отклонений точек данных от среднего

СТАНДОТКЛОН — стандартное отклонение по выборке. СТАНДОТКЛОНП — стандартное отклонение по выборке по

генеральной совокупности.

МАКС и МИН — максимальное и минимальное значения из списка аргументов.

МЕДИАНА — медиана для массива чисел. Если количество чисел четное, функция МЕДИАНА возвращает среднее двух чисел, находящихся в середине множества.

МОДА — мода для массива чисел. Если множество данных не содержит одинаковых данных, то функция МОДА возвращает значение ошибки #Н/Д (нет данных).

СКОС — асимметрия распределения относительно среднего. Если имеется менее трех точек данных или стандартное отклонение равно нулю, то функция дает ошибку #ДЕЛ/0!.

ЭКСЦЕСС — эксцесс множества данных: Для нормального распределения эксцесс равен 3. Если задано менее четырех точек данных или

если стандартное отклонение выборки равняется нулю, то функция ЭКСЦЕСС возвращает значение ошибки #ДЕЛ/0! (деление на нуль).

КВАРТИЛЬ — квартиль множества данных. Массив не должен содержать более 65536 точек данных, принимает значения 0—4.

ДОВЕРИТ — доверительный интервал для среднего генеральной совокупности с заданным уровнем надежности (например, 95%).

Для удобства ввода формул следует массивы значений объявлять как именованные блоки.

Пример.

В качестве исходной статистической информации рассматривается база данных (список EXCEL) о котировке ценных бумаг на бирже, приведенная выше. Для удобства восприятия излагаемой информационной технологии эти данные приведены повторно. Для соответствующих столбцов списка целесообразно создать именованные блоки, включающие метки столбцов:

Дата	Код вида	Код	Номинал	Эмиссия	Спрос	Курс ЦБ
	ЦБ	эмитент	ЦБ	ЦБ	ЦБ
01.02.98	A	П1	1000	10	10	1,05
01.02.98	A	П1	1500	2	2	1,07
16.08.98	A	П1	1200	6	4	0,97
03.02.98	A	П2	500	4	3	0,98
12.06.98	A	П2	500	4	3	0,98
12.02.98	A	П3	100	6	4	0,97
22.06.98	A	П3	100	6	4	0,97
15.07.98	A	П3	500	4	3	0,98
12.02.98	B	П1	5000	3	3	1,12
22.06.98	B	П1	5000	3	3	1,10
17.08.98	B	П1	5000	3	3	1,12
21.02.98	B	П2	10000	2	2	1,06
23.06.98	B	П2	500	2	2	1,06
23.02.98	B	П3	2000	1	1	1,09
02.03.98	B	П3	15000	1	1	1,12
01.07.98	B	П3	500	1	1	1,07
01.08.98	B	П3	500	1	1	1,15
02.03.98	O	П1	5000	5	5	1,01
05.07.98	O	П1	2000	5	5	1,01
12.08.98	O	П1	1000	5	5	1,01
04.03.98	O	П2	500	6	4	1,02
05.06.98	O	П2	2000	5	3	1,00
12.07.98	O	П3	500	6	4	1,02

13.08.98	O	П3	2000	5	3	1,00
06.03.98	O	П3	1000	3	2	1,02
13.07.98	O	П3	1000	3	2	1,02

В качестве массива значений для описательной статистики взят Курс_ЦБ котировки ценных бумаг. Использованы технология Пакета анализа, статистические функции для аналогичных вычислений. Результаты расчетов сведены в таблицу, в которой показаны формулы, которые должны быть введены в ячейки.

Описательная статистика для		Функции
массива КУРС ценных бумаг		Функции
(Курс_ЦБ)
Среднее	1,037	= СРЗНАЧ(Курс_ЦБ)

Стандартная ошибка	0,011	= СТАНДОТКЛОЩ(Курс ЦБ)/
		КОРЕН Ь(СЧЕТ( КурсЦБ))
Медиана	1,020	= МЕДИАНА(курс) или
		=КВАРТИЛЬ(курс;2)
Мода	1,020	= МОДА(курс)
Стандартное	0,054	= СТАНДОТКЛОН(курс)
отклонение	0,054	= СТАНДОТКЛОН(курс)
отклонение
Дисперсия выборки	0,003	= ДИСП(курс)

Эксцесс	-0,841	= ЭКСЦЕСС(курс)
Асимметричность	0,537	= СКОС(курс)
Интервал	0,180	= МАКС(курс)-МИН(курс)
Минимум	0,970	= МИН(курс) или
Минимум	0,970	=КВАРТИЛЬ(курс;0)

Максимум	1,150	= МАКС(курс) или
		=КВАРТИЛЬ(курс;4)
Сумма	26,970	= СУММ(курс)
Счет	26,000	= СЧЁТ(курс)
Наибольший(1)	1,150	-

Наименьший(1)	0,970	-
Уровень надежности	0,022	=ДОВЕРИТ(0,05;СТАНДОТКЛОН(курс);
(95,0%)		СЧЁТ(курс))

(n −1)

Для вычисления показателей средней геометрической — одинаково отстоящей от максимума и минимума — и средней гармонической — средней обратных величин — использованы формулы:

Формула	Результат
=СРГЕОМ(Курс_ЦБ)	1,035977

=СРГАРМ(Курс_ЦБ)	1,034667

6.2. Ранжирование числовых данных

Ранжирование больших массивов числовых данных обеспечивает упорядочение данных и получение для них таких статистических оценок, как ранг и персентилъ. Ранг — это номер значения случайной величины в наборе данных, который присваивается согласно следующим правилам:

•каждое уникальное значение имеет уникальный ранг;

•группа из одинаковых значений (w) получает одинаковый ранг, равный рангу первого числа группы (R). Число, следующее за этой группой, получает ранг, равный R + т;

•максимальное значение в наборе данных имеет ранг, равный 1; минимальное значение в наборе данных имеет наибольшее значение ранга, равное количеству чисел в наборе (п) при отсутствии одинаковых значений или (n-k-l) при наличии k одинаковых минимальных значений. Значение ранга позволяет установить процент чисел в массиве, не превосходящих указанное значение (с заданным рангом) — процентранг {Т). Процентранг вычисляется по формуле:

для разных чисел:	T =	(n − R)	100% ,
		(n −1)

для одинаковых чисел: T = (n − R −(k −1)) 100% .

Для отдельного значения показателя выполняется оценка его относительного положения в множестве данных с помощью показателей:

• квартиль — значение признака, делящего ряд (множество данных)

на 4;

• квинтель — значение признака, делящего ряд (множество данных)

на 5;

•дециль — значение признака, делящего ряд (множество данных) на 10 равных частей;

•персентиль — значение признака, делящего ряд (множество данных) на 100 равных частей.

6.2.1. Информационная технология ранжирования данных в Пакете анализа

Команда Сервис, Анализ данных вызывает диалоговое окно

Инструменты анализа, в котором выбирается режим Ранг и персентиль.

Исходные данные представлены в виде массивов числовых данных, для которых определены имена блоков. Для выполнения ранжирования данных используется диалоговое окно (рис. 6.2), в котором указываются:

Рис. 6.2. Диалоговое окно режима Ранг и персентиль.

Входные данные — блок ячеек или имя блока. Данные могут иметь произвольную ориентацию (группирование) — по строкам или по столбцам. Если в блок включены наименования полей (метки), используется переключатель;

Параметры вывода — это блок ячеек на том же листе; новый лист; новая рабочая книга.

Выходная таблица содержит столбцы:

Точка — порядковый номер числа в наборе исходных данных; Столбец1 — столбец исходных данных, расположенных в порядке

возрастания номера ранга и убывания значения данных; Ранг — ранг числа; Процент — значение процентранга.

6.2.2. Информационная технология ранжирования с использованием статистических функций

Взаимосвязанные функции РАНГ, ПРОЦЕНТРАНГ, ПЕРСЕНТИЛЬ, КВАРТИЛЬ выполняются применительно к массиву ранжируемых данных, который указывается как именованный блок.

Функция РАНГ возвращает ранг определенного числа в указанной последовательности чисел:

РАНГ(число;ссылка;порядок),

где число — число либо ссылка на ячейку, содержащую число, для которого определяется ранг;

ссылка — блок ячеек, содержащий массив ранжируемых чисел. Блок может содержать нечисловые значения, которые игнорируются при вычислении;

порядок — способ упорядочения:

ЛОЖЬ — ранжирование в порядке убывания, ИСТИНА — в порядке возрастания значений. Например, если массив содержит значения:

1,15 1,12 1,12 1,12 1,1,

то им буду присвоены ранги при ранжировании по убыванию:

Функция ПРОЦЕНТРАНГ возвращает долю значений в массиве, не превосходящих значение заданной точки данных:

ПРОЦЕНТРАНГ(массив;число;разрядность)

1 / 51 2 3 4 5 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
11.05.2015223.08 Кб16Овчаренко_1.pdf
#
11.05.20151.98 Mб117Овчаренко_4.pdf
#
11.05.2015814.51 Кб22Овчаренко_5.pdf
#
11.05.20152.03 Mб19Овчаренко_6.pdf
#
11.05.20152.16 Mб109Овчаренко_7.pdf
#
11.05.20152.2 Mб18Овчаренко_8.pdf
#
16.03.20167.64 Mб476ОЗИ. Методичка.doc
#
16.03.20162.13 Mб454ОЗИ.doc
#
11.05.20157.53 Mб121ОЗИ.pdf
#
11.05.2015149.58 Кб39ОИБГ(курс лекций).docx
#
07.11.20181.27 Mб8ОИВТ_Ч1.doc