- •Тема 10: описательный анализ. Базовые методы анализа маркетинговой информации
- •Вопрос № 1: Вариационный ряд: характеристика распределения данных.
- •Гистограмма (нормальное распределение)
- •Различают следующие виды относительных показателей.
- •Порядок расчета медианы:
- •Для расчета квартилей по интервальному вариационному ряду используются формулы:
- •Вопрос № 8: Понятие статистической гипотезы. Параметрическая и непараметрическая гипотезы.
- •Четыре возможных результата при проверке гипотезы
- •Виды критической области:
- •Вопрос № 12: Построение таблиц сопряженности признаков как метод, характеризующий совместное распределение двух или более переменных.
Порядок расчета медианы:
1) Расположить данные в порядке возрастания (или убывания) значений признака.
2) Определить номер медианной единицы.
Расчет медианы зависит от характера исходных данных, а именно, от четного или нечетного числа единиц совокупности, от вида признака (количественный или порядковый) и формы представления исходных данных (не сгруппированные данные, дискретный ряд распределения, интервальный ряд распределения).
Хо - нижняя граница медианного интервала (медианным называется первый интервал, накопленная частота которого превышает половину общей суммы частот);
i - величина медианного интервала;
Sme-1 - накопленная частота интервала, предшествующего медианному;
f Me - частота медианного интервала.
Медиана, как и мода, не зависит от крайних значений вариант, поэтому также применяется для характеристики центра в рядах распределения с неопределенными границами.
Это свойство медианы используется на транспорте при проектировании расположения трамвайных и троллейбусных остановок, бензоколонок, сборочных пунктов и т. д.
Квартили - это значения признака в упорядоченной по возрастанию совокупности, которые делят совокупность на четыре равные части. Первая или нижняя квартиль (Q1) характеризует значение признака, меньше которого расположено 25% единиц совокупности, а больше - 75%. Вторая квартиль соответствует медиане (Q2 = Me), т.е. у 50% единиц совокупности значение признака меньше второй квартили, а у 50% - больше. Третья или верхняя квартиль (Q3) характеризует значение признака, меньше которого расположено 75% единиц совокупности, а больше - 25%.
Квинтили - это значения признака в упорядоченной по возрастанию совокупности, которые делят совокупность на пять равных частей. Первая или нижняя квинтиль (K1) характеризует значение признака, меньше которого расположено 20% единиц совокупности, а больше - 80%. Четвертая или верхняя квинтиль (K4) характеризует значение признака, меньше которого расположено 80% единиц совокупности, а больше - 20%.
Децили - это значения признака в упорядоченной по возрастанию совокупности, которые делят совокупность на десять равных частей. Первая или нижняя дециль (D1) характеризует значение признака, меньше которого расположено 10% единиц совокупности, а больше - 90%. Девятая или верхняя дециль (D9) характеризует значение признака, меньше которого расположено 90% единиц совокупности, а больше - 10%.
Перцентили - это значения признака в упорядоченной по возрастанию совокупности, которые делят совокупность на сто равных частей.
Для расчета квартилей по интервальному вариационному ряду используются формулы:
где xQ1 – нижняя граница интервала, содержащего нижний квартиль (интервал определяется по накопленной частоте, первой превышающей 25 %);
xQ3 – нижняя граница интервала, содержащего верхний квартиль (интервал определяется по накопленной частоте, первой превышающей 75 %);
i – величина интервала;
SQ1-1 – накопленная частота интервала, предшествующего интервалу, содержащему нижний квартиль;
SQ3-1 – накопленная частота интервала, предшествующего интервалу, содержащему верхний квартиль;
fQ1 – частота интервала, содержащего нижний квартиль;
fQ3 – частота интервала, содержащего верхний квартиль.
Кроме квартилей в вариационных радах распределения могут определяться децили – варианты, делящие ранжированный вариационный ряд на десять равных частей. Первый дециль (d1) делит совокупность в соотношении 1/10 к 9/10, второй дециль (d1) – в соотношении 2/10 к 8/10 и т.д.
Вычисляются децили по формулам:
Значения признака, делящие ряд на сто частей, называются перцентилями. Соотношения медианы, квартилей, децилей и перцентилей:
ВОПРОС № 5: Блочная диаграмма.
Блочная диаграмма (гистограмма) содержит один или несколько блоков, которые представляют распределение данных в одном или нескольких наборах данных.
Используется для графического представления распределений непрерывно варьирующих признаков и состоит из примыкающих друг к другу прямоугольников. Основание каждого прямоугольника равно ширине интервала группировки, а высота его такова, что площадь прямоугольника пропорциональна частоте (или частости) попадания в данный интервал. Если ряд безинтервальный, то ширина всех столбцов выбирается произвольной, но одинаковые. Таким образом, высоты прямоугольников должны быть пропорциональны величинам
где ni — частота i-го интервала группировки;
hi — ширина i-го интервала группировки.
Для построения гистограммы по оси абсцисс указывают значения границ интервалов и на их основании строят прямоугольники, высота которых пропорциональна частотам (или частостям).
Когда ширина всех интервалов группировки одинакова, вид гистограммы не изменится, если по оси ординат откладывать не величины рi, а частоты интервалов ni.
В
этом случае чтобы не нарушить принцип
построения гистограммы (площади
прямоугольников пропорциональны
частотам интервалов), по оси ординат
уже нельзя откладывать частоты, а надо
– высоты прямоугольников (которые
должны быть пропорциональны отношениям
).
ВОПРОС № 6: Показатели вариации. Размах вариации.
Под вариацией в статистике понимают такие количественные изменения величины исследуемого признака в пределах однородной совокупности, которые обусловлены перекрещивающимся влиянием действия различных факторов. Колеблемость отдельных значений характеризуют показатели вариации. Чем больше вариация, тем дальше в среднем отдельные значения лежат друг от друга.
Различают вариацию признака в абсолютных и относительных величинах.
К абсолютным показателям относятся:
размах вариации,
среднее линейное отклонение,
среднее квадратическое отклонение,
дисперсия.
Все абсолютные показатели имеют ту же размерность, что и изучаемые величины.
К относительным показателям относятся коэффициенты осцилляции, линейного отклонения и вариации.
Размах вариации, представляет собой разность между максимальным и минимальным значением признака.
R = Xmax – Xmin.
Показатель размаха вариации не всегда применим, так как он учитывает только крайние значения признака, которые могут сильно отличаться от всех других единиц.
Более точно можно определить вариацию в ряду при помощи показателей, учитывающих отклонения всех вариантов от средней арифметической.
Среднее линейное отклонение (L) представляет собой среднее арифметическое из абсолютных значений отклонений отдельных вариантов от средней.
А) для несгруппированных данных
Б) для сгруппированных данных
Практическое использование среднего линейного отклонения заключается в следующем, с помощью этого показателя анализируется состав работающих, ритмичность производства, равномерность поставок материалов.
Недостаток этого показателя заключается в том, что он усложняет расчеты вероятного типа, затрудняет применение методов математической статистики.
Среднее квадратическое отклонение (σ) является наиболее распространенным и общепринятым показателем вариации. Оно несколько больше среднего линейного отклонения. Для умеренно асимметричных распределений установлено следующее соотношение между ними:
σ =1,25×L
Для его исчисления каждое отклонение от средней возводится в квадрат, все квадраты суммируются (с учетом весом), после чего сумма квадратов делится на число членов ряда и из частного извлекается корень квадратный.
Все эти действия выражает следующая формула
А) для несгруппированных данных
Б) для сгруппированных данных
т.е. среднее квадратическое отклонение представляет собой корень квадратный из средней арифметической квадратов отклонений от средней.
Среднее квадратическое отклонение является мерилом надежности средней. Чем меньше σ, тем лучше среднее арифметическое отражает собой всю представляемую совокупность.
Средняя арифметическая из квадратов отклонений вариантов значений признака от средней величины носит название дисперсии (σ²), которая рассчитывается по формулам
А) для несгруппированных
Б) для сгруппированных
Дисперсия обладает рядом свойств, некоторые из них позволяют упростить её вычисление:
1. Дисперсия постоянной величины равна 0.
2. Если все варианты значений признака (x) уменьшить на одно и то же число, то дисперсия не уменьшится.
3. Если все варианты значений признака уменьшить в одно и то же число раз (k раз), то дисперсия уменьшится в k² раз.
4. Дисперсия, рассчитанная по отношению к средней арифметической, является минимальной.
Относительные показатели вариации включают:
Коэффициент осцилляции
Относительное линейное отклонение (линейный коэффициент варианции)
Коэффициент вариации (относительное отклонение)
ВОПРОС № 7: Межквартильный размах. Стандартное отклонение. Коэффициент вариации.
Межквартильный, или средний, размах — это разность между третьим и первым квартилями выборки.
Межквартильный размах = Q3 – Q1
Эта величина позволяет оценить разброс 50% элементов и не учитывать влияние экстремальных элементов.
Следует отметить, что величины Q1 и Q3, а значит, и межквартильный размах, не зависят от наличия выбросов, поскольку при их вычислении не учитывается ни одна величина, которая была бы меньше Q1 или больше Q3. Суммарные количественные характеристики, такие как медиана, первый и третий квартили, а также межквартильный размах, на которые не влияют выбросы, называются устойчивыми показателями.
Межквартильный размах — это разность между 75-м и 25-м процентилями упорядоченного вариационного ряда. Межквартильный размах охватывает центральные 50% всех наблюдений выборки.
Стандарное отклонение — положительное значение квадратного корня из дисперсии.
Наиболее практичной и широко распространенной оценкой разброса данных является стандартное выборочное отклонение. Этот показатель обозначается символом S и равен:
Стандартное отклонение позволяет оценить величину колебаний элементов выборки вокруг среднего значения. Следовательно, зная среднее арифметическое элементов выборки и стандартное выборочное отклонение, можно определить интервал, которому принадлежит основная масса данных.
Коэффициент вариации является относительной оценкой. Он всегда измеряется в процентах, а не в единицах измерения исходных данных. Коэффициент вариации, обозначаемый символами CV, измеряет рассеивание данных относительно среднего значения. Коэффициент вариации равен:
где S — стандартное выборочное отклонение,
— выборочное
среднее.
Коэффициент вариации позволяет сравнить две выборки, элементы которых выражаются в разных единицах измерения.
Чем больше значение коэффициента вариации, тем относительно больший разброс и меньшая выравненность исследуемых значений. Если коэффициент вариации меньше 10%, то изменчивость вариационного ряда принято считать незначительной, от 10% до 20% относится к средней, больше 20% и меньше 33% к значительной и если коэффициент вариации превышает 33%, то это говорит о неоднородности информации и необходимости исключения самых больших и самых маленьких значений.
