Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
уд экзамен.docx
Скачиваний:
48
Добавлен:
01.06.2024
Размер:
2.54 Mб
Скачать

6. Меры центральной тенденции. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.

Для начала мы визуально отобразим все значения изученных нами показателей на гистограмме частот, где по оси Х будут откладываться полученные значения, а по оси Y количество этих значений.

Например, мы изучали какой рост встречается в определенной группе людей. По оси Х мы отразим все полученные нами переменные, а по оси Y – сколько людей имели тот или иной рост (это может быть отражено как столбцами, так и просто линией).

Нас может интересовать как что-то единое, общее для всех известных нам переменных (меры центральной тенденции), проще говоря — поможет ответить на вопрос, что объединяет наши данные, так и то, насколько эти переменные друг от друга отличаются (меры изменчивости).

Меры центральной тенденции измеряют среднюю или типичное значение в наборе данных. Они дают представление о том, где сосредоточены данные и как они распределены.

Меры центральной тенденции: Мода, Медиана, Среднее значение

Мода – это самое частое встречающееся значение в описываемой совокупности. На графике моду обозначает самая высокая точка пика. Если два соседних значения встречаются одинаково часто и чаще, чем любое другое значение, мода есть среднее этих двух значений. Так описывается унимодальное распределение.

Медиана – значение, которое делит данные на прямой ровно пополам. То есть слева и справа от медианы будут отложены одинаковое количество значений. При этом не важно, есть ли выбросы и симметрично ли распределение.

Выброс — экстремально малое или большое значение переменной, выбивающееся из общей картины.

Среднее значение – это результат деления суммы всех значений на количество этих значений. Тут уже очень важна симметричность и выбросы, потому что, как все знают, средняя температура и зарплата по больнице всегда очень неплохие.

(Среднее значение и медиана считаются по разному. Медиана в отсортированном массиве, среднее в сортировке не нуждается!!!)

Среднее весьма чувствительно к выбросам и нивелировать их способна только огромная выборка, что может быть накладно. Главное преимущество медианы в ее устойчивости к выбросам — аномально большим или малым значениям, так как при их появлении будет учитываться не значение признака, а лишь количество этих значений.

7. Стандартизированное распределение (z-распределение) и его свойства. Для чего используется? Напишите формулу для нахождения z-оценки. Придумайте пример для нахождения стандартизированного распределения, визуализируйте полученный результат

Стандартизированная оценка (z-оценка) — это относительная мера, которая показывает, на сколько среднеквадратичных отклонений наблюдаемое значение отличается от среднего значения распределения. Знак z-оценки показывает, находится ли значение левее среднего (–) или правее среднего (+). С помощью z-оценок мы можем стандартизировать распределение — выразить все значения в терминах дистанции от среднего. Поэтому z-оценка еще называется стандартизированной.

Выразим z-оценку формулой для генеральной совокупности:

И для выборки:

Z-оценка используется для стандартизации и нормализации данных, а также для выполнения статистических тестов, например, для определения того, насколько наблюдаемое значение отклоняется от среднего значения в распределении. Она помогает сравнивать данные, вычислять вероятности и принимать статистические решения.

В числителе у нас находится отклонение значения от среднего. А разделив его на среднеквадратичное отклонение, мы как раз находим расстояние от значения до среднего в единицах среднеквадратичных отклонений. Можно еще услышать, когда говорят, что значение находится на расстоянии «сколько-то сигм» от среднего. Кстати, зная z-оценку, среднее и среднеквадратичное отклонение, можно легко восстановить и оригинальное значение. Для генеральной совокупности:

Для выборки:

Давайте попробуем рассчитать z-оценку для X=95, принадлежащего генеральной совокупности с μ=86 и σ=7

z=(X–μ)/σ=(95−86)/7=9/7=1.29

Таким образом, мы можем сказать, что наблюдение X=95 находится на расстоянии 1.29 среднеквадратичного отклонения выше среднего.

А теперь давайте по оценке найдем оригинальное значение. Мы знаем, что z=–1.50, μ=60 и σ=8. Восстанавливаем значение по формуле:

X=μ+zσ=60+(–1.508)=60–12=48

Если мы превратим все значения переменной в распределении в z-оценки, то мы получим z-распеределение или стандартизированное распределение. Такое распределение сохранит форму оригинального распределения, но среднее в нем будет равно 0, а среднеквадратичное отклонение — 1.

Z-распределение обладает и важными свойствами. Через z-оценки мы можем описать пропорции нормального распределения:

Если в случае с интерквартильным размахом мы знаем, что он дает нам информацию о разбросе в центральных 50% выборки, то теперь мы можем оценивать и количество данных в частях нормального распределения. Так в интервале от минус одного до плюс одного среднеквадратичного отклонения располагается примерно 68% выборки — то есть самые типичные для нее значения.