Добавил:
связь https://discord.gg/sRPpSvnP Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Экзамен УД билеты + мои ответы 2024.docx
Скачиваний:
30
Добавлен:
11.07.2024
Размер:
613.65 Кб
Скачать
  1. Визуализация данных. Линейный график, столбчатые диаграммы, гистограммы, диаграммы рассеяния. Изобразить графически, описать суть графиков.

Линейный график — это тип диаграммы, который отображает информацию как серию точек данных, соединенных прямыми линиями. Если у вас есть данные о ежемесячных продажах за год, линейный график покажет, были ли месяцы, когда продажи росли, и когда они падали. Это поможет выявить сезонные колебания или эффект от маркетинговых кампаний.

С толбчатая диаграмма используется для сравнения различных элементов в данных через вертикальные или горизонтальные столбцы. Высота или длина столбца пропорциональна представляемым значениям и позволяет быстро сравнивать различные группы между собой.

Гистограмма — это вид столбчатой диаграммы, которая группирует числовые данные в интервалы (бины), показывая частоту данных в каждом интервале. Гистограммы используются для изучения распределения данных и часто применяются в статистике для демонстрации распределения вероятностей. Используя гистограмму для оценок студентов, можно узнать, сколько студентов получили отличные, хорошие, удовлетворительные и плохие оценки.

Диаграмма рассеяния — это тип графика, который использует координаты для представления значений двух переменных для набора данных. Применяются для анализа взаимосвязей между двумя числовыми переменными.

  1. Меры вариативности. Перечислить основные типы (4), написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.

Меры вариативности (или дисперсии) используются в статистике для оценки того, насколько различными являются данные в наборе.

Размах — это разница между максимальным и минимальным значениями в наборе данных. Формула: R=max(x)−min(x)

Дисперсия показывает, насколько в среднем данные отклоняются от среднего значения. Формула (для выборочной дисперсии): , где – отдельные значения, – среднее значение, n – колво значений в выборке.

Стандартное отклонение — это корень квадратный из дисперсии, показывающий стандартное (типичное) отклонение значений данных от среднего.

Межквартильный размах (IQR) показывает разницу между третьим (75%) и первым (25%) квартилями данных.

Влияние выбросов.

Размах и стандартное отклонение особенно подвержены влиянию выбросов, они напрямую зависят от наиболее отдаленных значений в данных.

Пример: Представим набор данных о величине сбережений:100,150,200,250,300,10000.

Здесь 10000 — явный выброс.

Доказательство:

Среднее значение без выброса: (100 + 150 + 200 + 250 + 300) / 5 = 200

Среднее значение с выбросом: (100 + 150 + 200 + 250 + 300 + 10000) / 6 = 1666.67

Стандартное отклонение без выброса будет относительно низким, так как большинство значений близки к среднему.

Стандартное отклонение с выбросом будет значительно выше, так как данные значительно разбросаны из-за выброса.

  1. Меры центральной тенденции. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.

Меры центральной тенденции используются для определения центрального или "типичного" значения в наборе данных. Они помогают представить набор данных одним числом, которое описывает среднее или наиболее типичное значение распределения.

Среднее значение (арифметическое среднее) - это сумма всех значений, деленная на их количество.

Медиана — это значение, которое делит упорядоченный набор данных на две равные части. Половина данных находится ниже медианы, а половина — выше.

Если количество элементов n нечетное, медиана — это значение посередине. Если n четное, медиана — это среднее двух центральных значений.

Мода — это значение в наборе данных, которое встречается чаще всего.

Мода определяется как значение с наибольшим количеством повторений в данных.