Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
МОТС.doc
Скачиваний:
3
Добавлен:
01.03.2025
Размер:
525.82 Кб
Скачать

11.Гистограмма.

Гистограмма-изображение данных, которое дает визуальное представление основных свойств набора данных. Этот график позволяет ответить на следующие вопросы:

  • Какие значения типичны для этого набора данных

  • Как различается между собой значения

  • Сконцентрированы ли данные вокруг некоторого типичного значения

  • Есть ли в наборе данных значения, которые сильно отличаются от остальных

Гистограммы используются для представления частот появления данных в наборе. Гистограмма демонстрирует частоты в виде диаграммы из столбиков , которые расположены над числовой осью и показывают насколько часто различные значения встречаются в наборе данных. По числовой оси откладывают искомые значения данных.

12.Выбросы.

Иногда в данных можно наблюдать выбросы, сильно отличающиеся значением. В данном случае существует предположение, что эти данные не принадлежат этому набору (слишком велики/малы)

  • Ошибки регистрации

  • Корректное, но отличающееся значение

Труднее решаются проблемы выбросов корректных данных. В этом случае часто используют 2ой анализ :с учетом выбросов и без них сравнивают результаты.

13.Обобщающие показатели. Перцентель.

В статистическом анализе одним из самых эффективных способов увидеть всю картину является обобщение, т.е. использование 1 или нескольких рассчитанных значений для характеристики всего набора данных. Одна из целей статистики – свести набор данных к 1 или нескольки числам, которые будут выражать основные свойства этих данных. Среднее значение используют, как оценку мат. Ожидания: Вставка/Функция/Статистические-> Среднее значение. Средневзвешенное – позволяет присвоить различную значимость каждому элементу данных, т.е. вес – это положительные числа, сумма которых равна 1. Медиана – типическое значение для количественных и порядковых данных, расположено по середине, половина данных больше медианы, половина – меньше. Медиану можно определить в терминах рангов. Ранги связывают числа со значениями данных так, что наименьшее имеет ранг 1, следующее – 2 и т.д. до n. Тогда медиана имеет ранг n+1/2. Мода - типическое значение для любых наборов данных, это наиболее распространенная категория – чаще всего встречается в наборе данных, это единственная категория которую можно определить для номинальных качественных данных. Перцентель – характеристики набора данных, которые выражают ранги элементов в виде процентов от 0до 100. Наименьшее значение – нулевой перцентель, наибольшее – сотый, медиане соответствует 50ый перцентель. Перцентели – показатели, которые разбивают порядковые и количественные наборы данных на определенные части, он представляет собой элемент данных, имеющий определенный ранг, т.е. выражается в тех же единицах, что и элемент набора данных. Перцентель используется для 2 целей: показать значение элементарных данных при заданном перцентельном ранге и показать перцентельный ранг конкретного элемента в наборе данных.

14.Экстремумы,квартили и блочные диаграммы. Изменчивость.

Перцентили играют важную роль в качестве опорных характеристик. Чтобы обобщить основные черты распределения достаточно несколько значений перцентелей. Несколько значений перцентеля могут представить нам картину распределения. Медиана лежит посередине между наибольшим и наименьшим значениями данных(экстремумами). Квартели – 25 и 75 перцентели. Определим их так: 1. Найдем ранг медианы n+1/2 и отбросим дробную часть. 2. К полученному значению прибавим 1 и разделим на 2. 3. Отнимаем полученное значение из n+1 и вычитаем ранг нижнего квартеля, получаем ранг верхнего квартеля. Пять базовых показателей: экстремумы – характеризуют размах, верхний и нижний квартиль – границы половины данных, расположенной в центре, медиана – ее положение относительно квартилей дает представление о наличии или отсутствии асимметрии распределения. Эти показатели дают полное представление об особенностях набора данных. Блочная диаграмма – изображение всех 5 показателей, которое дает представление о распределении, она не содержит мелких деталей, что позволяет охватить всю картину. Подробная блочная диаграмма содержит помеченные выбросы и экстремальные наблюдения. Выбросы определяются как те значения данных, которые распологаются далеко от центра распределения. Значение рассматривается как выброс, если оно превышает верхний квартиль на +1.5 разницы(верхн-нижн) или нижний на -1.5 разницы.

Характеристики изменчивости. Размах – расстояние от мин до макс значения. Коэф.вариации – используется в качестве относительной меры изменчивости, показывает насколько сильно обычно результат конкретного наблюдения отличается от среднего значения. Для количественной оценки используется отношение стандартного отклонения к среднему значению и выражается в %.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]