
- •Тема 1. Описательная статистика
- •§1. Меры центральной тенденции.
- •1.1. Среднее арифметическое (выборочная средняя)
- •1.2. Медиана
- •1.3. Мода
- •1.4. Некоторые виды степенного среднего
- •1.5. Ограничения при работе с мерами центральной тенденции
- •Выбор меры центральной тенденции в зависимости от типа измерительной шкалы
- •§2. Меры изменчивости.
- •1.1. Размах
- •2.2. Квартильный размах
- •2.3. Дисперсия
- •2.4. Среднее квадратическое и стандартное отклонение
- •2.5. Среднее отклонение
- •2.6. Коэффициент вариации Cv
- •§3. Показатели формы кривой распределения.
- •3.1. Асимметрия
- •3.2. Эксцесс
- •Тема 2. Критерии согласия
Тема 1. Описательная статистика
О назначении описательной статистики можно судить по ее названию: она имеет дело с числами, характеризующими ту или иную интересующую нас ситуацию. Вот примеры статистической информации:
• уровень преступности в регионе;
• средняя зарплата в различных отраслях региона;
• число мобильных телефонов, проданных в текущем месяце;
• таблицы продолжительности жизни;
• уровень заболеваемости СПИДом;
• уровень достижений учащихся по математике;
• данные о доступности заданий ЕГЭ по математике;
• число граждан СНГ, обучающихся в Московском государственном университете, и т. п.
Ценность описательной статистики заключается в том, что она дает сжатую и концентрированную характеристику изучаемого явления.
Например: Пусть на некотором предприятии работает 1500 человек. Бухгалтерская ведомость на зарплату довольно большая. Информация о том, что средняя месячная зарплата работников этого предприятия составляет 8200 рублей, дает определенное, хотя и неполное представление об уровне заработной платы на этом предприятии.
§1. Меры центральной тенденции.
В результате исследований, связанных с массовыми явлениями, получают много числовых данных. Возникает проблема - найти такие характеристики, которые довольно полно характеризовали бы полученный числовой материал. Характеристики, которые базируются на данных массовых наблюдений, называют обобщающими показателями или числовыми характеристиками. Эти показатели характеризуют значения признака, его вариацию. Их вычисляют с помощью вариант и соответствующих частот (относительных частот). Важнейшие среди обобщающих показателей - средние величины, т. е. такие значения признака, вокруг которых группируются отдельные наблюдаемые значения элементов. Отсюда и название - меры центральной тенденции.
В зависимости от характера задачи пользуются тем или иным видом средней величины. К ним принадлежат среднее арифметическое (выборочная средняя), мода, медиана, степенные средние (среднее гармоническое, среднее геометрическое).
Изучая и используя обобщающие показатели, следует иметь в виду, что они только тогда объективно будут соответствовать своему назначению, если применяются к однородным совокупностям. В противном случае можно получить неправильные выводы. Например, едва ли правильно характеризовать средние учебные достижения учащихся одного региона, вычисленные по данным совокупности, к которой относятся наряду с учащимися элитных учебных заведений (лицеев, гимназий и т. п.) ученики общеобразовательных школ, специализированных школ для умственно отсталых детей и др.
1.1. Среднее арифметическое (выборочная средняя)
Пусть имеется n объектов, для которых измерена некоторая характеристика, и получены значения x1, x2, ..., xn.
Среднее арифметическое (выборочная
средняя) – это средняя арифметическая
всех вариант в выборке, обозначается
и вычисляется по формуле:
(для группированной выборки) или
(для негруппированной выборки).
Выборочная средняя характеризует среднюю варианту признака.
Сущность среднего арифметического состоит в следующем: если каждое наблюдение заменить средним, то общая сумма не изменится. Это среднее можно интерпретировать еще и так: если все наблюдения будут равны между собой, а сумма наблюдений останется неизменной, то каждое наблюдение будет равно среднему. Поскольку среднее сохраняет неизменной сумму при равномерном распределении значений, то оно наиболее полезно в качестве обобщающего показателя при отсутствии резко выделяющихся наблюдений, или как их называют, выбросов, т. е. когда набор данных представляет собой более менее однородную группу.
Еще одно свойство выборочной средней состоит в том, что сумма расстояний от среднего арифметического до объектов, имеющих большее значение, равна сумме расстояний до объектов, имеющих меньшее значение. Поэтому, естественно, что мы можем ее использовать только для шкал, где вычисление расстояний между объектами имеет смысл, то есть для числовых шкал.
Например: Рассмотрим среднюю месячную зарплату работников некоторого предприятия. Пусть, например, в фирме работает 20 человек, зарплата 19 из них составляет 10 000 рублей, а зарплата 10-го, руководителя, - 1 000 000 рублей.
Хотя среднее и сохранило общую сумму заработной платы, но оно является в данном случае плохим обобщающим показателем: оно плохо характеризует зарплату одного работника на этой фирме. Причина этого кроется в том, что набор данных содержит выброс - 1 000 000 рублей. Среднее оказалось слишком большим для большинства работников и слишком малым для высокооплачиваемого руководителя.
Следует отметить, что для номинальных дихотомических признаков, закодированных нулями и единицами, также можно считать среднее арифметическое, нужно лишь уметь правильно интерпретировать полученный результат.
Например: 0 - мужчины; 1 - женщины. Тогда выборочная средняя в нашем случае будет равна k/n, где k - число женщин (или признаков равных 1).