
- •1.1.2 Выборка и генеральная совокупность. Типы выборок.
- •1.1.3 Ранжирование (группировка, классификация) данных.
- •1.1.4 Распределение вариант и распределение средних. Выборочные характеристики как оценки характеристик генеральной совокупности. Свойства оценок: несмещенность, состоятельность, эффективность.
- •1.1.5 Оценка стандартного отклонения для распределения средних.
- •1.1.6 Доверительный интервал -1. Интервал для среднего случайной выборки, если генеральное среднее известно
- •1.1.7 Доверительный интервал -2. Интервал для генерального среднего
- •1.1.8 Нулевая гипотеза - 1. Основные понятия.
- •1.1.9 Нулевая гипотеза - 2. Зачем нам два уровня значимости
- •1.1.10 Критерий χ-квадарат.
- •1.2 Двумерные случайные величины
- •1.2.1 Правила вычислений моментов второго порядка
- •1.1.2 Коэффициент корреляции
- •2. Регрессионный анализ
- •2.1 Парная линейная регрессия
- •2.1.1 Простейшая модель – парная линейная регрессия
- •2.1.2 Мера оценки отклонений – метод наименьших квадратов (мнк).
- •2.1.3 Практические вычисления для линейной модели.
- •2.1.4 Условия применимости метода наименьших квадратов
- •2.1.5 Качество оценки переменной y, полученное с помощью уравнения регрессии.
- •2.1.6 Качество модели – f-критерий (критерий Фишера)
- •2.1.7 Оценки ошибок коэффициентов регрессии
- •2.1.8 Проверка гипотез для коэффициентов регрессии
- •2.2 Парная нелинейная регрессия
- •2.2.1 Распространение методов парной линейной регрессии на нелинейные задачи
- •2.2.2 Квадратичная регрессия
1.1.3 Ранжирование (группировка, классификация) данных.
Полезность группировки
Данные, полученные в результате выборки, представляют собой «сырой» материал. Обычно перед тем, как приступить к вычислению характеристик выборки, его подвергают предварительной обработке. Наиболее распространенным методом такой обработки является ранжирование (группировка, классификация) данных. Эта процедура состоит в том, что мы все данные разбиваем на группы (ранги), и в дальнейшем всем результатам, отнесенным к одной группе, присваивается одно и то же значение (один и тот же ранг, если речь идет о качественном признаке). Например, так происходит при шитье на фабрике мужских костюмов – всех мужчин, чей рост находится в диапазоне 168-178 см., относят к одной группе(2-й рост) и всех их рассматривают как людей одного роста: 173см.
Этот метод применяется отнюдь не только в тех случаях, когда необходимость группировки данных диктуется потребностями стандартизации. Так поступают в очень многих случаях поскольку такой подход не только упрощает процедуру расчета, но и позволяет снизить влияние случайных небольших ошибок.
При разбиении всего множества вариант на группы (классы, ранги) стирается разница между дискретными и непрерывными величинами. Отметим сразу, что при работе с реальными данными непрерывных случайных величин не существует уже хотя бы потому, что любые измерения производятся с некоторой точностью, а значит любая непрерывная величина в результатах опыта предстает как дискретная, и в роли минимально возможного различия (шага дискретизации) выступает цена деления прибора.
С другой стороны, если максимальное число возможных значений дискретной случайной величины (максимальное минус минимальное значение, деленное на шаг измерения) очень велико, принципиальное различие между дискретной и непрерывной случайной величиной исчезает.5 Т.е. практически при работе с конкретными данными имеет смысл говорить не о непрерывных и дискретных величинах, а о совокупностях данных с малым и большим числом градаций.
Способы разбиения и границы интервалов
К
огда
мы приступаем к разбиению данных на
группы (классификации данных), прежде
всего мы должны выбрать количество
групп данных, если, разумеется, это
количество не продиктовано самим смыслом
задачи, как происходит в случае, скажем,
классификации людей по размеру обуви.
Выбирая количество групп данных следует
руководствоваться здравым смыслом,
следя за тем, чтобы количество элементов
в группе не было слишком малым,6
а общее число групп не было слишком
большим. Смысл слов «слишком» диктуется
целью обработки данных и опытом
исследователя. Так, указанные выше
ограничения направлены на то, чтобы
избежать излишней дробности представления
данных, но конечно следует помнить и о
том, чтобы вместе с водой не выплеснуть
и «ребенка» - не слить в одну группу
слишком разные данные, реально существующие
существенные различия должны быть
сохранены.
Когда мы осуществляем группировку, мы фактически все множество возможных значений разбиваем на интервалы, и все значения, попавшие в один интервал, заменяем одним стандартным значением – центром интервала. При этом границы интервала определяются как средние арифметические между величинами двух соседних центров.
Отметим, что при группировке количественных характеристик, центральные значения групп всегда образуют прогрессию. Однако не всегда эта прогрессия арифметическая, иногда разумно считать что центры групп образуют геометрическую прогрессию. Последнее встречается в тех случаях, когда отношение наименьшего и наибольшего значения очень велико (ситуация большого динамического диапазона). Кроме того, геометрическая прогрессия для центров групп достаточно часто встречается в экономике потому, что для экономических задач весьма характерно «процентное» рассмотрение: результат вычисляется как некая доля исходных данных (прибыль, доход, налог – все они описываются чаще всего как доли или проценты). В случае, когда интервалы образуют арифметическую прогрессию, мы говорим о равномерной шкале, а в случае геометрической прогрессии о логарифмической шкале.
Рассмотрим примеры.
Пусть нам дана таблица данных
-
Значение Х
<210
210
270
330
390
>390
Количество n
7
23
45
42
28
15
Легко заметить, что наши стандартизованные значения Х образуют арифметическую прогрессию, т.е. перед нами равномерная шкала. В группу со стандартным значением 270 при этом попали все значения, у которых в ходе опыта были получены результаты, лежащие в диапазоне 240< х < 300 (эта ситуация изображена на Рис.1, верхняя линия)
Пусть теперь наша таблица данных выглядит так:
-
Значение Х
<210
210
280
375
500
>500
Количество n
7
23
45
42
28
15
Здесь вполне очевидно, что
центры групп образуют геометрическую
прогрессию со знаменателем 1,33
(логарифмическая шкала). В группу со
стандартным значением 280 при этом попали
все значения, у которых в ходе опыта
были получены результаты, лежащие в
диапазоне 240< х
< 320 (эта ситуация изображена на Рис.1,
нижняя линия). Границы интервалов
определяются не как средние арифметические,
а как средние геометрические двух
соседних стандартов; так граница между
классами «210» и «280» равна
=
242,7
240; граница между классами «500» и « 375»
равна
430. Обычно и при назначении стандартных
значений групп (центров интервалов), и
при вычислении границ групповых
интервалов не следуют строго закону
прогрессии, а прибегают к округлению
значений.
Отдельно следует сказать о полубесконечных интервалах, очень часто именно такими являются первый и последний интервалы. Т.е. в первый интервал попадают все значения, меньшие стандарта для первого интервала, в последний – все значения большие стандарта для последнего интервала. Так они показаны в большинстве книг.
ВНИМАНИЕ!! Однако здесь содержится очевидная неточность. Указанные в таблице значения представляют ведь не границы, а центры интервалов. В частности, значение 210 приписывается всем результатам, которые оказались в диапазоне от 180 до 240. Следовательно, в группу «<210» попадают все результаты, меньшие 180, а вовсе не меньшие 210 – название противоречит сути.
Далее какое значение следует приписать первой группе?
Для первой таблицы разумно поступить так же, как и для всех данных в этой таблице – стандартное значение меньше правого края ровно на 30 единиц. Это значит, что при вычислении характеристик всем элементам этой группы приписывают значение 150.
Для второй таблицы ситуация несколько сложнее. В первую группу как и в предыдущем случае попадают все значения, меньшие 180. Но вот со стандартом (значением, которое присваивается всем элементам) тут сложнее: т.к. масштаб у нас логарифмический, то ширина интервала у всех групп разная, однако мы знаем, что стандартные значения образуют геометрическую прогрессию с частным 1,33. Значит стандарт для левого полубесконечного интервала получается делением стандарта первого конечного интервала на 1,33, получим: 210 : 1,33 160.
Для правого полубесконечного интервала аналогично получим: стандартное, т.е. приписываемое всем элементам интервала значение составляет 500×1,33 670.
Т.е. в логарифмической шкале стандарты для крайних интервалов вычисляются исходя из ближайшего стандартного значения путем умножения или деления ближайшего значения на знаменатель прогрессии.