- •1)) Табличные и графические формы представления данных, их построение и анализ
- •2)) Обработка и анализ нечисловых (категорийных) данных с помощью сводных таблиц
- •4)) Методы группировки данных
- •5)) Методы группировки данных с помощью функции частота
- •7)) Показатели изменения уровней ряда динамики
- •9)) Методы сглаживания динамических рядов
- •10)) Аналитическое выравнивание динамического ряда. Виды трендовых моделей
- •Трендовые модели прогнозирования
- •12)) Автокорреляция уровней ряда. Свойства коэффициентов автокорреляции. Коррелограмма
- •13)) Сезонные колебания. Расчетов индексов сезонности.
- •14)) Построение аддитивных и мультипликативных моделей прогнозирования
- •15)) Доверительные интервалы прогноза. Оценка адекватности и точности моделей
- •17)) Создание файлов данных. Элементы описательной статистики в ппп statistica
- •18)) Представление многомерных данных в пакете statistica Стандартизация данных.
- •19)) Определение и экономическая интерпретация коэффициентов корреляции и детерминация Построение корреляционной матрицы в пакете statistica и её анализ, средствами пакета
- •Коэффициент корреляции Пирсона
- •20)) Многомерный регрессионный анализ в пакете statistica: Определение коэффициентов уравнения регрессии, оценка адекватности уравнения и оценка параметров и остатков
- •21)) Понятие кластерного анализа и области его применения
- •22)) Основные способы определения расстояний между объектами. Методы разбиения на кластеры
- •23))Математические характеристики кластера
- •24))Методика объединения (разбиения) в кластеры по иерархическому агломеративному методу. Дендограмма
- •25))Технология выполнения метода к- средних. Описания графика средних
- •26))Проверка статистической значимости построенных кластеров
- •27)) Дисперсионный анализ результатов метода к – средних
4)) Методы группировки данных
Группировка – разбиение совокупности на группы, однородные по какому-либо признаку или объединение отдельных единиц совокупности в группы, однородные по каким-либо признакам. Устойчивое разграничение объектов называется классификацией или стандартом, в котором каждая атрибутивная запись может быть отнесена лишь к одной группе или подгруппе. Метод группировки основывается на двух категориях – группировочном признаке и интервале.
Группировочный признак – признак, по которому происходит объединение отдельных единиц совокупности в однородные группы. Он может носить как количественный, так и качественный характер. В ряде случаев группировка, которая представляется чисто качественной, в конечном итоге оказывается основанной на количественном признаке. Такова, например, классификация промышленных предприятий по отраслям. Поскольку одно и то же предприятие выпускает продукцию разных видов, статистика решает этот вопрос по количественному преобладанию того или иного вида.
Интервал очерчивает количественные границы групп и представляет собой промежуток между максимальным и минимальным значениями признака в группе. Интервалы бывают равные, неравные, закрытые (когда имеется верхняя и нижняя граница) и открытые (когда одна из границ отсутствует).
Статистические группировки и классификации преследуют цели выделения качественно однородных совокупностей, изучения структуры совокупности, исследования взаимосвязи факторных и результативных признаков. Каждой из этих целей соответствует особый вид группировки: типологическая, структурная и аналитическая.
В зависимости от числа положенных в основание группировки признаков различают простые и многомерные группировки.
Простая группировка выполняется по одному признаку. Среди простых группировок особо выделяются ряды распределения. Ряд распределения – группировка, в которой для характеристики групп, упорядоченно расположенных по значению признака применяется один показатель – численность группы.
Возьмем условный пример дискретного ряда распределения студентов заочного отделения по росту:
№ п/п |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
15 |
16 |
17 |
18 |
19 |
20 |
Рост, см |
152 |
155 |
157 |
160 |
163 |
165 |
166 |
166 |
166 |
169 |
170 |
170 |
171 |
172 |
171 |
175 |
179 |
180 |
181 |
184 |
Данный ряд является ранжированным, так как значения роста упорядочены по возрастанию.
Построим интервальный ряд распределения студентов по росту, для чего необходимо выбрать оптимальное число групп (интервалов признака) и установить длину (размах) интервала. Поскольку при дальнейшем анализе ряда распределения сравнивают частоты в разных интервалах, необходимо, чтобы длина интервалов была постоянной (иначе для сопоставимости придется частоты делить на единицу интервала - полученное значение называется плотностью).
Оптимальное число групп выбирается так, чтобы в достаточной мере отразилось разнообразие значений признака в совокупности и в то же время закономерность распределении, его форма не искажалась случайными колебаниями частот. Если групп будет слишком мало, то не проявится закономерность вариации; если групп будет чрезмерно много, то случайные скачки частот исказят форму распределения.
Пример. Проанализировать уровень еженедельной зарплаты (тенге) рабочих фирмы на основании выборки из 30 рабочих
6500 4580 5670 7460 7650 8760 6960 6540 7490 3760 5430 6540 6750 4390 7830 6200 5700 6430 7950 2300 6490 5630 7890 5680 6430 5890 7900 5370 5890 3500
Данные, в таком первоначальном виде, трудно анализировать. Чтобы они имели содержательный характер представляем их в виде таблицы частот. Для этого, чтобы определить общий диапазон таблицы частот, находим наибольшее и наименьшее значения. В примере наибольшее значение – 8760 тенге, а наименьшее значение - 2300 тенге. В Excel для этих целей можно применить функции МАКС и МИН.
Далее необходимо разбить указанный диапазон на группы или интервалы группировки. Во многих случаях целесообразно проводить разбивку на большее или меньшее число групп. При группировке данных возникает вопрос о том, на сколько групп будет разбита изучаемая совокупность. На этот вопрос нет стандартного ответа. Если распределение признака в границах его вариации достаточно равномерно или близко к нормальному, диапазон колебаний признака разбивают на равные интервалы, длину которых определяют по формуле:
h=
где xmax, xmin –максимальное и минимальное значение признака в совокупности; k - число групп. Число групп можно определит по формуле Стерджесса k=1+3,322lgN, где N- число единиц в совокупности. Обычно группы имеют одинаковую интервальную протяженность. В нашем примере интервалы данных могут быть определены по формуле:
k=1+3,322lgN=1+3,322хlg30=1+3,322х1,477=5,9
h=
=
Полученное значение следует корректировать для облегчения расчетов, в нашем примере по 1000. Таким образом представим в виде таблицы 1.
Таблица 1- Частота группировки
№ |
Недельное жалование |
Количество рабочих |
1 |
От 2000 до 2990 |
1 |
2 |
От 3000 до 3990 |
2 |
3 |
От 4000 до 4990 |
2 |
4 |
От 5000 до 5990 |
8 |
5 |
От 6000 до 6990 |
9 |
6 |
От 7000 до 7990 |
7 |
7 |
От 8000 до 8990 |
1 |
По этой таблице видно, что основная часть, из 30 рабочих 24 зарабатывают в пределах 5000-8000 тенге. При приеме рабочих на работу можно им сказать что, в среднем многие рабочие зарабатывают от 5000 до 8000 тенге. Исходные данные могут быть сведены в таблицу с открытыми границами, как это показано ниже:
Таблица 2- Группировка по удельному весу
Недельное жалование |
2000- |
3000- |
4000- |
5000- |
6000- |
7000 |
8000 |
Количество рабочих |
1 |
2 |
2 |
8 |
9 |
7 |
1 |
Процент |
3 |
7 |
7 |
27 |
30 |
23 |
3 |
По этой таблице 2 видно, что на фирме из 30 рабочих 80% рабочих получают от 5000 до 8000 тенге.
Закрытыми называются интервалы, у которых указаны обе границы, открытыми – интервалы с одной границей. Интервалы 2000- охватывает жалование от 2000 и выше, но ниже первой цифры интервала следующей группы, т.е. ниже 3000 тенге.
При использовании равных интервалов для образования групп, излишне увеличивается их количество, при этом многие группы будут малочисленными. В этих условиях совокупность разбивают на группы с неравными интервалами.
Распределение частот
При увеличении объема выборки ни упорядоченный массив, ни диаграмма «ствол и листья» уже не позволяют легко представлять, анализировать и интерпретировать результаты. Для больших наборов данных следует создавать сводные таблицы, распределяя данные по группам (или категориям). Такой способ представления данных называется распределением частот.
Распределение частот представляет собой сводную таблицу, в которой данные распределены по группам или категориям.
Если данные сгруппированы в виде распределения частот, процесс их анализа и интерпретации становится более управляемым и осмысленным. При распределении частот следует внимательно выбирать интервал группирования, или размах групп, а также вычислять границы каждой группы, не допуская их перекрытия.
Количество групп, выбранных для группировки данных, непосредственно зависит от объема исходной выборки. Чем больше элементов содержит выборки, тем больше групп можно создать. Однако, как правило, рапределение частот должно содержать не менее 5 и не более 15 групп.
Каждая группа, образующая распределение частот, должна иметь одинаковый размах. Для вычисление распределения частот необходимо так определить границы групп, чтобы они не пересекались. Перекрытие групп не допускается. В таблице 2 приведена группировка данных. Главным преимуществом этой таблицы является возможность легко вычислять основные характеристики данных. Например, приближенный диапазон недельное жалования ограничен числами 2000 и 9000, причем показатели в основном группируются в диапазоне от 5000 до 8000.
Для более углубленного анализа распределения частот можно построить либо распределение относительных частот, либо процентное распределение. Распределение относительных частот вычисляется путем деления количества элементов каждой группы, образующей распределение частот, на общее количества наблюдений.
