Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
наши шпоры к статистике.doc
Скачиваний:
4
Добавлен:
01.04.2025
Размер:
1.13 Mб
Скачать

16. Кластерный анализ на основе евклидовой метрики.

Кластерный анализэто способ группировки многомерных объектов, основанный на представлении результатов наблюдений точками геометрического пространства соответствующей размерности с последующим выделением групп, как сгустков этих точек.

В кластерном анализе считают, что сходство и различие между объектами наблюдений находятся в соответствии с расстоянием между точками, т.е. близкие объекты похожи, далекие отличаются друг от друга.

Существует несколько способов измерения расстояния между точками, например:

  • «Эвклидово расстояние»:

  • «Расстояние Хемменга»: .

Т.к. нельзя суммировать квадраты отклонений одной точки от другой в абсолютных значениях разнокачественных признаков, необходимо выразить различия между единицами совокупности по каждому признаку в безразмерном показателе, таком как нормированная разность:

,

где - абсолютная разность значений j-го признака у единиц совокупности с номерами p и q.

- с.к.о. признака .

Расстояние является мерой сходства или различия между объектами.

Основные процедуры метода кластерного анализа:

1) отбор выборки для кластеризации;

2) определение множества признаков, по которым будут оцениваться объекты выборки;

3) вычисление значения меры сходства или различия между объектами;

4) применение конкретного метода кластерного анализа для создания однородных групп (иерархический кластерный анализ);

5) проверка достоверности результатов кластерного решения.

Сущность иерархического метода заключается в том, что на первом шаге каждый объект выборки рассматривается как отдельный кластер. На втором шаге рассчитывается матрица расстояний и матрица меры сходства. Третий шаг - процесс объединения кластеров происходит последовательно: на основе матрицы расстояний (евклидово расстояние) или матрицы сходства объединяются наиболее близкие объекты.

Новому кластеру присваивается меньший из номеров объединяемых кластеров. Затем все повторяется до тех пор все объекты не будут объединены в один кластер.

Различают два вида иерархического древа: агломеративное и дивизивное.

Способы:

  1. Метод ближайшего соседа. В качестве представителя кластера берется входящий в него объект, наименее удаленный от остальных. Т.е. расстояние между группами = расстоянию между ближайшими элементами класса.

  2. Метод дальнего соседа. В качестве представителя кластера берется входящий в него объект, наиболее удаленный от остальных. Т.е. расстояние между классами = расстоянию между дальними соседями.

  3. Центроидный метод. Расстояние между классами = расстоянию центра тяжести данных классов.

  4. Метод средней связи. Расстояние между классами = среднему расстоянию между объектами классов.

17. Построение и анализ системы рядов динамики.

Одной из важнейших задач статистики является изучение изменений анализируемых показателей во времени, т.е. их динамика. Эта задача решается при помощи анализа рядов динамики (или временных рядов).

Ряд динамики – это ряд расположенных в хронологической последовательности числовых значений статистического показателя, характеризующих изменение явлений во времени. В каждом ряду динамики имеются два основных элемента: время t и конкретное значение показателя (уровень ряда) y. Уровни ряда – это показатели, числовые значения которых составляют динамический ряд. Время – это моменты или периоды, к которым относятся уровни.

Построение и анализ рядов динамики позволяют выявить и измерить закономерности развития общественных явлений во времени. Выявление основной тенденции изменения уровней (тренда), является одной из главных задач анализа рядов динамики.

В зависимости от способа выражения уровней ряды динамики подразделяют на ряды абсолютных, относительных и средних величин.

По времени, отражаемому в динамических рядах, они подразделяются на моментные (уровни ряда представлены величиной явления на определенную дату, момент) и интервальные (выражают уровни ряда за определенный промежуток, интервал времени).

При формировании динамических рядов необходимо соблюдать определенные правила их построения. Важнейшим из них является требование сопоставимости всех уровней ряда между собой. Сюда относится сопоставимость по:

  • территориям (одни и те же границы территорий);

  • кругу охватываемых объектов;

  • критическому моменту регистрации для явлений с сезонным характером уровней;

  • единицам измерения;

  • по методике расчета уровней динамического ряда (использование единой методологии их расчета);

  • а также приведение к сопоставимому виду дополнительными расчетами.

Иногда прибегают к приему, который называется «смыкание рядов динамики». Под смыканием понимается объединение в один ряд (более длинный) двух или нескольких рядов динамики, уровни которых исчислены по разной методологии или разным территориальным границам.

Для наглядного представления процесса развития явлений можно использовать графическое изображение изменения уровней временного ряда в виде графиков и диаграмм.

Большинство статистических характеристик ряда динамики основано на абсолютном или относительном сравнении его уровней. Простейшими показателями динамики являются абсолютный прирост, темпы роста и прироста, абсолютное значение одного процента прироста.

Принято называть сравниваемый уровень текущим, а уровень, с которым производится сравнение, базисным. Если каждый уровень сравнивается с предыдущим, то полученные при этом показатели называются цепными, если все уровни сравниваются с одним и тем же уровнем, принятым за базу сравнения, то показатели будут базисными.