Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Laboratornaya1-_FZO.docx
Скачиваний:
5
Добавлен:
01.07.2025
Размер:
1.25 Mб
Скачать

2. Частотный анализ

Первым этапом статистического анализа данных, как правило, является частотный анализ, позволяющий проанализировать частоту встречаемости признаков и дать предварительную оценку их распределения.

На основании ранее созданной Вами базы данных (Лаб. Работа №1) проведите частотный анализ для переменной АДдиаст.

Алгоритм действий :

Анализ > Описательные статистики > Частоты…> в открывшемся диалоге перенесите в поле Переменные необходимую переменную > ОК (рис. 2.1)

Рис. 2.1. Вид функции Частоты

Результаты обработки данных появятся в окне просмотра результатов: на экран выводится информация с обзором числа анализируемых и отсутствующих значений и таблица с частотной характеристикой заданной переменной.

Рис. 2.2. Вид частотных таблиц в SPSS.

В этом же диалоговом окне можно задать расчет подробных статистических характеристик для анализируемых переменных.

Описательные статистики — это различные вычисляемые показатели, характеризующие распределение значений переменной. Эти показатели условно можно разбить на несколько групп. Первая группа — меры центральной тенденции, вокруг которых «группируются» данные: среднее значение, медиана и мода. Вторая группа характеризует изменчивость значений переменной относительно среднего: стандартное отклонение и дисперсия. Диапазон изменчивости характеризуется минимумом, максимумом и размахом. Асимметрия и эксцесс представляют меру отклонения формы распределения от нормального вида. Кроме того, существуют величины, выражающие погрешности некоторых статистик: стандартная ошибка среднего, стандартная ошибка асимметрии и стандартная ошибка эксцесса. Последние два показателя вычисляются программой вместе с асимметрией и эксцессом по умолчанию.

Рассчитайте основные показатели описательной статистики по переменной АДдиаст.

Алгоритм действий:

Анализ > Описательные статистики > Частоты…>Статистики… > в соответствующем диалоге установите флажки, где необходимо > Продолжить > ОК (рис. 2.3)

Рисунок 2.3. Вид функции Частоты:Статистики

В окне просмотра результатов появится таблица с выбранными описательными статистиками (рис. 2.4).

Рисунок 2.4. Вид таблицы с описательными статистиками

В таблице будет показано количество всех наблюдений (объем выборки), количество пропущенных значений и выбранные описательные характеристики.

Среднее значение — это арифметическое среднее измеренных значений; оно определяется как сумма значений, деленная на их количество. 

Медиана — это точка на шкале измеренных значений, выше и ниже которой лежит по половине всех измеренных значений.

Мода — это значение, которое наиболее часто встречается в выборке. 

Стандартное отклонение — это мера разброса измеренных величин; оно равно квадратному корню из дисперсии. В интервале шириной, равной удвоенному стандартному отклонению, который отложен по обе стороны от среднего значения, располагается примерно 67% всех значений выборки, подчиняющейся нормальному распределению.

Коэффициент асимметрии — это мера отклонения распределения частоты от симметричного распределения, то есть такого, у которого на одинаковом удалении от среднего значения по обе стороны выборки данных располагается одинаковое количество значений. Если наблюдения подчиняются нормальному распределению, то асимметрия равна нулю. 

Коэффициент вариации или эксцесс — указывает, является ли распределение пологим (при большом значении коэффициента) или крутым. Коэффициент вариации равен нулю, если наблюдения подчиняются нормальному распределению. 

Размах или диапазон — это разница между наибольшим значением (максимумом) и наименьшим значением (минимумом).

Минимум — наименьшее значение.

Максимум — наибольшее значение.

Результаты частотного распределения можно представить графически.

Осуществите графическое представление данных переменной Пол.

Алгоритм действий:

Анализ > Описательные статистики > Частоты…> Диаграммы… > в соответствующем диалоге (рис. 2.5) включите опцию Столбиковые… > в зависимости от величины, которую вы хотите использовать для отображения частот, установите переключатель Значения на диаграмме в положение Частоты или Проценты > Продолжить.>ОК.

Рисунок 2.5. Вид функции Частоты: Диаграммы

После выполнения этого шага программа сгенерирует диаграмму, соответствующую выбранным переменным (рис. 2.6).

Рисунок 2.6. Вид диаграммы в SPSS.

Алгоритм построения гистограмм аналогичен алгоритму построения столбиковых диаграмм. Однако необходимо помнить, что гистограммы предназначены для отображения непрерывных переменных, поэтому для переменной Пол гистограммы непригодны. А для переменной АДдиаст, отражающей артериальное диастолическое давление больного, гистограмма является удобным средством описания распределения частот.

При выводе результатов в виде гистограммы можно показать кривую нормального распределения, что наглядно демонстрирует степень отклонения исследуемого параметра от классического нормального распределения.

Алгоритм действий:

Анализ > Описательные статистики > Частоты…> Диаграммы… > и в соответствующем диалоге (рис. 2.7) включите опцию Гистограммы… > и установите флажок Показать на гистограмме нормальную кривую > Продолжить > ОК в основном окне Частоты .

Рисунок 2.7. Вид функции Частоты: Диаграммы

Ниже (рис. 2.8) представлен скриншот из окна вывода результатов анализа:

Рисунок 2.8. Вид гистограммы с нанесенной кривой нормального распределения.

Частоты на гистограмме обозначены колонками, которые примыкают друг к другу (в отличие от столбчатой диаграммы). Разрывы между столбцами означают отсутствие данных. Кроме этого на рисунке отображается среднее значение ряда, стандартное отклонение и общее количество наблюдений.

Процедура Разведочный анализ позволяет проводить наиболее полный статистический анализ, обеспечивая более широкие возможности графического представления данных. С ее помощью проводится анализ данных, идентификация выбросов, описание различий между группами наблюдений. Разведочный анализ предоставляет возможность разбиения наблюдений на подгруппы. Для этого задаются одна или несколько группирующих переменных. Однако, необходимо учитывать, что дробление данных снижает мощность статистического исследования, уменьшая число анализируемых данных.

Перейдите к исследованию данных, следуя алгоритму действий:

Анализ > Описательные статистики > Разведочный анализ...

Откроется диалоговое окно Исследовать (рис.2.9.).

Рис. 2.9. Диалоговое окно Исследовать

В этом диалоговом окне проводится различие между зависимыми переменными и факторами. Это означает, что можно выполнять анализ раздельно по группам наблюдений. В этом случае анализируемой переменной будет зависимая переменная, а группирующей переменной — фактор. Если же такой раздельный анализ проводить не требуется, список факторов не используется.

Проведите анализ возраста пациентов (анализ без группирующей переменной):

- перенесите переменную Возраст в Список зависимых переменных сначала выясните, какие методы анализа выполняются по умолчанию, поэтому не вносите никаких изменений в настройки > ОК.

Будут созданы следующие таблицы 2.1 - 2.3.:

Таблица 2.1

Таблица 2.2

Таблица 2.3.

В этом случае окно вывода результатов содержит:

- статистические характеристики,

- диаграмму stem-and-leaf (ветвей и листьев)

- коробчатую диаграмму (box plot).

Кроме вышеописанных таблица с описательными характеристиками содержит новые характеристики:

- 5% усеченное среднее - среднее значение, вычисленное без учета 5% наименьших и 5% наибольших значений.

- 95% доверительный интервал - доверительный интервал, в котором находится среднее значение с вероятностью 95%.

- межквартилъная широта - расстояние между первым и третьим квартилями.

Диаграмма ветвей и листьев представляет собой комбинацию гистограммы и табличного списка. Как на гистограмме, длина каждой строки соответствует количеству наблюдений, попадающих в определенный интервал. Но, сверх этого, на данной диаграмме выводится также наблюдаемое численное значение для каждого наблюдения. Для этой цели численное значения разбиваются на два компонента: ветвь, представляющую собой первую цифру или группу цифр и лист — последующие цифры. Ветвь соответствует тем разрядам численного значения наблюдаемой переменной, которые не изменяются, а листья — разрядам, которые изменяются в пределах избранного интервала. В рассматриваемом примере ветви разбиты на две части — одну для листьев с 0 по 4 и другую — для листьев с 5 по 9.

Коробчатая диаграмма состоит из прямоугольника, занимающего пространство от первого до третьего квартиля (то есть, от 25 до 75 процентиля). Линия внутри этого прямоугольника соответствует медиане. Кроме того, на коробчатой диаграмме отмечаются максимальное и минимальное значения, если только они не являются выбросами (рис. 2.10.).

Рис. 2.10. Коробчатая диаграмма

Проведите анализ для групп наблюдений. Проанализируйте переменную Возраст для четырех групп людей, разделенных по отношению к курению (переменная Курение).

Алгоритм действий:

В диалоговом окне Исследовать кнопкой Сброс восстановите настройки по умолчанию > перенесите переменную Возраст в Список зависимых переменных, а переменную Курение — в Список факторов > ОК.

В результате будут вычислены характеристики описательной статистики и построена диаграмма ветвей и листьев раздельно по четырем группам. На коробчатой диаграмме соответственно появятся четыре прямоугольника.

Остальные статистические параметры также можно вычислить раздельно по разным значениям группирующей переменной (в данном случае по переменной Курение). Это относится и к выводу гистограмм и диаграмм нормального распределения в окне просмотра.

Кроме вышеперечисленных возможностей разведочного анализа, по переменным можно строить и гистограммы.

Алгоритм действий:

Исследовать > Графики > Исследовать:Графики (рис. 2.11.).

Рис. 2.11.: Диалоговое окно Исследовать:Графики.

Т.к. с коробчатой диаграммой и диаграммой ветвей и листьев уже ознакомились, то в поле Ящичные диаграммы с усами выберите опцию Нет и снимите флажок Ствол-лист; вместо него установите флажок Гистограмма. > Продолжить > ОК.

В окне просмотра появится гистограмма (рис. 2.12.).

Рис. 2.12. Гистограмма возрастной структуры

Дополнительные оценки распределения можно получить, если установить в диалоговом окне «Исследовать» флажок в позиции «Графики и критерии для проверки нормальности». В этом случае в окне просмотра результатов будет показан тест Колмогорова-Смирнова на нормальное распределение с поправкой Лильефорса, а также тест на нормальность Шапиро-Уилкса.

Посмотрите, какие результаты можно получить, если установить в диалоговом окне «Исследовать» флажок в позиции «Графики и критерии для проверки нормальности».

Установите этот флажок и подтвердите настройку кнопкой ОК (рис.2.13).

Рис. 2.13. Кривая нормального распределения.

В окне просмотра будет показан результат теста Лильефорса (модификации теста Колмогорова-Смирнова) на нормальное распределение.

Таблица 2.4.

Критерии нормального распределения

Колмогорова-Смирноваа

Критерий Шапиро-Уилка

Статистика

ст.св.

Значимость.

Статистика

ст.св.

Значимость.

Возраст больного

,059

174

,200*

,987

174

,094

а Коррекция значимости Лильефорса.

Если в результате получена вероятность ошибки р менее 0,05, то данное распределение значимо отличается от нормального. В данном примере при р = 0,200 распределение можно считать нормальным.

При объеме выборки менее 50 наблюдений проводится также тест Шапиро-Уилкса.

В окне просмотра будут показаны две диаграммы:

- диаграмма нормального распределения

- диаграмма с исключенным трендом

По диаграмме нормального распределения (также называемой диаграммой Q-Q) можно визуально определить, достаточно ли близко заданное распределение приближается к нормальному. Здесь каждое наблюдаемое значение сравнивается со значением, ожидаемым при нормальном распределении. При условии точного выполнения нормального распределения все точки лежат на прямой. Наблюдаемые значения откладываются по оси X, а ожидаемые — по оси Y, при этом все значения подвергаются стандартизации (z-преобразованию). В данном примере (см. рис. 2.14.) наблюдаемые значения достаточно близки к прямой.

Рис. 2.14. Диаграмма нормального распределения.

На диаграмме с исключенным трендом отклонения наблюдаемых значений от ожидаемых при нормальном распределении представлены в зависимости от наблюдаемых значений. В случае нормального распределения все точки лежат на горизонтальной прямой, проходящей через нуль. Явное отклонение от прямой указывает на отличие распределения от нормального. На этой диаграмме все значения, также подвергаются стандартизации (z-преобразованию) (рис. 2.15.).

Рис. 2.15. Диаграмма с исключенным трендом.

Прокомментируйте полученные результаты.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]