
- •Дисциплина: Системы статистического анализа данных
- •1.1.2. Вычисление частот и построение гистограмм
- •1.2. Описательные статистики
- •1.3. Кросс табуляция (таблицы сопряженности)
- •2. Реализация в ststistica
- •2.1. Графическое представление информации.
- •2.1.1. Диаграммы
- •2.1.2. Вычисление частот и построение гистограмм
- •2.2. Описательные статистики
- •1.3. Кросс табуляция (таблицы сопряженности)
- •Индивидуальное задание
2.2. Описательные статистики
Программа STATISTICA вычисляет практически все используемые описательные статистики общего характера: медиану, моду, квартили, заданные пользователем процентили, среднее значение и стандартное отклонение, квартильный размах, доверительные интервалы для среднего, асимметрию и эксцесс (и их стандартные ошибки), гармоническое и геометрическое среднее, а также многие специальные описательные статистики.
Для расчета описательных статистик необходимо использовать следующую последовательность команд:
Statistics (Статистики) -Basic Statistics and Tables (Основные статистики и таблицы) – Descriptive Statistics (Описательные статистики)
В результате откроется диалоговое окно (рис.49), в котором необходимо задать переменные, для которых будут вычислены описательные статистики.
Рис.49.Диалоговое окно Descriptive Statistics
Для того чтобы указать те статистики, которые должны быть рассчитаны, необходимо перейти во вкладку Advanced (рис.50) и отметить их флажком.
Рис.50.Диалоговое окно Descriptive Statistics , вкладка Advanced
После нажатия кнопки Summary на экран будет выведена таблица описательных статистик.
Пример расчета описательных статистик (ValidN,Mean,Median,Mode,StandardDeviation,Coefficientofvariation,Minimum&Maximum) для переменныхage,height,weight_1 приведен на рис.51.
Рис.51.Описательные статистики для переменных age, height, weight_1
Модуль описательных статистик позволяет производить дифференцированный анализ данных. Для этого необходимо в диалоговом окне Descriptive Statistics (рис.49.) кликнуть на кнопке By Group и, в открывшемся диалоговом окне (рис.52), определить группирующую переменную.
Рис.52.Диалоговое окно By Groups
После нажатия кнопки Summary будут рассчитаны описательные статистики переменных, сгруппированных по указанному признаку. Результаты выводятся на экран отдельными таблицами.
Пример вычисления описательных статистик для переменной index_1, дифференцировав выборку по переменойsexпредставлен на рис.53.
Рис.53.Пример дифференцированного исследования выборки
Кроме того, диалоговое окно описательных статистик (рис.49), нажатием соответствующей кнопки, позволяет вывести на экран гистограмму (Histograms)или коробчатую диаграмму(Box&Wisker plot for all variables), кнопкаSummary: Graphs позволяет увидеть и гистограмму и коробчатую диаграмму.
Пример построения коробчатой диаграммы для переменных age,height,weight_1, сгруппированных по переменнойsexпредставлен на рис.54.
Рис.54.Box&Wiskerplotдля переменныхage,height,weight_1, сгруппированных по переменнойsex
При нажатии кнопки Frequency tables будет построена таблица частот для каждой переменной в отдельности.
1.3. Кросс табуляция (таблицы сопряженности)
Кросстабуляция позволяет совместить частоты появления наблюдений на разных уровнях рассматриваемых факторов (переменных). Исследуя эти частоты, можно определить связи между табулированными переменными.
Обычно табулируются категориальные переменныеили переменные с относительно небольшим числом значений. Если необходимо табулировать непрерывную переменную (например, доход), то вначале ее следуетперекодировать, разбив диапазон изменения на небольшое число интервалов (например, доход: низкий, средний, высокий).
Для создания таблицы сопряженности необходимо использовать следующую последовательность команд:
Statistics (Статистики) -Basic Statistics and Tables (Основные статистики и таблицы) - Tables and banners (Таблицы и заголовки)
В результате откроется диалоговое окно (рис.55), которое содержит две вкладки: основную (Crosstabulation) – для построения многовходовых таблиц частот иStub-and-banner,позволяющую определить данные для построения двувходовой таблицы частот.
Рис.55. Диалоговое окноCrosstabulation tables
После нажатия кнопки ОКоткрывается окно результатов (рис.56).
Рис.56. Диалоговое окно Crosstabulation tables Results
В диалоговом окне CrosstabulationtablesResults, нажатием кнопкиReview summary tables (Посмотреть таблицу результатов) или кнопкиSummary открывается двувходовая таблица сопряженности.
На рис.57. приведен пример построения таблицы сопряженности для переменных sexиprofit.
Рис.57.Таблица сопряженности для переменных
Графические средства, например Categorized Histograms (Категоризованные гистограммы) или3D histograms (3D гистограммы),дают особые преимущества и позволяют выявить закономерности, которые трудно поддаются количественному описанию и которые весьма сложно обнаружить с помощью вычислительных процедур (например, сложные взаимосвязи, исключения или аномалии).
Чтобы вывести гистограмму на экран, необходимо в диалоговом окне CrosstabulationtablesResults(рис.58) перейти на вкладкуAdvanced, и нажать на кнопку Categorized Histograms. В результате на экран будут выведены гистограммы распределения для переменнойprofit, сгруппированной по переменнойsex
Рис.58.Категоризованная гистограмма, построенная по таблице сопряженности