
2074
.pdf
3. ОБРАБОТКА ДАННЫХ ПАКЕТОМ КОМПЬЮТЕРНЫХ ПРОГРАММ STATISTICA
3.1. Редактирование таблиц и предварительный анализ
STATISTICA – мощнейший пакет компьютерных программ для статистической обработки данных. Включает в себя модули: Основные стати-
стики и таблицы, Непараметрическая статистика, Дисперсионный анализ, Множественная регрессия, Нелинейное оценивание, Анализ временных рядов и прогнозирование, Кластерный анализ, Факторный анализ, Дискриминантный функциональный анализ, Анализ длительностей жизни, Каноническая корреляция, Моделирование структурных уравнений и др.
Исходя из задач, наиболее часто стоящих перед исследователем, приведены несколько примеров их решения. Более подробно обработка аналогичных и иных задач дана в специальной литературе. К сожалению, в основном используются англоязычные версии пакета, что затрудняет анализ полученных данных. В связи с этим приведен перевод наиболее часто встречающихся показателей.
3.1.1. Ввод данных в программе STATISTICA
Используя кнопку Пуск, запускаете программу STATISTICA и появляется окно (рис. 3.1). Нажав вне панели Quick Basic Stats (Быстрые основные статистики), Вы свернете (временно) эту панель и можете вводить данные. При необходимости новый файл открывается как обычно в Windows кнопкой New data из меню File.
Рис. 3.1. Окно программы STATISTICA при ее запуске
151

При вводе обрабатываемых данных гораздо проще использовать вставку готовой матрицы данных из программы Excel. При недостатке количества строк для ввода опытных данных нажимается кнопка Cases и строка Add (рис.3.2). Указывается необходимое количество дополнительных строк. При недостатке количества факторов нажимается кнопка Vars.
Программа различает точку и запятую. Если после знака («.» или »,») проставляются нули, то ввод осуществлен правильно (строка 2), если нет – ошибка знака (строка 4).
Рис.3.2. Ввод данных
При двойном щелчке на номере фактора VAR1 и т.п. появится панель для переименования обозначения фактора. Для обозначения используются только английские буквы. Пример ввода данных для факторов А и Т на рис.3.3.
Рис.3.3. Изменение названия факторов
152
3.1.2. Предварительный анализ данных
Вновь открываем панель Basic Statistics and Tables – описательные статистики (см. рис. 3.1, указана стрелкой) и проводим необходимую обработку данных. При необходимости её запускают левой кнопкой панели инструментов (она обведена прямоугольной рамкой) либо аналогичные операции можно выполнить и иным блоком, вызвав её правой кнопкой на панели инструментов (обведена в кружок) Quick Basic Stats (Быстрые
основные статистики).
Данная кнопка позволяет быстро рассчитать основные статистики и все виды анализа для одной или целого списка переменных (например, корреляционные матрицы для всех переменных в файле данных).
Выбрав из меню Basic Statistics and Tables строчку Descriptive Statistics, получим панель с кнопками-функциями.
При этом таблица результатов отличается от таблицы с исходными данными. Этот специальный тип таблиц в STATISTICA носит название scrollsheets.
В качестве примера рассмотрим обработку данных выборок А и Т из файла new.sta, в каждой из которых по шесть значений. Обработка проводится при выборе в кнопке Variables необходимых выборок А и Т:
Кнопка Detailed descriptive Statistics позволит получить табл. 3.1 (при выборе в кнопке More statistics – позицию All):
Таблица 3 . 1
|
|
|
|
Результаты обработки Descriptive Statistics |
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Descriptive Statistics (new.sta) |
|
|
|
|
|
|||||
Показатель |
Количество |
Сумма |
Минимум |
Максимум |
Нижн. квартиль |
|
Верхн. квартиль |
Размах |
Квартиль размаха |
Выб. дисперсия |
Ст. отклон |
Ст. ошибка |
Выб. коэф. асимметрии |
Ст. ош. коэф. асимметрии |
Выбор. коэф. эксц. |
Ст. ош. коэф. эксцеса |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Valid N |
Sum |
Minimum |
Maximum |
Lower Quartile |
|
Upper Quartile |
Range |
Quartile Range |
Variance |
Std. Dev. |
Standard Error |
Skewness |
Std. Err. Skewness |
Kurtosis |
Std. Err. Kurtosis |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
A |
6 |
165,1 |
0,1 |
60 |
10 |
|
45 |
59,9 |
35 |
496,4 |
22,28 |
9,09 |
0,359 |
0,845 |
-0,94 |
1,741 |
T |
6 |
90 |
10 |
17 |
14 |
|
16,5 |
7 |
2,5 |
7,1 |
2,66 |
1,09 |
-1,75 |
0,845 |
2,82 |
1,741 |
В таблице видны слева направо следующие описательные статистики:
•Valid N – истинное число случаев переменной (число случаев без пропусков);
•Mean–выборочное Среднее;
•Coafid – 95 % – нижняяграница95 %-годоверительногоинтерваладлясреднего;
•Confid + 95 % – верхняяграница95 %-годоверительногоинтерваладлясреднего;
•Sum – сумма (сумма значений переменной);
•Minimum – минимум (минимальное значение переменной);
153
•Maximum – максимум (максимальное значение переменной);
•Range – размах (то есть разность между максимумом и минимумом);
•Variance – выборочная дисперсия;
•Std.Dev. – стандартное отклонение;
•Std.Err. – стандартная ошибка;
•Skewness – выборочный коэффициент асимметрии;
•Std.Err. Skewness – стандартная ошибка коэффициента асимметрии;
•Kurtosis – выборочный коэффициент эксцесса;
•Std.Err. Kurtosis – стандартная ошибка эксцесса.
Кнопка Frequecy tables позволит получить табл. 3.2 анализа данных по классовым интервалам (по частотам) для каждой выборки (например, Т):
Таблица 3 . 2
Результаты обработки Frequecy tables
|
Кол-во |
Накоп- |
Процент |
Накоп- |
Процент |
Накоп- |
|
ление |
от |
ление |
от |
ление |
|
|
значений |
всех |
% от всех |
|||
T (new.sta) |
|
значений |
кол-ва |
значений |
случаев |
случаев |
|
Count |
Cumul. |
Percent |
Cumul % |
% of all |
Cumul. % |
|
Count |
of Valid |
of Valid |
Cases |
of All |
|
|
|
|||||
|
|
|
|
|
|
|
9,0000 < x <= 10,000 |
1 |
1 |
16,666 |
16,66667 |
10 |
10 |
10,000 < x <= 11,000 |
0 |
1 |
0 |
16,66667 |
0 |
10 |
11,000 < x <= 12,000 |
0 |
1 |
0 |
16,66667 |
0 |
10 |
12,000 < x <= 13,000 |
0 |
1 |
0 |
16,66667 |
0 |
10 |
13,000 < x <= 14,000 |
1 |
2 |
16,666 |
33,33333 |
10 |
20 |
14,000 < x <= 15,000 |
0 |
2 |
0 |
33,33333 |
0 |
20 |
15,000 < x <= 16,000 |
1 |
3 |
16,666 |
50 |
10 |
30 |
16,000 < x <= 17,000 |
3 |
6 |
50 |
100 |
30 |
60 |
Missing (кол-во неис- |
|
|
|
|
|
|
польз. интервалов) |
4 |
10 |
66,666 |
|
40 |
100 |
Под ней метки для получения Ожидаемых нормальных частот; Критерия нормальности Колмогорова-Смирнова и Лиллиефорса; Критерия Шапиро-Уилка W.
Кнопка Histograms позволит получить график-гистограмму столбцов опытных значений и кривую нормальной зависимости (красная кривая) распределения значений (рис.3.4). Чем больше соответствуют столбцы профилю кривой – тем лучше подпадают под закон распределения.
Кнопка Box & whisker plot for all variables – диаграмма размаха для всех переменных позволит получить графики: Median/Se/Sd – размещения медианы, размаха значений и интервала для квантилей, соответствующих 25 и 75 % (рис.3.5); Mean/Se/Sd – размещения среднего, стандартного отклонения и стандартной ошибки; Mean/Sd/1.96*Sd – размещения среднего, ст.отклонения и его интервала с коэффициентом 1.96; Mean/Sd/1.96*Sd – размещения среднего, ст.ошибкииееинтерваласкоэффициентом1.96.
154

В случае сравнения опытных и расчетных выборок будет визуально видно их соответствие, что позволит сделать правильный вывод. Данный график носит название «ящик с усами» и дает поверхностное представление о характере кривой распределения значений: интервал изменения, 25–75 %-й интервал значений, медиана. Сравнивая два показателя, видно несовпадение их интервалов, что скажется на соответствии данных одного параметра данным другого при проверке их адекватности.
T
No of obs
3
2
1 |
|
|
|
|
|
|
|
|
|
|
0 |
|
|
|
|
|
|
|
|
Expected |
|
|
|
|
|
|
|
|
|
Normal |
||
9 |
10 |
11 |
12 |
13 |
14 |
15 |
16 |
17 |
||
|
||||||||||
|
|
Upper Boundaries (x <= boundary) |
|
|
|
|
Рис. 3.4. Гистограмма опытных значений выборки Т:
по горизонтали – цифровые значения; по вертикали – количество повторностей
Box & Whisker Plot
65 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
55 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
45 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
35 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
25 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
15 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Min-Max |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
-5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
25%-75% |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Median value |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
A |
|
|
|
T |
|
|||||||||
|
|
|
|
|
|
|
|
|
Рис. 3.5. Величины средних, стандартных отклонений и ошибок
Кнопка Normal probability plots – нормальные вероятностные графики – позволит получить график размещения значений на нормальной бумаге (рис. 3.6). Чем равномернее распределены значения относительно линии,
155

тем лучше соответствуют они нормальному закону. Чем меньше абсолютные значения по вертикали (величина погрешности) – тем лучше.
Ниже расположены кнопки: Полунормальные вероятностные графи-
ки (абсолютные значения); Нормальные вероятностные графики без линейного тренда.
Expected Normal Value
Normal Probability Plot
A
1,6 |
|
|
|
|
|
|
|
1,2 |
|
|
|
|
|
|
|
0,8 |
|
|
|
|
|
|
|
0,4 |
|
|
|
|
|
|
|
0,0 |
|
|
|
|
|
|
|
-0,4 |
|
|
|
|
|
|
|
-0,8 |
|
|
|
|
|
|
|
-1,2 |
|
|
|
|
|
|
|
-1,6-5 |
5 |
15 |
25 |
35 |
45 |
55 |
65 |
|
|
|
|
Value |
|
|
|
Рис. 3.6. Размещение значений выборки А на нормальной бумаге
Кнопка 2D scattep – 2-мерное рассеяние – позволит получить график линейной регрессии (при настройке в Select two var: А – Т) показателей между собой с указанием коэффициента линейной корреляции и 95 %-го доверительного интервала (рис. 3.7). Расположение точек вне данного интервала позволяет отнести их к выпадающим значениям и отсеять. Иногда используют графикдляпроверкисоответствияданноймоделиизучаемомупроцессу.
T
A vs. T
T = 17,326 - ,0845 * A
Correlation: r = -,7068
18
17
16
15
14
13
12
11
10
9 |
|
|
|
|
|
|
|
Regression |
|
|
|
|
|
|
|
|
95% confid. |
||
-5 |
5 |
15 |
25 |
35 |
45 |
55 |
65 |
||
|
A
Рис. 3.7. Соответствие линейной модели А-Т нормальному закону и 95 %-му доверительному интервалу
156

Кнопка Matrics – матричный – позволит получить график частной (выборочной) корреляции факторов (рис.3.8). Чем круче направление прямой, тем выше коррелированы факторы. Рост значений говорит о положительной корреляции. Данный график можно использовать при отсеивающем эксперименте с целью выбора уровня отсеиваемых факторов для последующих опытов.
Correlations (NEW.STA 10v*10c)
A
T
Рис. 3.8. Выборочная корреляция факторов
КнопкойУзадаютсяусловиявыборанаблюдений– отсеварядазначений.
Выбрав из меню Basic Statistics and Tables строчку Correlations matrices, настроив выборки А и Т, кнопку Displey – Detailed table of results (подробную таблицу результатов), увидим табл. 3.3 со значениями коэффициентов корреляции и другими показателями. Над данной меткой: верхняя – выделить значимые, пониже – отображать Р и N. В верхней части диалогового окна клавиши: Квадратная матрица (один список) и Прямоугольная матрица (два списка).
Таблица 3 . 3
Результаты обработки Correlations matrices
Correlations (new.sta) – Основные корреляционные статистики
Marked correlations are significant at p < 0,050 – Отмеченные корреляции значимы на уровне …
|
|
|
|
|
|
|
|
|
|
|
|
|
Название выборки |
Среднее |
Станд. откл. |
Коэф. корреляции |
Коэф. детерминации |
Критерий Стьюдента |
Ур-нь знач. ошибки |
Кол-во значений |
Постоян коэф ур. регрес |
Коэф. регрес. незав. перем. |
Своб. член зависим Х |
Углов. коэф-т завис. Х |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
|
|
Mean |
Std.Dv. |
r(X,Y) |
rІ |
t |
p |
N |
Constant |
Slope |
Constant |
Slope |
|
|
dep: Y |
dep:Y |
dep: X |
dep: X |
|||||||
|
|
|
|
|
|
|
|
|
||||
|
A |
27,51 |
22,280 |
|
|
|
|
|
|
|
|
|
|
A |
27,51 |
22,280 |
1 |
1 |
|
|
6 |
0 |
1 |
0 |
1 |
157

О конч ание табл. 3 . 3
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
A |
27,51 |
22,280 |
|
|
|
|
|
17,32 |
|
|
|
T |
15 |
2,6645 |
-0,71 |
0,499 |
-1,998 |
0,116 |
6 |
-0,08 |
116,16 |
-5,90986 |
|
T |
15 |
2,6645 |
|
|
|
|
|
116,1 |
|
|
|
A |
27,51 |
22,280 |
-0,71 |
0,499 |
-1,998 |
0,116 |
6 |
-5,91 |
17,325 |
-0,08453 |
|
T |
15 |
2,6645 |
|
|
|
|
|
-3,3E-15 |
|
|
|
T |
15 |
2,6645 |
1 |
1 |
|
|
6 |
1 |
-3,3E-15 |
1 |
Выбрав из меню Basic Statistics and Tables строчку T-Test for independent Samples (Т-Тест независимых переменных), выбрав перемен-
ные, пометив все опции и нажав кнопку t-tests, увидим табл. 3.4 с результатами расчета показателей:
Таблица 3 . 4
Результаты обработки T-Test for independent Samples
Назв. выборки |
Среднее выборки 1 |
Среднее выборки 2 |
t-критерий |
Число степ. свободы |
Ур. значим. ошибки |
t-критерий |
Число степеней свободы |
Ур. значим. ошибки у 2 сторон |
|
|
|
|
|
|
|
|
|
|
|
|
Mean |
Mean |
t-value |
df |
p |
t separ. |
df |
p 2-sided |
|
|
G_1:1 |
G_2:2 |
var.est. |
||||||
|
|
|
|
|
|
||||
Кол-во |
Кол-во |
Станд. |
Станд. |
F- |
Р– |
Критер. |
Число |
Ур. значим. |
|
1-й |
2-й |
откл. |
откл. |
относит. |
дисперс |
Левена |
степеней |
ошибкидля |
|
выборки |
выборки |
1-й |
2-й |
дисперс. |
ии |
однор. |
свободы |
Левена |
|
|
|
выборки |
выборки |
|
|
дисперсии |
Левена |
|
|
Valid N |
Valid N |
Std.Dev. |
Std.Dev. |
F-ratio |
p |
Levene |
df Levene |
p Levene |
|
G_1:1 |
G_2:2 |
G_1:1 |
G_2:2 |
variancs |
variancs |
F(1,df) |
|||
|
|
||||||||
Выбрав из |
меню |
Basic |
Statistics and |
Tables строчку T-Test for |
dependent Samples (Т-Тест зависимых переменных), осуществив выбор переменных и нажав кнопку t-tests, увидим табл. 3.5 с результатами расчета показателей.
Таблица 3 . 5
Результаты обработки T-Test for dependent Samples
T-test for Dependent Samples (new.sta)
Marked differences are significant at p < 0,05000 |
|
|
|
|
||||
|
(Casewise deletion of missing data) |
|
|
|
|
|||
|
Среднее |
Ст. откл. |
Кол-во |
|
Ст.откл. |
t-крит. |
Числостеп. |
Вероятн. |
|
|
|
знач. |
|
|
|
свободы |
ошибки |
|
Mean |
Std.Dv. |
N |
Diff. |
Std.Dv. Diff. |
t |
df |
p |
A |
27,5167 |
22,2801 |
|
|
|
|
|
|
T |
15 |
2,66458 |
6 |
12,5167 |
24,2368 |
1,265 |
5 |
0,26162 |
158

После выбора из меню Basic Statistics and Tables строчки Breskdown & one wey ANOVA (Группировка и однофакторная ANOVA) появится панель Внутри групповые описательные статистики и корреляции (после выбора переменных и нажатия ОК). Левая верхняя строчка – Итоговая таблица средних; по ней – Подробные двухвходовые таблицы; ниже – Маргинальные средние, Дисперсионный анализ, Апостериорные сравнения средних; Левена; Брауна-Форсайта (ОД); Внутригрупповые корреляции; Опции; Переупорядочить факторы в таблице. Справа сверху: Статистики (Число наблюдений, Суммы, Ст.отклонения, Дисперсии, Медиана и квантили); Категоризованные диаграммы размаха; Категоризованные гистограммы; Графики взаимодействий; Категоризованные диаграммы рассеяния; Графики средних и стандартных отклонений. После нажатия кнопки
Дисперсионный анализ – Analysis of Variance появится табл. 3.6.
Таблица 3 . 6 Результаты обработки дисперсионного анализа
Analysis of Variance (new.sta) Marked effects are significant at p <0 ,05000
|
Сум. |
Число |
Ср. |
Сум. |
Число |
Ср. |
F- |
Ур. |
Переменна |
квад. |
степеней |
квадр. |
квад. |
степеней |
квадр. |
критер |
значим. |
я |
эффекта |
свободы |
эффект |
ошибки |
свободы |
ошибки |
ий |
ошибки |
|
|
эффекта |
|
|
ошибки |
|
|
|
|
SS |
df |
MS |
SS |
df |
MS |
|
|
|
Effect |
Effect |
Effect |
Error |
Error |
Error |
F |
p |
T |
35,5 |
5 |
7,1 |
0 |
0 |
|
|
|
Открыв кнопку Апостериорные сравнения средних, можем опреде-
лить (сверху вниз): Критерий наименьшей значимой разности (НЭР); Критерий Шеффе; Критерий Ньюим.-Кеулса и критерий Размахи; Критерий Тьюки ДЗР; Критерий Тьюки ДЗР для неравных N.
ПосленажатияметокStatistics иОКпоявитсятаблицачастот(табл. 3.7). Таблица 3 . 7
Статистические показатели по интервалам
|
|
Summary Table of Means (new.sta) |
|
|
|
|||
N=6 (No missing data in dep. var. list) |
|
N=6 (Объем выборки ) |
|
|||||
Т |
Среднее |
Объем |
Сумм |
Ст. откл. |
Дисперс |
Кварт |
Медиан |
Кварти |
|
|
интервала |
а |
|
ия |
иль |
а |
ль |
|
Means |
N |
Sum |
Std. Dev. |
Variance |
Q25 |
Median |
Q75 |
G_1:0 |
17 |
1 |
17 |
0 |
0 |
|
|
|
G_2:10 |
16,5 |
1 |
16,5 |
0 |
0 |
|
|
|
G_3:20 |
16,5 |
1 |
16,5 |
0 |
0 |
|
|
|
G_4:30 |
16 |
1 |
16 |
0 |
0 |
|
|
|
G_5:45 |
10 |
1 |
10 |
0 |
0 |
|
|
|
G_6:60 |
14 |
1 |
14 |
0 |
0 |
|
|
|
All Grps |
15 |
6 |
90 |
2,664583 |
7,1 |
14 |
16,25 |
16,5 |
Накопл.значений |
159

После выбора из меню Basic Statistics and Tables строчку Probability Calculator (Вероятностный калькулятор), появится панель калькулятора вероятностных распределений (рис.3.9).
В левой его части приведен список распределений Distribution (Распределение), из которого можно выбрать необходимое. В нашем случае – нижнюю строчку Z (Normal) – Нормальное распределение. Автоматически справа появляются поля с параметрами данного распределения: среднее значение – mean и стандартное отклонение – st.dev. Задавая их значение (например, 24 и 2), можем задаться либо уровнем вероятности соответствия (например, р=0,2), либо значением параметра Х (тот который из них не задан, вычисляется автоматически: Х=22,317). Автоматически на калькуляторе появляются графики: Density Function (Функция плотности), Distribution Function (Функция распределения). Опции в верхней части окна: Inverse (обратная функция распределения), Two-tailed (двухсто-
ронний), 1-Cumulative p-1-p, Print (печать), Create graph (создать график). При нажатии кнопки Compute (Вычислить) на экране появляется график плотности и функции распределения (см. на заднем плане, внизу рис. 3.9). Опция Fixed Scaling под списком распределений Distribution (Распределение) указывает, выбрана ли фиксированная шкала.
Рис.3.9. Панель вероятностного калькулятора
160