Глава 4. Сравнение средних, корреляции

4.1. Compare Means – простые параметрические методы сравнения средних

Параметрические методы проверки гипотез о равенстве средних нулю (нулевые гипотезы) предполагают нормальность распределения анализируемых переменных или остатков в моделях дисперсионного анализа, сравнения средних в парах групп объектов и т. д. Однако условие нормальности выборки при анализе анкетной информации выполняется весьма редко. Наиболее доступным решением проблемы является создание новых переменных путем усреднения множества независимых случайных данных. По центральной предельной теореме такие переменные имеют распределение, близкое к нормальному.

На практике эти методы все же используются для больших совокупностей данных других типов распределений при условии, что они «не слишком сильно» отклоняются от нормального распределения. «Не слишком сильно» – неопределенное понятие, обычно решение принимается при рассмотрении гистограммы распределения на фоне кривой нормального распределения.

Взгляните, например, на распределение населения по душевому доходу, рис. 4.1. Распределение имеет длинный хвост в направлении больших доходов, нормальная кривая недостаточно хорошо огибает гистограмму. Если использовать вместо этой переменной логарифм доходов, полученный командой COMPUTE lnv14 = ln(v14)., то получаем более приемлемое распределение (рис. 4.2).

Основные идеи и формулы параметрических методов анализа средних и дисперсий рассматриваются в курсе математической статистики; и здесь, по ходу изложения материала, мы коротко напомним отдельные положения этой теории.

4.1.1. Одновыборочный тест (One sample t-test)

Одновыборочный t-тест предназначен для проверки гипотезы о равенстве математического ожидания переменной заданной величине (в общепринятых обозначенияхH₀:  = ₀). Напомним, что для проверки этой гипотезы используется статистика, которая распределена по закону Стьюдента сn – 1 степенями свободы.

Команда для проверки гипотезы выдает двусторонний доверительный интервал для ).

Примеры применения одновыборочного t-теста.

Пример 1. Для элиминирования влияния инфляции на измерение доходов его нормируют, измеряя в относительных единицах – числе средних или медиан. Доход, отнесенный к величине медианы, называется промедианным доходом. Оценка медианы душевых доходов населения по ранее проведенному достаточно обширному обследованию 200 р. Если допустить, что логарифм доходов имеет нормальное распределение, то среднее логарифма промедианных доходов должно незначимо отличаться от нуля (поскольку нормальное распределение симметрично относительно математического ожидания). Проверим это:

COMPUTE lnv14m = ln(v14/200).

VARIABLE LABELS lnv14m "логарифм промедианного дохода".

T-TEST /TESTVAL = 0 /VARIABLES = lnv14m /CRITERIA = CIN (.95).

Таблица 4.1

Одновыборочный t-тест. Средний промедианный доход незначимо отличается от нуля

	t	df	Sig. (2-tailed)	Mean Difference	95 % Confidence Interval of the Difference
					Lower	Upper
LNV14M	–0,831	672	0,406	–0,017	–0,058	0,023

В нашем примере ₀ = 0 (TESTVAL = 0), отклонение среднего равно – 0,017, наблюдаемая значимость – 0,406 (почти в 40 % случаев большее отклонение от ожидаемого значения может быть получено случайно), поэтому гипотеза о равенстве нулю матожидания логарифма промедианного дохода не отклоняется. Об этом же говорит и тот факт, что 95 %-й доверительный интервал покрывает ожидаемое значение. Таким образом, по указанному параметру распределение доходов похоже на логарифмически нормальное.

Пример 2. Есть предположение, что малообразованное население имеет доход, существенно меньший, чем доход более образованной его части. Это утверждение не абсолютно, а выполняется «в среднем». Мы проверим его, исследовав различие средних логарифмов доходов в указанных группах. По существу это означает сравнение средних геометрических дохода. В нашей анкете образование закодировано следующим образом:

1. Высшее;

2. Незаконченное высшее;

3. Среднее специальное;

4. ПТУ, ФЗУ;

5. 10 – 11кл;

6. 7 – 9 кл.;

7. 4 – 6 кл.;

8. Менее 4 кл.;

9. Нет образования.

Проверим предположение, воспользовавшись временной выборкой данных о респондентах, имеющих образование не выше среднего.

COMPUTE f = (v10 > 3).

*формирование переменной фильтра.

FILTER f.

T-TEST /TESTVAL = 0 / VARIABLES = lnv14 /CRITERIA = CIN (.95).

FILTER OFF.

Таблица 4.2

<<< < Предыдущая 20 21 22 23 24 25 26 27 28 29 30 3132 / 6932 33 34 35 36 37 38 39 40 41 42 43 44 > Следующая >>>