Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Мат. методы_030301_Метод.рек.по контр..doc
Скачиваний:
8
Добавлен:
03.05.2019
Размер:
1.79 Mб
Скачать

4. Пример выполнения и оформления отчета по контролоьной работе

Образец оформления титульного листа

МЧС России

Санкт-Петербургский университет Государственной противопожарной службы

Кафедра Прикладной математики и информационных технологий

Контрольная работа по дисциплине математические методы в психологии

Вариант № (тема)

Слушатель 1 курса 254 уч. гр. ФЗО

Лейтенант вн. сл. ПЕТРОВ В.А.,

Проверил: Ф.И.О. преподавателя

Санкт-Петербург

2007

Задача 1.

В распоряжении исследователя имеются выборки:

1.1. Показателей креативности обследуемых до и после тренинга;

1.2. Показателей успеваемости учеников 1-А и 1-Б классов;

1.3. Показателей тревожности мужчин и их жен;

1.4. Показателей интеллекта студентов 5 курса гуманитарного и технического факультетов университета.

Какие из этих выборок являются зависимыми?

Ответ: Зависимыми являются выборки 1.1 и 1.3.

Задача 2.

В какой шкале представлены данные:

    1. Место, занятое на соревновании (1,2, 3…);

    2. Рост призывников (167, 180, 190 ….см);

    3. Национальность (1-русский, 2- украинец, 3- немец….);

    4. Температура по Кельвину (273 град, 293 град, 302 град…);

    5. Температура по Цельсию (0 град, 21 град, 37 град…).

Ответ: 1.1 – ранговая шкала, 1.2 – метрическая абсолютная шкала, 1.3 – номинативная шкала, 1.4 – метрическая абсолютная, 1.5 – метрическая интервальная шкала.

Задача 3.

Психолог исследовал социальную сплоченность класса и различие в этом отношении мальчиков и девочек. Для изме­рения социальной сплоченности исследователь задавал каждому ученику один и тот же вопрос: «Как часто твое мнение совпадает с мнением твоих одноклассников?». Для ответа ученикам предлагалось выбрать один из пяти вариантов: 1 — никогда, 2 — редко, 3 — затрудняюсь ответить, 4 — часто, 5 — все­гда. Результаты ответов представлены в таблице.

№ п.п.

Фамилия И. О.

Пол

Самооценка

1

Александров В.

1

2

2

Бологов А.

1

5

3

Бобкова С.

2

3

4

Иванов П.

1

2

5

Ивлева Н.

2

3

6

Карпов М.

1

4

7

Карпова Л.

2

1

8

Котов И.

1

3

9

Кротова Н.

2

5

10

Липина А.

2

2

11

Мартова С.

2

3

12

Мигов Ю.

1

3

13

Николаев Д.

1

3

14

Овсова П.

2

4

15

Петров А.

1

3

16

Попов А.

1

2

17

Сидорова Н.

2

2

18

Смирнова Д.

2

4

19

Татуев И.

1

1

20

Тронова С.

2

4

21

Усков Д.

1

2

22

Федорова С.

2

3

23

Фролов А.

1

4

24

Хохлова Д.

2

1

Составить: таблицы частот (абсолютные, относительные и накопленные частоты) и гистограммы абсолютных частот для класса в целом, отдельно для мальчиков и девочек.

Решение:

Если указывается, сколько раз встречается каж­дое значение признака, то это — таблица абсолютных частот распределения, если указывается доля наблюдений, приходящихся на то или иное значение признака, то это таблица относительных частот распределения, если указывается доля наблюдений, не превышающих то или иное значение признака, то это – таблица накопленных частот. С учетом сказанного, таблица для класса в целом имеет вид:

Значение

Абсолютная частота

Относительная частота

Накопленная частота

5

2

0,083333333

1

4

5

0,208333333

0,916667

3

8

0,333333333

0,708333

2

6

0,25

0,375

1

3

0,125

0,125

сумма

24

1

-

Таблица для мальчиков имеет вид:

Значение

Абсолютная частота

Относительная частота

Накопленная частота

5

1

0,083333333

1

4

2

0,166666667

0,916667

3

4

0,333333333

0,75

2

4

0,333333333

0,416667

1

1

0,083333333

0,083333

сумма

12

1

Таблица для девочек вид:

Значение

Абсолютная частота

Относительная частота

Накопленная частота

5

1

0,083333333

1

4

3

0,25

0,916667

3

4

0,333333333

0,666667

2

2

0,166666667

0,333333

1

2

0,166666667

0,166667

сумма

12

1

 

Диаграмма абсолютных частот для класса в целом имеет вид

Диаграмма абсолютных частот для мальчиков имеет вид:

Диаграмма абсолютных частот для девочек имеет вид:

Задача 4.

Психолог исследовал социальную сплоченность класса и различие в этом отношении мальчиков и девочек. Для изме­рения социальной сплоченности исследователь задавал каждому ученику один и тот же вопрос: «Как часто твое мнение совпадает с мнением твоих одноклассников?». Для ответа ученикам предлагалось выбрать один из пяти вариантов: 1 — никогда, 2 — редко, 3 — затрудняюсь ответить, 4 — часто, 5 — все­гда. Результаты ответов представлены в таблице.

№ п.п.

Фамилия И. О.

Пол

Самооценка

1

Александров В.

1

2

2

Бологов А.

1

5

3

Бобкова С.

2

3

4

Иванов П.

1

2

5

Ивлева Н.

2

3

6

Карпов М.

1

4

7

Карпова Л.

2

1

8

Котов И.

1

3

9

Кротова Н.

2

5

10

Липина А.

2

2

11

Мартова С.

2

3

12

Мигов Ю.

1

3

13

Николаев Д.

1

3

14

Овсова П.

2

4

15

Петров А.

1

3

16

Попов А.

1

2

17

Сидорова Н.

2

2

18

Смирнова Д.

2

4

19

Татуев И.

1

1

20

Тронова С.

2

4

21

Усков Д.

1

2

22

Федорова С.

2

3

23

Фролов А.

1

4

24

Хохлова Д.

2

1

- вычислить среднее, моду, медиану, стандартное отклонение для всех детей, для мальчиков и девочек отдельно;

Решение.

  1. Подставив в формулу величины самооценок, получим:

средняя самооценка в классе равна 2.88, среди мальчиков эта оценка равна 2.91, а среди девочек – 3.09.

2. Мода (Mode) — это такое значение из множества измерений, которое встре­чается наиболее часто. Когда два соседних значения встречаются одинаково часто и чаще, чем любое другое значение, мода есть среднее этих двух значений. Ниже приведена таблица, в которой указано количество самооценок 1, 2, 3, 4 и 5 для класса в целом, для мальчиков и девочек по отдельности

Значение

Абсолютная частота для класса в целом

Абсолютная частота для мальчиков

Абсолютная частота для девочек

5

2

1

1

4

5

2

3

3

8

4

4

2

6

4

2

1

3

1

2

сумма

24

12

12

Наиболее частый ответ для класса в целом равен 3 (встречается 8 раз). Следовательно, мода для класса в целом равна 3.

Наиболее частые ответы среди мальчиков равны 2 и 3 (встречаются по 4 раза). Следовательно, мода равна .

Наиболее частый ответ среди девочек равен 3 (встречается 4 раза). Следовательно, мода равна 3.

3. Медиана (Median) — это такое значение признака, которое делит упорядо­ченное (ранжированное) множество данных пополам так, что одна половина всех значений оказывается меньше медианы, а другая — больше. Если данные содержат нечетное число значений, то ме­диана есть центральное значение, если данные содержат четное число значений, то медиана есть точка, лежащая посередине между двумя центральными значения­ми.

Ранжируем выборку для класса в целом. Получим:

№ п.п.

Ф. И. О.

Пол

Самооценка

1

Александров В.

1

1

2

Бологов А.

1

1

3

Бобкова С.

2

1

4

Иванов П.

1

2

5

Ивлева Н.

2

2

6

Карпов М.

1

2

7

Карпова Л.

2

2

8

Котов И.

1

2

9

Кротова Н.

2

2

10

Липина А.

2

3

11

Мартова С.

2

3

12

Мигов Ю.

1

3

13

Николаев Д.

1

3

14

Овсова П.

2

3

15

Петров А.

1

3

16

Попов А.

1

3

17

Сидорова Н.

2

3

18

Смирнова Д.

2

4

19

Татуев И.

1

4

20

Тронова С.

2

4

21

Усков Д.

1

4

22

Федорова С.

2

4

23

Фролов А.

1

5

24

Хохлова Д.

2

5

Выборка содержит четное число значений. Центральные значения находятся в строках № 12 и № 13 и равны 3. Следовательно, медиана выборки для класса в целом равна 3.

Ранжировав выборку для мальчиков и девочек отдельно, получим:

Мальчики

№ п.п.

Фамилия И. О.

Пол

Самооценка

1

Александров В.

1

1

2

Бологов А.

1

2

3

Иванов П.

1

2

4

Карпов М.

1

2

5

Котов И.

1

2

6

Мигов Ю.

1

3

7

Николаев Д.

1

3

8

Петров А.

1

3

9

Попов А.

1

3

10

Татуев И.

1

4

11

Усков Д.

1

4

12

Фролов А.

1

5

Девочки

1

Бобкова С.

2

3

2

Ивлева Н.

2

3

3

Карпова Л.

2

1

4

Кротова Н.

2

5

5

Липина А.

2

2

6

Мартова С.

2

3

7

Овсова П.

2

4

8

Сидорова Н.

2

2

9

Смирнова Д.

2

4

10

Тронова С.

2

4

11

Федорова С.

2

3

12

Хохлова Д.

2

5

Обе выборки содержат по 12 значений. Центральные значения находятся в строках № 6 и № 7 каждой таблицы, следовательно, в обоих случаях медиана равна 3.

4. Подставив в формулу величины самооценок и выборочные средние, рассчитанные выше, получим:

стандартное отклонение для класса равно 1.54, для мальчиков 1.11, а для девочек – 1.14.

Задача 5.

Сравнивается интеллект студентов первого и второго курса университета. Число испытуемых студентов первого курса равно 30, второго курса – 28. В результате первичной обработки данных тестирования получены выборочные средние: М1=103, М2=108, и выборочные дисперсии: S12=6, S22=6. Определить существует ли разница в интеллекте между первокурсниками и второкурсниками на уровне значимости 0.05?

Решение.

Дисперсии генеральных совокупностей неизвестны. Пусть на основании статистической проверки установлено, что дисперсии D1 и D2 равны между собой. В качестве основной примем гипотезу о том, что математическое ожидание интеллекта студентов первого курса μ1 и второго курса - μ2 равны между собой, . В качестве альтернативной примем гипотезу о том, математические ожидания не равны, . Рассчитаем t статистику

.

Рассчитаем число степеней свободы . По статистическим таблицам найдем значение t критерия для 56 степеней свободы и уровня значимости 0.05. Получим 2.004. Поскольку 0.28<2.004, приходим к выводу о том, что гипотеза верна.

Задача 6.

Школьникам шестого класса давались обычные арифметические задания, после чего одной случайно выбранной половине учащихся сообщали, что они не выдержали испытания, а ос­тальным — обратное. Затем у каждого школьника спрашивали, сколько секунд ему потребовалось бы для решения аналогичной задачи. Экспериментатор вычислял разность между называемым ребенком временем и результатом выполненного за­дания.

Результаты обработки приведены в таблице

Первая группа:

сообщение о неудаче

Вторая группа:

сообщение об успехе

N1=11

N2=11

S12=9.2

S22=3.5


Проверить гипотезу (на уровне а = 0,05) о том, что дисперсия совокупности самооценок не зависит от сообщений об удаче или неудаче.

Решение.

В качестве нулевой примем гипотезу о том, что дисперсии генеральных совокупностей равны, . Альтернативная гипотеза – дисперсии не равны, . Рассчитаем t статистику

.

Число степеней свободы . По статистическим таблицам найдем значение критерия F для и для уровня значимости 0.05. Получим 3.62. Поскольку 2.63<3.62, приходим к выводу о том, что гипотеза верна.

Задача 7.

Проверить на уровне Р=0.95 гипотезу о том, что выборка из цифр от 0 до 7 объемом 100 элементов распределена по закону Пуассона , где λ – параметр распределения Пуассона (равный математическому ожиданию числа событий, происходящих за единицу времени), x – фактическое число появления события в ходе эксперимента.

Значения цифр и количество их в выборке представлено в первых двух строках таблицы.

Значения пе-ременной (i)

0

1

2

3

4

5

6

7

Частота (ai)

15

23

37

16

6

2

1

0

Оценка вероятности P(i)

0,15723

0,2908

0,2690

0,1659

0,0767

0,0283

0,0087

0,00231

Оценка функции распределения F(i)

0,15723

0,4481

0,7171

0,8831

0,9598

0,9882

0,9970

0,99933

Оценка вели-чины 100p(i)

15,7237

29,088

26,907

16,592

7,6741

2,8394

0,8754

0,23138

Взвешенные квадраты отклонений

0,03331

1,2745

3,7857

0,0211

0,3652

0,2481

0,0177

0,23138

Решение.

Вычислим среднее выборочное,

.

Тогда вероятность того, что в результате одного испытания будет получено число i находится по формуле

.

Результаты вычислений по данной формуле приведены в третьей строке таблицы. В четвертой строке приведены оценочные значения функции распределения, вычисленные по формуле

,

в пятой строке – величина .

В шестой строке по формуле

вычислены компоненты экспериментального χ2 распределения. Сложив све эти компоненты по формуле

Получим .

Так как в выборке 8 множеств (0, 1, 2, 3, 4, 5, 6, 7) и 1 параметр (λ), то число степеней свободы χ2 распределения равно 8-1-1=6. Из статистических таблиц известно, что квантиль теретического χ2 распределения с 6 степенями свободы для Р=0.95, равен 12.6. Так как , то гипотеза о том, что генеральная совокупность распределена по закону Пуассона подтверждается.

Задача 8.

Во втором и третьем столбцах таблицы 1 приведен пример исходных данных измерения вербального и невербального интел­лекта у двадцати учащихся восьмого класса.

Таблица 1.

№ испы-туемого

Вербаль-ный IQ (x)

Невербаль-ный IQ (y)

xi-Mx

yi-My

(xi-Mx)2

(yi-My)2

(xi-Mx)∙ (yi-My)

1

13

12

3,05

2,24

9,3025

5,0176

6,832

2

9

11

-0,95

1,24

0,9025

1,5376

-1,178

3

8

8

-1,95

-1,76

3,8025

3,0976

3,432

4

9

12

-0,95

2,24

0,9025

5,0176

-2,128

5

7

9

-2,95

-0,76

8,7025

0,5776

2,242

6

9

11

-0,95

1,24

0,9025

1,5376

-1,178

7

8

9

-1,95

-0,76

3,8025

0,5776

1,482

8

13

13

3,05

3,24

9,3025

10,4976

9,882

9

11

9

1,05

-0,76

1,1025

0,5776

-0,798

10

12

10

2,05

0,24

4,2025

0,0576

0,492

11

8

9

-1,95

-0,76

3,8025

0,5776

1,482

12

9

8

-0,95

-1,76

0,9025

3,0976

1,672

13

10

10

0,05

0,24

0,0025

0,0576

0,012

14

10

12

0,05

2,24

0,0025

5,0176

0,112

15

12

10

2,05

0,24

4,2025

0,0576

0,492

16

10

10

0,05

0,24

0,0025

0,0576

0,012

8

11

12

1,05

-11,56

1,1025

133,6336

-12,138

18

9

10

-0,95

0,24

0,9025

0,0576

-0,228

19

10

11

0,05

1,24

0,0025

1,5376

0,062

20

11

13

1,05

3,24

1,1025

10,4976

3,402

Вычислить коэффициент корреляции Пирсона , оценить силу связи и проверить гипотезу о связи этих показателей на уровне α=0.05.

Решение. Связь между переменными можно изобразить при помощи диаграммы рас­сеивания (см. рис. 1).

Диаграмма показывает, что существует некоторая взаимо­связь измеренных показателей: чем больше значения вербального интеллекта, тем (преимущественно) больше значения невербального интеллекта.

Положение каждой точки на диаграмме рассеивания, рис. 1, может быть задано величинами, рассчитываемыми по формулам и , где i-номер точки (номер испытуемого), - средние значения переменных x и y. Если знаки отклонений совпадают, то взаимосвязь между переменными положительная (большим значениям х соответствуют большие значения у или меньшим значениям х со­ответствуют меньшие значения у).

В таблице.1 для испытуемого № 1 отклонение от среднего по х и по у (4-й и 5-й столбцы таблицы соответственно) положительное, а для испытуемого № 3 и то и другое отклонения отрицательные. Следовательно, данные того и другого свидетельствуют о положительной взаимосвязи изучаемых призна­ков. Напротив, если знаки отклонений от средних по х и по у различаются, то это будет свидетельствовать об отрицательной взаимосвязи между признаками. Так, для испытуемого № 4 отклонение от среднего по х является отрицательным, по у - положительным, а для испытуемого № 9 — наоборот.

Таким образом, если произведение отклонений поло­жительное, то данные i-го испытуемого свидетельствуют о прямой (положи­тельной) взаимосвязи, а если отрицательное — то об обратной (отрицатель­ной) взаимосвязи. Соответственно, если х и у в основном связаны прямо пропорционально, то большинство произведений отклонений будет поло­жительным, а если они связаны обратным соотношением, то большинство произведений будет отрицательным. Следовательно, общим показателем для силы и направления взаимосвязи может служить сумма всех произведений отклонений для данной выборки:

,

где N – объем выборки.

При прямо пропорциональной связи между переменными эта величина является большой и положительной — для большинства испытуемых откло­нения совпадают по знаку (большим значениям одной переменной соответ­ствуют большие значения другой переменной и наоборот). Если же х и у име­ют обратную связь, то для большинства испытуемых большим значениям одной переменной будут соответствовать меньшие значения другой перемен­ной, т. е. знаки произведений будут отрицательными, а сумма произведений в целом будет тоже большой по абсолютной величине, но отрицательной по знаку. Если систематической связи между переменными не будет наблюдать­ся, то положительные слагаемые (произведения отклонений) уравновесятся отрицательными слагаемыми, и сумма всех произведений отклонений будет близка к нулю.

Чтобы сумма произведений не зависела от объема выборки, достаточно ее усреднить. Но мера взаимосвязи нас интересует не как генеральный параметр, а как вычисляемая его оценка — статистика. Поэтому, как и для формулы дис­персии, в этом случае поступим так же, делим сумму произведений отклоне­ний не на N, а на N1. Получается мера связи, которая называется ковариацией (Covarlance):

.

Чтобы сделать меру связи независимой от единиц изме­рения того и другого признака, достаточно разделить ковариацию на соот­ветствующие стандартные отклонения. Таким образом, получается формула коэффициента корреляции К. Пирсона:

или, после подстановки выражений для σх и σy

.

Для расчета коэффициента корреляции к трем столб­цам с исходными данными добавляются еще 5 столбцов для дополнительных рас­четов, таблица 1. На первом шаге подсчитываются суммы всех значений одного, затем — другого признака для вычисления соответствующих средних значений Мх и Му: Мх = 9,8; Му = 10,4.

Далее для каждого испытуемого вычисляются отклонения от среднего: для x и для y, затем квадраты этих отклонений. В последнем столбике за­писывается результат перемножения двух отклонений от среднего для каждого ис­пытуемого. Суммы отклонений от среднего для каждой переменной должны быть равны нулю (с точностью до погрешности вычислений). Сумма квадратов отклонений необхо­дима для вычисления стандартных отклонений по известной формуле:

.

Получим: , . Отсюда получим коэффициент корреляции

.

Поскольку связь является слабой. Проверим гипотезу о связи этих показателей. В качестве нулевой примем гипотезу о том, что rxy=0.

Вычислим экспериментальное значение критерия Стьюдента по формуле

.

Получим tЭ=0.91. По статистическим таблицам вычислим теоретическое значение критерия Стьюдента для α=0.05 и N=20. Получим t=2.10. Поскольку tЭ<t, приходим к выводу о том, что статистически значимой связи между вербальным и невербальным IQ не выявлено.

Задача 9.

Для каждого из 12 учащихся одного класса известно время решения тестовой арифметической задачи в секундах (X) и средний балл отметок по мате­матике за последнюю четверть (Y), второй и третий столбцы таблицы 1.

Таблица 1.

X

Y

Ранг X

Ранг Y

1

122

4.7

7

2

5

25

2

105

4.5

10

4

6

36

3

100

4.4

11

5

6

36

4

145

3.8

5

9

-4

16

5

130

3.7

6

10

-4

16

6

90

4.6

12

3

9

81

7

162

4.0

3

8

-5

25

8

172

4.2

1

6

-5

25

9

120

4.1

8

7

1

1

10

150

3.6

4

11

-7

49

11

170

3.5

2

12

-10

100

12

112

4.8

9

1

8

64

Σ

-

-

78

78

0

474

Вычислить коэффициент корреляции Спирмена и проверить на уровне α=0.05 является ли ранговая корреляционная связь значимой.

Решение.

1. Для расчета корреляции r-Спирмена сначала необходимо ранжировать учащихся по той и другой переменной. После ранжирования можно проверить его правиль­ность: сумма рангов должна быть равна N(N+ l)/2. Затем для каждого испытуемо­го надо вычислить разность рангов (сумма разностей рангов должна быть равна 0). После этого для каждого испытуемого вычисляется квадрат разности рангов - ре­зультат приведен в последнем столбце таблицы. Сумма квадратов разностей рангов равна 474. Подставляем известные значения в формулу для коэффициента Спирмена,

получим

.

Получена умеренная отрицательная связь между успеваемостью по математике и временем решения арифметической задачи.

2. Проверим на уровне α=0.05 является ли ранговая корреляционная связь значимой. Найдем критическую точку двусторонней критической области распределения Стьюдента по уровню значимости 0.05 и числу степеней свободы k=n-2=12-2=10. Получим t=2.23. Найдем критическую точку

.

Так как Tкр>rS, нет оснований отвергать нулевую гипотезу. Ранговая корреляция между переменными незначимая.

Задача 10.

Изучается различие в продуктивности воспроизведения од­ного и того же материала трех групп испытуемых (по 5 человек), различа­ющихся условиями предъявления это­го материала для запоминания. Зави­симая переменная (х) — количество воспроизведенных единиц материала, независимая переменная (фактор) — условия предъявления (три градации). Проверить гипотезу о том, что дисперсии выборок различны.

Условие 1

Условие 2

Условие 3

x

x

x

1

5

6

8

11

11

2

4

7

7

12

9

3

3

8

6

13

7

4

6

9

9

14

10

5

7

10

5

15

8


Решение.

Найдем выборочные средние и оценки дисперсий для каждой выборки. Получим:

, , ,

,

,

,

В качестве основной примем гипотезу о том, что все три дисперсии равны между собой, . В качестве альтернативной примем гипотезу о том, что хоть одна дисперсия отличается от других. . Рассчитаем t статистику

.

По статистическим таблицам найдем значение критерия Кокрена Поскольку 0.33<0.76, приходим к выводу о том, что гипотеза верна, дисперсии трех генеральных совокупностей, представленных тремя выборками равны между собой.

Задача 11.

В рамках предыдущего примера проверим гипотезу о том, что математические ожидания генеральных совокупностей, представленных тремя выборками, различны.

Решение.

Воспользовавшись результатами предыдущего примера, вычислим общее среднее

,

где: , , .

Шаг 1, Вычислим внутригрупповые суммы квадратов:

,

,

.

Шаг 2. Определим число степеней свободы:

, .

Шаг 3. Вычислим средние квадраты:

, .

Шаг 4. Вычислим F-отношение:

Шаг 5. Определим р-уровень значимости. По таблице критических значений F-распределения (для направленных альтернатив) для р = 0.01, и критическое значение F= 6.927. Следовательно, р< 0.01. Дополнительно вычислим коэффициент детерминации:

.

Оформим результат в виде таблицы:

Источник изменчивости

Сумма квад-ратов (SS)

df

Средний квадрат (MS)

F

Р-уровень

Межгрупповой

40

2

20

8

<0.01

Внутригрупповой

30

12

2,5

-

-

Общий

70

14

-

-

-

Шаг 6. Принимаем статистическое решение и формулируем содержательный вы­вод. Отклоняем Но и принимаем альтернативную гипотезу о том, что межгрупповая изменчивость выше внутригрупповой. Содержательный вывод: обнаружено статис­тически достоверное влияние условий предъявления материала на продуктивность его воспроизведения < 0,01). Другими словами, средние значения продуктивности воспроизве­дения материала статистически достоверно различаются в зависимости от условий его предъявления < 0,01).

Задача 12.

Из 50 опрошенных по поводу отношения к введению моратория на смертную казнь 30 были «за», 20 — «против» (предполагается, что выборка репрезентатив­на генеральной совокупности). Можно ли утверждать на основании этого опро­са, что в совокупности количество сторонников превышает количество против­ников введения моратория на смертную казнь?

Решение.

  1. Составим таблицу

Результаты опроса

Распределение

Эмпирическое

Теоретическое

За

30

25

Против

20

25

Всего опрошенных

50

50

Шаг 1. Формулируем Но: сравниваемые доли равны между собой (эмпирическое распределение соответствует равномерному распределению).

Шаг 2. Выбираем для принятия статистического решения α = 0,05.

Шаг 3. Вычисляем эмпирическое значение критерия. Задача сводится к сопостав­лению эмпирического распределения 30:20 с идентичным по общей численности, но равномерным теоретическим распределением 25:25. Следовательно:

, , , .

Подставляем эти значения в формулу

, ,

где: k - число градаций сопоставляемых рас­пределений (равно 2); l - количество сопоставляемых распределений (равно 2).

Получаем:

, ,

Шаг 4. По таблице критических значений теоретическо­го распределения χ2-Пирсона для df= 1 и α = 0,05 находим, что . Таким образом, , следовательно мы не можем отклонить Но.

Шаг 5. Формулируем содержательный вывод. В результате исследования на уровне значимости α = 0,05 не обна­ружены статистически значимые различия в соотношении численности сторонни­ков и противников введения моратория на смертную казнь.

Задача 13.

Для дифференцированного подхода в обучении детей необходимо с помощь. кластерного анализа разбить группу на подгруппы, в которых у детей будет примерно одинаковый уровень памяти, интеллекта и успеваемости. Анализ провести с помощью вычисления Евклидова расстояния. Построить дендрограмму. Исходные данные приведены в таблице.

Испытуемый

Вербальная память

Интеллект

Успеваемость

1

7

110

4

2

8

112

4,5

3

7

114

4

4

5

102

4

5

5

105

4,2

6

4

90

3,8

7

8

110

4,8

8

4

95

3,5

9

4

98

3

Решение.

В виду большого объема вычислений при кластерном анализе, будем решать данную задачу с помощью компьютерной программы SPSS.

1. Запускаем SPSS.

2. Вводим таблицу исходных данных.

3. Выбираем Analyze > Classify (Классификация) > Hierarchical Cluster... (Иерархический кластерный).

4. В открывшемся окне диалога переносим из левого в правое верхнее окно (Variables) переменные, необходимые для анализа (Память, Интеллект, Успеваемость). Убеждаемся, что в поле Cluster точка установлена на Cases (Объекты), а не на Variables (Пе­ременные) — эта установка задает то, что будет подлежать классификации: объекты или переменные. Убеждаемся, что в поле Display (Выводить) флажки установлены на Statistics (Статистики), Plots (Графики).

5. Нажимаем клавишу Statistics... (Статистики...) и убеждаемся, что уста­новлен флажок на Agglomeration schedule (Последовательность агломерации). При необходимости можно было бы отметить и Proximity matrix (Матрица расстояний) для ее вывода, но мы этого не делаем. Нажимаем Continue (Про­должить).

6. Нажимаем клавишу Plots... (Графики...). Отмечаем флажком Dendrogram (Дендрограмма). Здесь же можно выбрать ориентацию дендрограммы: верти­кальную (Vertical) или горизонтальную (Horizontal), оставляем установленную по умолчанию вертикальную ориентацию. Нажимаем Continue.

7. Нажимаем Method... (Метод...), и открывается окно главных установок кластерного анализа. В этом окне четыре поля установок метода кластериза­ции: Cluster Method (Метод кластеризации), Measure (Меры различия), Transform Values (Преобразование значений признаков), Transform Measures (Преобразование мер различия). В поле Cluster Method (Метод кластериза-

ции) оставляем принятый по умолчанию Between-groups linkage (Метод сред­ней связи). В поле Measure (Меры различия) выбираем Interval data: Euclidean distance (Интервальные данные: Евклидово расстояние). Остальные установ­ки оставляем принятыми по умолчанию. Нажимаем Continue. Нажимаем ОК и получаем результаты.

8. Основные результаты кластерного анализа.

А) Таблица последовательности агломерации

Agglomeration Schedule

Stage

Cluster Combined

Coefficients

Stage Cluster First Appears

Next Stage

Cluster 1

Cluster 2

Cluster 1

Cluster 2

1

1

7

1,640

0

0

2

2

1

2

4,670

1

0

5

3

4

5

9,040

0

0

7

4

8

9

9,250

0

0

6

5

1

3

12,963

2

0

7

6

6

8

44,865

0

4

8

7

1

4

75,678

5

3

8

8

1

6

247,479

7

6

0

В этой таблице первая колонка (Stage) содержит номер шага кластерного анализа. Вторая колонка Cluster Combined (Объединенные кластеры) содержит первый (Cluster 1) и второй (Cluster 2) столбцы, которые соответствуют номерам кластеров, объединяе­мых на данном шаге. После объединения кластеру присваивается номер, со­ответствующий номеру в колонке Cluster 1. Так, на первом шаге объединяют­ся объекты 1 и 7, кластеру присваивается номер 1, далее этот кластер на шаге 2 объединяется с элементом 2, новому кластеру присваивается номер 1 и т. д. Следующая колонка Coefficients (Коэффициент) содержит значение расстоя­ния между кластерами, которые объединяются на данном шаге. Колонка Stage Cluster First Appears (Предыдущий шаг, на котором появлялся кластер) пока­зывает, на каком шаге до этого появлялся первый и второй из объединяемых кластеров. Последняя колонка Next Stage (Следующий шаг) показывает, на каком шаге снова появится кластер, образованный на этом шаге.

Оценим оптимальное число классов по таблице последова­тельности агломерации. Видно, что первый резкий скачок расстояния меж­ду кластерами наблюдается при переходе от 5 к 6 шагу. Следовательно, оптимальное количество кластеров то, которое получено на 5 или 6 шаге. Это количество равно численности объектов минус номер шага, то есть 9 — 5 (6) =4 (3), то есть 4 или 3 кластера. Выбор того или иного решения будет зависеть уже от содержательных соображений. Так, в данном случае целесообразно выделить три кластера: кластер 1 (содержит испытуемых №№ 1, 2, 3, 7) – группа детей с высокими показателями, кластер 4 (содержит испытуемых №№4, 5) – группа детей со средними показателями и кластер 6 (содержит испытуемых №№ 6, 8, 9) – группа детей с низкими показателями.

Б). Дендрограмма иерархического кластерного анализа.

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

1 

7 

2  

3  

4  

5  

8  

9  

6 

На дендрограмме номера испытуемых следуют по вертикали. По горизонтали отмече­ны расстояния (в условных единицах), на которых происходит объединение испытуемых в кластеры. На первых шагах происходит образование кластеров: (1,2, 7), (4,5) и (8,9). Далее образуется кластер (1, 2, 3, 7)) расстояния между этими объектами больше, чем между теми, которые были объединены на предыдущих шагах. Следующий кла­стер — (6, 8, 9). Далее в один кластер объединяются кластеры (1, 2, 3, 7) и (4, 5). В результате образуется кластер (1, 2, 3, 4, 5, 7). Наконец на последнем шаге объединяются кластеры (6, 8, 9) и (1, 2, 3, 4, 5, 7). Процесс заканчивается объединением кластеров (6, 8, 9) и (1, 2, 3, 4, 5, 7) в один кластер. Количество кластеров определяет по дендрограмме сам исследователь. Так, судя по дендрограмме, в данном случае можно выделить те же самые три или четыре кластера, которые мы выделили по таблице последовательности агломерации.