
Общие сведения еще со второго курса:
Шкалы:
Номинальная. На вопросы можно ответить только да или нет. Например: пол, семейное положение.
Порядковая (интервальная). Используется для вопросов типа: «насколько вам нравится…», то есть для выражения степени удовлетворенности, заинтересованности и т.д. В отличии от номинальной шкалы тут мы можем использовать знаки сравнения (например Васе больше нравится учиться в РГГУ, чем Пете).
Метрическая. В таких вопросах ответ задается числом. Например: доход, количество лет, потраченных на образование, количество алкоголя, сигарет. С этими числами мы можем делать любые математические процедуры – складывать, вычитать, сравнивать, смотреть средние. Именно с такими переменными в этом семестре нам и нужно было работать, но в базах данных их к сожалению меньше всего (кроме 3 задания)…
ОЧЕНЬ ВАЖНО при анализе не забывать вбивать миссинги. Если этого не сделать, то легко могут получиться неадекватные данные. Например человек в день будет выкуривать миллион сигарет. Почему так происходит: для респондентов, которые не ответили на вопрос, автоматически задаются значения 999997, 999998, 999999 (могут быт другие – надо в values смотреть). В результате подсчета среднего арифметического (ниже я об этом напишу) получаются вот такие странные ответы.
Ближе к делу:
Сравнение средних и однофакторный дисперсионный анализ.
Для начала:
Ключевое понятие тут – «среднее значение». Читается просто «Среднее». Обозначается Mean. Как оно получается? Складываются все ответы респондентов и получившееся число делят на количество ответов.
Например: у Васи в дневнике стоят оценки – 5, 4, 3 – среднее арифметическое = (5+4+3)/3=12/3=4. То есть в среднем Вася учится на 4. Это число не обязательно должно быть целым, так например средняя оценка, при оценка 4 и 5 будет 4,5 (9/2). Но это число должно быть адекватным, среднее значение всегда будет колебаться от самой низкой оценки до самой высокой. В 5 бальной шкале от 1 до 5, в первом примере с Васей – от 3 до 5. Не должно получаться так, что средняя оценка равна миллиону – это верный признак, что не вбиты миссинги! Надеюсь, понятно.
Как должно быть понятно из названия анализа в этой теме сравниваются 2 средних значения.
Существует 2 вида переменных:
Независимая (группообразующая – по тому что она делит всех респондентов на группы). Номинальная и порядковая шкалы. (пол, уровень образования, место проживания)
Зависимая. ОБЯЗАТЕЛЬНО - метрическая шкала. (доход, кол-во минут).
Сравнение средних проводится методом, который называется T-test. Он бывает 3 видов:
T-test для двух независимых выборок (2 группы людей (2 выборки), ответы которых никак не связаны друг с другом. Чаще всего – это мужчины и женщины, или люди, которые живут в городе и люди, которые живут в деревне).
Допустим мы решили узнать влияет ли пол (группообразующая переменная) на количество пива, выпиваемого респондентом за день – это наш исследовательский вопрос, с которого нужно начинать любое исследование, любое задание.
Что по сути делает за нас СПСС – он делит всех респондентов (тех, кто ответили на оба вопроса (пол и кол-во пива…)) на 2 группы – мужчины и женщины и считает для них средние, отдельно для мужчин и отдельно для женщин.
В первой табличке мы видим информацию о том, какое количество (N) респондентов мы анализируем в результате (included), какое количество (N) респондентов мы не анализируем (Excluded – это те, кто не ответил на вопрос о поле или о пиве) и какое количество (N) респондентов всего (Total) участвовало в опросе, базу данных которого мы взяли. Если кто не знает – percent – это проценты. «всего» - 100%, из них высчитывается количество включенных и исключенных респондентов.
В нашем случае мы анализируем 3810 человек из 17024, соответственно не включены в анализ 13214 человек.
Case Processing Summary |
|||||||
|
Cases |
||||||
Included |
Excluded |
Total |
|||||
N |
Percent |
N |
Percent |
N |
Percent |
||
Сколько грамм пива Вы обычно выпивали за день? * Пол респондента |
3810 |
22,4% |
13214 |
77,6% |
17024 |
100,0% |
Вторая табличка.
Mean – это среднее арифметическое. (см. выше)
N – Количество респондентов.
Std. Deviation – стандартное отклонение (нам в данном случае не нужно и я не возьмусь вам объяснить что это такое).
Итак, на основании этой таблички мы можем сделать вывод о том, что
Мужчины в среднем (очень важное слово, потому что мы имеем дело не с каким-то конкретным мужчиной, а с мужчинами в целом) выпивают 990 грамм пива в день, а женщины – 630 грамм пива в день, что на 360 грамм меньше, чем у мужчин.
Тут же можно увидеть, что среди наших 3788 респондентов 2427 мужчин и 1361 женщина. N – всегда количество респондентов.
Report |
|||
Сколько грамм пива Вы обычно выпивали за день? |
|||
Пол респондента |
Mean |
N |
Std. Deviation |
МУЖСКОЙ |
990,04 |
2427 |
648,516 |
ЖЕНСКИЙ |
630,86 |
1361 |
430,065 |
Total |
860,99 |
3788 |
604,610 |
Мы (не мы, конечно же, - СПСС) вычислили средние, но этого недостаточно – теперь их нужно сравнить. Переходим непосредственно к сравнению средних для 2 независимых выборок.
В третьей табличке по сути все тоже самое, что во второй, добавился столбик Std. Error Mean (стандартная ошибка среднего), но для анализа в данном случае нам это не нужно.
Group Statistics |
|||||
|
Пол респондента |
N |
Mean |
Std. Deviation |
Std. Error Mean |
Сколько грамм пива Вы обычно выпивали за день? |
МУЖСКОЙ |
2427 |
990,04 |
648,516 |
13,164 |
ЖЕНСКИЙ |
1361 |
630,86 |
430,065 |
11,657 |
Перед следующей табличкой важное отступление:
В первых двух заданиях и 1 раз в третьем нам встречается столбик Sig. – уровень значимости. В столбике слева от уровня значимости во всех случаях (кроме таблички Multiple compassion и samples correlations в первом задании) идет столбик который показывает по какому критерию вычисляется уровень значимости. Их всего 2 (на самом деле намного больше, но для наших тем это не нужно). Вам не нужно знать их отличия – только названия. Первый обозначается буквой t и так же читается, второй обозначается буквой F и читается – Фишера. Получается, что есть уровень значимости по критерию t и уровень значимости по критерию Фишера. Именно в такой длинной формулировке их и нужно произносить. Запоминать какой для чего используется не нужно – таблицы будут всегда перед глазами.
Запомнить нужно следующее: если вы видите столбик Sig., то вы всегда выдвигаете гипотезу Но. Общий вид всегда такой. Выдвигаем гипотезу Но … (содержание гипотезы), уровень значимости по критерию t или Фишера
Больше 0,05 – значит нужно принять гипотезу Но.
Меньше 0,05 – значит нужно отклонить гипотезу Но и принять альтернативную гипотезу Н1 (Н2, Н3 и т.д. не бывает). Н1 – это полная противоположность Но.
Но всегда положительная – дисперсии равны, средние равны, а Н1 – всегда отрицательные – дисперсии не равны, средние не равны. – это не научное определение и термины тоже не научные, так что не надо так Кученковой говорить – это просто для понимания.
Как правило в первом задании вы будете выдвигать гипотезу Но – средние равны, кроме 1 оговоренного ниже случая (тест на равенство дисперсий, там прямо в таблице это написано).
Да и еще важный момент. Когда мы говорим о равенстве средних, мы имеем в виду доверительные интервалы для среднего. Пока запомните – чуть ниже поймете (я надеюсь).
Рассмотрим на примере четвертой таблички. Тут столбика Sig. целых два, значит, мы два раза будем повторять эту процедуру, но все по порядку.
С помощью первой половины таблички (Levene's Test for Equality of Variances) мы проводим тест на равенство дисперсий (собственно это дословный перевод – поэтому это тоже можно сообразить на месте – главное знать, куда смотреть). Мы выдвигаем гипотезу Н0 – дисперсии равны. Смотрим на уровень значимости (Sig.) по критерию Фишера (F). Он меньше 0,05, значит мы отвергаем гипотезу Н0 и принимаем альтернативную гипотезу Н1 – дисперсии не равны (добавляем частицу не и получаем альтернативную гипотезу). (Если бы уровень значимости был больше 0,05 мы бы приняли гипотезу Н0 и сделали вывод, что дисперсии равны).
Дальше, если дисперсии равны мы дальше используем верхнюю строчку
если дисперсии не равны мы дальше используем нижнюю строчку.
В нашем случае мы используем вторую строчку.
T – значение t-testa
Df – степень свободы
Sig. (2-tailed) – уровень значимости (двухсторонняя – нужно знать название – что это означает Кученкова не спросит).
Mean Difference – разница средних
Std. Error Difference – отклонение среднего.
Из всего выше перечисленного нас интересует только уровень значимости.
Мы проводим тест на равенство средних. Мы выдвигаем гипотезу Н0 – средние равны. Смотрим на уровень значимости (Sig.) по критерию t. Он меньше 0,05, значит мы отвергаем гипотезу Н0 и принимаем альтернативную гипотезу Н1 – средние не равны. (Если бы уровень значимости был больше 0,05 мы бы приняли гипотезу Н0 и сделали вывод, что средние равны). В нашем случае делаем вывод, что средние не равны.
Independent Samples Test |
|||||||||||||||||||
|
Levene's Test for Equality of Variances |
t-test for Equality of Means |
|||||||||||||||||
F |
Sig. |
t |
df |
Sig. (2-tailed) |
Mean Difference |
Std. Error Difference |
95% Confidence Interval of the Difference |
||||||||||||
Lower |
Upper |
||||||||||||||||||
Сколько грамм пива Вы обычно выпивали за день? |
Equal variances assumed |
95,994 |
,000 |
18,300 |
3786 |
,000 |
359,182 |
19,628 |
320,700 |
397,663 |
|||||||||
Equal variances not assumed |
|
|
20,427 |
3682,800 |
,000 |
359,182 |
17,584 |
324,707 |
393,656 |
Дальше, график.
На графике мы видим 2 доверительных интервала, один для мужчин, другой для женщин. Доверительные интервалы у них не пересекаются (чтобы это понять нужно приложить линеечку (или листок бумаги) к графику горизонтально и провести сверху вниз, если хотя бы в одной точке вы увидите два дов. Инт. Сразу – то они пересекаются). Это значит, что мы можем сделать вывод о том, что женщины в среднем пьют меньше мужчин, и, с уверенностью в 95%, мы можем сказать, что и на генеральной совокупности женщины в среднем будут пить меньше, чем мужчины (причем намного). (Если бы доверительные интервалы пересекались, то мы бы сделали вывод о том, что на практике может оказаться так, что женщины в среднем будут пить больше или столько же, сколько мужчины).
Доверительные интервалы по сути показывают в границе каких значений может оказаться среднее арифметическое значение для людей на генеральной совокупности. То есть если мы проведем такой же опрос снова, то с большой вероятностью окажется, что среднее расположено в пределах доверительного интервала.
Важно то, что за пределами доверительного интервала тоже есть значения респондентов, то есть то, что доверительный интервал для мужчин расположен в границах от 950 грамм до 1000 грамм, не значит, что среди ответов наших респондентов нет значений 500 грамм или 1400 грамм или 2500 грамм. Они есть. Это СРЕДНИЕ значения.
По t-test для двух независимых выборок все. Мы их сравнили, сказали, что средние не равны, и даже показали, что на генеральной совокупности в среднем мужчины скорее всего будут пить больше женщин.
Следующий вид t-test - T-test для одной выборки.
Используется для того, чтобы понять отличается ли среднее от константы.
Например, отличается ли среднее количество алкоголя, которое респонденты употребляют от нормы (норму берем 600 грамм (из интернета), можно взять любую другую). Тут у нас одна группа респондентов – и мужчины и женщины вместе.
Первая табличка.
N – количество респондентов, которые ответили на вопрос «сколько грамм пива…»
Mean – среднее арифметическое (среднее количество выпитого пива вне зависимости от пола – 860 грамм)
Std. Deviation и Std. Error Mean мы не анализируем.
One-Sample Statistics |
||||
|
N |
Mean |
Std. Deviation |
Std. Error Mean |
Сколько грамм пива Вы обычно выпивали за день? |
3788 |
860,99 |
604,610 |
9,824 |
Вторая табличка.
T – значение t-testa
Df – степень свободы
Sig. (2-tailed) – уровень значимости (двухсторонняя).
Mean Difference – разница средних. Она положительная и достаточно большая. Как получается это значение: берется среднее количество выпиваемого алкоголя и константа – норма и сравниваются. 860-600=260.
95% Confidence Interval of the Difference – доверительный интервал (который мы обычно смотрим на графике).
Lower – нижняя граница д.и. Тоже положительная и большая.
Upper – верхняя граница д.и. Тоже положительная и большая.
Если одно из эти значений (Lower и Upper) больше 0, а второе меньше 0, то это значит, что среднее находится на одном уровне с доверительным интервалом (пересекается с ним). В таком случае мы не можем сделать вывода, что на генеральной совокупности люди в среднем будут пить больше нормы.
Выдвигаем гипотезу Н0 – среднее равно константе. Смотрим на уровень значимости (Sig.) по критерию t. Он меньше 0,05, значит мы отвергаем гипотезу Н0 и принимаем альтернативную гипотезу Н1 – среднее не равно константе. (Если бы уровень значимости был больше 0,05 мы бы приняли гипотезу Н0 и сделали вывод, что среднее равно константе (это скорее всего как раз таки такой случай, когда норма пересекается с доверительным интервалом)).
Судя по тому, что разница средних, а так же верхняя и нижняя границы доверительного интервала значительно больше 0 можно сделать вывод о том, что количество потребляемого алкоголя в среднем намного больше нормы.
One-Sample Test |
||||||
|
Test Value = 600 |
|||||
t |
df |
Sig. (2-tailed) |
Mean Difference |
95% Confidence Interval of the Difference |
||
Lower |
Upper |
|||||
Сколько грамм пива Вы обычно выпивали за день? |
26,568 |
3787 |
,000 |
260,990 |
241,73 |
280,25 |
С этим видом ти-теста все.
Следующий вид: T-test для парных данных.
В этом виде t-test группа респондентов у нас одна, мы сравниваем 2 метрические переменные. Например, мы поставили перед собой вопрос: респонденты употребляют больше пива или сухого вина или шампанского (сухое вино и шампанское – одна переменная).
Первая табличка.
Mean – среднее арифметическое (если кто обратил внимание изменилось среднее для переменной «сколько грамм пива…», это связано с тем, что изменилось количество респондентов. В данный момент мы рассматриваем тех, кто ответил на оба вопроса (и про пиво и про вино)).
N – число респондентов – 667.
Std. Deviation и Std. Error Mean мы не анализируем.
Соответсвенно из первой таблички мы делаем вывод, что среднее количество употребляемого пива 714 грамм в день, в сухого вина или шампанского – 332 грамма в день.
Paired Samples Statistics |
|||||
|
Mean |
N |
Std. Deviation |
Std. Error Mean |
|
Pair 1 |
Сколько грамм пива Вы обычно выпивали за день? |
714,96 |
667 |
488,220 |
18,904 |
Сколько грамм сухого вина, шампанского Вы обычно выпивали за день? |
332,52 |
667 |
229,882 |
8,901 |
Вторая табличка.
Выдвигаем гипотезу Н0 – связь между переменными есть. Смотрим на уровень значимости (Sig.). Он меньше 0,05, значит мы отвергаем гипотезу Н0 и принимаем альтернативную гипотезу Н1 – связь есть. (Если бы уровень значимости был больше 0,05 мы бы приняли гипотезу Н0 и сделали вывод, что связи нет).
Значение в столбике correlation (корреляция) показывает нам насколько сильная эта связь (измеряется от -1 до 1, чем ближе к 1 (или -1), тем связь сильнее, чем ближе к 0, тем связь слабее). Связь может быть прямой и обратной. При прямой связи (от 0 до 1) выполняется соотношение чем больше …, тем больше …, или чем меньше…, тем меньше…, а при обратной (от -1 до 0) – чем больше…, тем меньше… (например? чем больше респондент пьет пива, тем меньше он пьет сухого вина или шампанского (но это не про наш случай, у нас связь прямая)).
Paired Samples Correlations |
||||
|
N |
Correlation |
Sig. |
|
Pair 1 |
Сколько грамм пива Вы обычно выпивали за день? & Сколько грамм сухого вина, шампанского Вы обычно выпивали за день? |
667 |
,284 |
,000 |
Третья табличка.
Первую часть таблицы можно не анализировать. Здесь смотрим на последние 3 столбика.
Мы проводим тест на равенство средних. Мы выдвигаем гипотезу Н0 – средние равны. Смотрим на уровень значимости (Sig.) по критерию t. Он меньше 0,05, значит мы отвергаем гипотезу Н0 и принимаем альтернативную гипотезу Н1 – средние не равны. (Если бы уровень значимости был больше 0,05 мы бы приняли гипотезу Н0 и сделали вывод, что средние равны). В нашем случае делаем вывод, что средние не равны.
Paired Samples Test |
||||||||||||||||||||
|
Paired Differences |
t |
df |
Sig. (2-tailed) |
||||||||||||||||
Mean |
Std. Deviation |
Std. Error Mean |
95% Confidence Interval of the Difference |
|||||||||||||||||
Lower |
Upper |
|||||||||||||||||||
Pair 1 |
Сколько грамм пива Вы обычно выпивали за день? - Сколько грамм сухого вина, шампанского Вы обычно выпивали за день? |
382,444 |
476,954 |
18,468 |
346,182 |
418,706 |
20,709 |
666 |
,000 |
Вывод: в среднем респонденты употребляют больше пива, чем сухого вина или шампанского (из первой табличке) на 382 грамма и на генеральной совокупности тенденция сохранится (это видно из последней таблички).
С t-test на этом все.
Однофакторный дисперсионный анализ.
Он похож на T-test для двух независимых выборок, но здесь у нас не 2 группы респондентов, а больше. Например, можно в качестве группообразующей переменной (фактора) взять образование или тип населенного пункта.
Мы поставим вопрос так: влияет ли место проживания респондента на количество употребляемого им алкоголя.
Первая табличка.
Мы проводим тест на равенство средних. Мы выдвигаем гипотезу Н0 – средние равны. Смотрим на уровень значимости (Sig.) по критерию F (Фишера). Он меньше 0,05, значит мы отвергаем гипотезу Н0 и принимаем альтернативную гипотезу Н1 – средние в каких-то группах не равны. Они могут быть не равны только в двух группах, а могут во всех.
Еще нас интересует столбик Mean Square (аналог дисперсии).
Between Groups - сильно ли отличаются средние между групп (сравнивается 9 дисперсий). То есть считаются средние для каждой группы, и потом они сравниваются.
Within Groups – сильно ли отличаются ответы респондентов от среднего в каждой группе. То есть сильно ли разбросаны ответы респондентов в каждой из групп.
(У меня такое ощущения, что последними двумя абзацами я всех только запутала)
Сложно объяснить. Важно тут то, что если в столбике Mean Square значение Between Groups больше значения Within Groups, то мы делаем вывод о том, что место проживания респондента влияет на количество употребляемого пива.
ANOVA |
|||||
Сколько грамм пива Вы обычно выпивали за день? |
|||||
|
Sum of Squares |
df |
Mean Square |
F |
Sig. |
Between Groups |
4341985,420 |
3 |
1447328,473 |
3,969 |
,008 |
Within Groups |
1380006202,199 |
3784 |
364695,085 |
|
|
Total |
1384348187,619 |
3787 |
|
|
|
Вторая табличка.
Это у нас попарное сравнение.
Mean Difference (I-J) - разниц среднего первого и второго. Если на пальцах, то в первой строчке показано: среднее (кол-ва пива, которое респондент выпивает за день) в областном центре минус среднее (кол-ва пива, которое респондент выпивает за день) в городе. То есть из первой строчки следует, что в областном центре выпивают в среднем на 62 грамма пива меньше, чем в городе.
НО. Есть еще один важный момент – уровень значимости (Sig.). Мы можем сравнивать таким образом только те переменные, где уровень значимости меньше 0,05, то есть разница значима. В нашем случае можно сделать вывод, что в областном центре выпивают в среднем на 62 грамма пива меньше, чем в городе и что в областном центре выпивают в среднем на 129 грамма пива меньше, чем в ПГТ. Все остальные попарные сравнения не значимы.
Multiple Comparisons |
||||||
Dependent Variable: Сколько грамм пива Вы обычно выпивали за день? |
||||||
Tamhane |
||||||
(I) ТИП НАСЕЛЕННОГО ПУНКТА |
(J) ТИП НАСЕЛЕННОГО ПУНКТА |
Mean Difference (I-J) |
Std. Error |
Sig. |
95% Confidence Interval |
|
Lower Bound |
Upper Bound |
|||||
областной центр |
город |
-62,641* |
23,482 |
,045 |
-124,48 |
-,80 |
ПГТ |
-129,495 |
49,747 |
,058 |
-261,77 |
2,78 |
|
село |
-16,371 |
25,592 |
,988 |
-83,79 |
51,04 |
|
город |
областной центр |
62,641* |
23,482 |
,045 |
,80 |
124,48 |
ПГТ |
-66,853 |
51,088 |
,722 |
-202,55 |
68,85 |
|
село |
46,270 |
28,109 |
,468 |
-27,77 |
120,31 |
|
ПГТ |
областной центр |
129,495 |
49,747 |
,058 |
-2,78 |
261,77 |
город |
66,853 |
51,088 |
,722 |
-68,85 |
202,55 |
|
село |
113,123 |
52,091 |
,172 |
-25,15 |
251,40 |
|
село |
областной центр |
16,371 |
25,592 |
,988 |
-51,04 |
83,79 |
город |
-46,270 |
28,109 |
,468 |
-120,31 |
27,77 |
|
ПГТ |
-113,123 |
52,091 |
,172 |
-251,40 |
25,15 |
|
*. The mean difference is significant at the 0.05 level. |
И напоследок строим график.
Из графика мы видим, что самый большой доверительный интервал (по высоте) у ПГТ. Это значит, что среди жителей ПГТ много таких кто пьет значительно больше и много таких, кто пьет значительно меньше.
Доверительные интервалы для города, ПГТ и села пересекаются, поэтому мы можем сделать вывод, что на практике (если перенести все это на генеральную совокупность) может получиться так, что во всех трех местах в среднем пить пиво будут одинаково много, или в городе будут пить больше пива, чем в ПГТ, или в селе будут больше пить пива, чем в городе. Всякое может случиться.
Доверительные интервалы для областного центра и ПГТ не пересекаются. Это значит, что в среднем в областном центре будут пить меньше, чем в ПГТ. Этот вывод можно распространить на генеральную совокупность с уверенностью 95%.
Обращаю ваше внимание еще раз, что слово «В СРЕДНЕМ» тут одно из ключевых. Понятно, что есть как мужчины, так и женщины, которые вообще не пьют или наоборот пьют постоянно. Статистика их не рассматривает. В данном случае мы рассматриваем Средние (еще раз на название темы посмотрите).
2 тема:
Регрессионный анализ.
Регрессионный анализ призван решать 2 задачи:
Анализ взаимосвязи между признаками (переменными)
Прогнозирующая функция
Регрессионный анализ бывает двух видов (на самом деле их больше, но мы разбираем только 2): простой регрессионный анализ и множественный регрессионный анализ.
Для регрессионного анализа мы можем использовать только метрические (scale) переменные.
Простой регрессионный анализ.
У нас есть 1 зависимая переменная и 1 независимая переменная (при этом мы предполагаем, что одна переменная оказывает влияние на другую, например количество лет потраченных на обучение и зарплата).
В моем случае я поставила вопрос: влияет ли объем двигателя на цену автомобиля.
Лирическое отступление: По сути, во время регрессионного анализа мы ищем прямую, вокруг которой сосредоточено наибольшее количество ответов респондентов. Эту прямую можно описать уравнением y=b0+b1*x+u, где b0 – точка пересечения прямой с осью ОУ, b1 – угол наклона прямой, u – остатки, то есть те точки (ответы респондентов), которые не лежат на прямой, это то, что еще влияет на x. Часто социологи (и мы в том числе) опускают u, и формула принимает следующий вид f(x)=y=b0+b1*x.
1 табличка. Она просто говорит нам о том, что у нас одна независимая переменная – объем двигателя, и мы используем метод Enter.
Variables Entered/Removeda |
|||
Model |
Variables Entered |
Variables Removed |
Method |
1 |
Объем двигателяb |
. |
Enter |
a. Dependent Variable: Цена |
|||
b. All requested variables entered. |
2 табличка.
R – коэффициент корреляции. Измеряется от -1 до 1. Чем ближе к 0, тем связь слабее, чем ближе к 1 или -1, тем связь сильнее.
R Square (R2) – коэффициент детерминации – это значение говорит нам о качестве регрессионной модели. В данном случае 0,387*100%=38,7% - показатель качества модели. С помощью нашей модели мы объясняем на 38,7% цену автомобиля, то есть 38,7% цены автомобиля обуславливается объемом двигателя. Это достаточно много. В обычных базах, которые мы используем, значение R Square не превышает 10%, как правило, это 1-3%.
Adjusted R Square и Std. Error of the Estimate – это нам не нужно. Но на самом деле, как говорит мне учебник Наследова, Adjusted R Square это скорректированный R2. R2 в расчетах получается завышенным. Скорректированная величина R2 менее формальна и ближе к реальным результатам.
Model Summary |
||||
Model |
R |
R Square |
Adjusted R Square |
Std. Error of the Estimate |
1 |
,622a |
,387 |
,383 |
11,3476 |
a. Predictors: (Constant), Объем двигателя |
3 Табличка.
В этой табличке мы видим Sig. – уровень значимости (по критерию Фишера), а это значит, что мы выдвигаем гипотезу. Она звучит так: Но: R2=0 (наша модель ничего не объясняет). Уровень значимости по критерию F (Фишера) меньше 0,05, а значит мы отвергаем гипотезу Н0 и принимаем альтернативную гипотезу Н1 – наша модель действительно что-то объясняет (собственно мы просто подтвердили, проверили данные из прошлой таблички). Если тут у вас уровень значимости больше 0,05 то лучше попробовать взять 2 другие переменные, потому что на практике ваша модель ничего не объясняет.
Теперь чуть-чуть о начале таблички.
Regression – регрессионная модель.
Residual – остатки.
Total – сумма (что-то вроде дисперсии для цены машины).
Сумма раскладывается на то, что мы объясняем регрессионной моделью (или прямой, которую мы проводили на графике, если кто помнит) и на остатки (Residual). Из второго столбика таблицы (Sum of Squares) еще раз видно, но в неудобной форме, что меньше половины (12126,582) мы объясняем регрессионной моделью и чуть больше половины (19186,334) – это остатки.
ANOVAa |
||||||
Model |
Sum of Squares |
df |
Mean Square |
F |
Sig. |
|
1 |
Regression |
12126,582 |
1 |
12126,582 |
94,174 |
,000b |
Residual |
19186,334 |
149 |
128,767 |
|
|
|
Total |
31312,916 |
150 |
|
|
|
|
a. Dependent Variable: Цена |
||||||
b. Predictors: (Constant), Объем двигателя |
4 Таблица.
С помощью этой таблички мы можем построить уравнение, которое описывает нашу прямую. Я вначале об этом говорила. Общий вид формулы такой: f(x)=y=b0+b1*x.
Нас интересует столбик нестандартизированных коэффициентов, а точнее столбик В.
Constant – b0 – в данном случае оно принимает значение 1,225. Это можно понять так: если бы х (объем двигателя) не влиял на у (цену автомобиля), то его цена была бы равна 1,225 (в тысячах). На самом деле это не совсем так. Это скорее точка пересечения нашей прямой с осью ОУ.
Объем двигателя - b1 – насколько увеличится у, если х увеличится на 1 – в данном случае принимает значение 8,560. Эту величину можно понять так: на 8,560 тысяч долларов (более реалистично чем рубли, хотя в базе не указана валюта) повышается цена автомобиля с каждым новым литром объема двигателя (простите за корявый русский).
И соответственно формула принимает следующий вид: f(x)=y=1,225+8,560x.
И дальше на самом деле мы можем даже строить прогнозы относительно цены автомобиля в зависимости от объема двигателя. Например, вместо х (а это у нас объем двигателя) мы можем подставить 1,8 и мы можем подсчитать, что при таком объеме двигателя машина будет стоить 16,633 тысячи долларов. Но тут уместно вспомнить о том, что у нас есть еще остатки (u), то есть какие-то еще факторы, которые влияют на стоимость автомобиля, поэтому с уверенностью сказать, что любая машина с двигателем 1,8 литров будет стоить 16,633 тысячи долларов, мы не можем.
НО и это еще не все. Подводный камень тут в уровне значимости по критерию t.
Выдвигаем гипотезу H0: b1=0. Тут уровень значимости по критерию t меньше 0,05, а значит мы принимаем альтернативную гипотезу H1, а значит b1≠0, а значит объем двигателя влияет на цену автомобиля и все то, что написано сверху имеет смысл. По поводу bo мы такую гипотезу не выдвигаем – так Кученкова сказала.
Coefficientsa |
||||||
Model |
Unstandardized Coefficients |
Standardized Coefficients |
t |
Sig. |
||
B |
Std. Error |
Beta |
||||
1 |
(Constant) |
1,225 |
2,839 |
|
,432 |
,667 |
Объем двигателя |
8,560 |
,882 |
,622 |
9,704 |
,000 |
|
a. Dependent Variable: Цена |
Но и это еще не все.
У нашей модели есть некоторые ограничения или так сказать условия применимости. Другими словами нам нужно проверить можем ли мы пользоваться нашей моделью или она не работает.
Всего 3 условия: