Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
37
Добавлен:
01.05.2014
Размер:
803.84 Кб
Скачать

Итоговые замечания по анализу данных

Мы достигли конца нашего раздела, касающегося обработки данных. Как мы видели, существует много тонких приемов, которые аналитики используют для определения смысла собираемых данных. Хотя компьютер в значительной степени упрощает анализ данных и обеспечивает исследователей множеством возможностей оценки различных фактов, содержащихся в данных, мы допустили бы непростительную небрежность, не закончив эту главу замечанием о необходимости предельной осторожности.

В исследовательском окне 21.3 хорошо известный писатель, живший задолго до эры компьютеров, подчеркивает опасности, свойственные прогнозам на будущее на базе данных, собранных о прошлом. Для тех из вас, кто станет исследователем или даже просто потребителем данных, уравнения и статистические приемы должны стать важным инструментарием, но не более важным, чем солидная доля здравого смысла.

Возвращение к примеру

«Тот факт, что белые воротнички благоволят к покупкам по каталогу Lovelace, потрясающе полезен, —сказала Анжела Сполдинг, — но меня интересуют и другие вещи. Например, каково различие между женатыми и неженатыми мужчинами? Что можно сказать в отношении продолжительности их работы по найму?» «Если у вас хватит духу посмотреть еще несколько таблиц, я отвечу и на эти вопросы», — заявил Майкл Уайз. «Продолжайте», — согласилась Сполдинг. «Хорошо, что Вы поинтересовались супружеством и годами работы. Что ж, мы использовали анализ множественной регрессии для определения того, имеет ли отношение индекс ATTLOVE к этим демографическим характеристикам». «Поскольку супружеский статус можно разбить на множество категорий, — продолжал Уайз, — мы превратили эти категории в четыре фиктивные "переменные. Взгляните на эту таблицу». Он протянул Сполдинг таблицу 3. «И на этот раз мы установили, что общее уравнение регрессии статистически значимо. Далее, мы обнаружили, что в общей сложности переменными принимается в расчет 93% вариации индекса ATTLOVE. Смотрите, откорректированное значение К-квадрат составляет 0,931, — сказал Уайз. — Эти результаты особенно интересны по той причине, что дают возможность видеть значения

всех категории супружеского статуса, охваченных фиктивными переменными». «Посмотрите на этот перечень, — продолжал Уайз, подавая Сполдинг небольшую таблицу (см. табл. 4). «Если мы будем рассматривать одиноких людей в качестве нулевого статуса супружества, то увидим, что состоящие в браке, — даже если брак заканчивается разводом либо смертью жены, — являются, по всей видимости, мужчинами, которые предрасположены к приобретению товаров у Lovelace. Присмотритесь, например, к значению D2. Оно показывает, что имеет место увеличение индекса ATTLOVE в среднем на 2,85, если мужчина женат, а не одинок», — сказал Уайз. «А если мне захотелось узнать разницу между женатыми и разведенными мужчинами?» спросила Сполдинг. «Это легко, — откликнулся Уайз. — Просто вычтите одно из другого. Разведенные мужчины имеют индекс ATTLOVE выше, чем женатые, в среднем примерно на 4,16, поскольку D4 минус D2 равно 4,155». «Грандиозный материал, Майкл, — воскликнула Сполдинг. — Теперь мне осталось всего лишь придумать наилучший способ, как заполучить самый громадный список разведенных белых воротничков, и дело в шляпе!»

Резюме

УЧЕБНАЯ ЦЕЛЬ 1

Объяснить различие между регрессионным и корреляционным анализом.

Аналитики используют корреляционный анализ для измерения степени близости взаимосвязи двух или более переменных. При использовании этого приема рассматривается совместная вариация двух мер, ни одна из которых не ограничивается экспериментатором.

Регрессионный анализ относится к приемам, используемым для получения уравнения, связывающего переменную-критерий с одной или более переменными-предикторами. В нем рассматривается распределение значений переменной-критерия при сохранении одной или более переменных-предикторов постоянными на различных уровнях.

УЧЕБНАЯ ЦЕЛЬ 2

Перечислить три допущения, которые принимаются в отношении члена уравнения, определяющего ошибку, при решении регрессионной задачи методом наименьших квадратов.

Относительно члена уравнения, определяющего ошибку, при решении регрессионной задачи по методу наименьших квадратов принимаются три упрощающих допущения:

1. Среднее значение ошибки равно нулю.

2. Разброс ошибки является константой и не зависит от значений переменной-предиктора.

3. Значения ошибки независимы одно от другого.

УЧЕБНАЯ ЦЕЛЬ 3

Объяснить утверждение теоремы Гаусса-Маркова об оценках параметров генеральной совокупности методом наименьших квадратов.

В соответствии с теоремой Гаусса-Маркова оценочные значения, определяемые по методу наименьших квадратов, являются наилучшими, линейными, несмещенными оценками истинных параметров генеральной совокупности вне зависимости от формы распределения члена, определяющего ошибку.

УЧЕБНАЯ ЦЕЛЬ 4

Определить стандартную ошибку оценки.

Стандартная ошибка оценки представляет собой абсолютную меру недостаточности приближения данных уравнением регрессии.

УЧЕБНАЯ ЦЕЛЬ 5

Специфицировать взаимосвязь, для измерения которой конструируется коэффициент корреляции.

Коэффициентом корреляции измеряется мера близости взаимосвязи между Y и Х к линейной.

УЧЕБНАЯ ЦЕЛЬ 6

Обсуждать различие между простым регрессионным анализом и множественным регрессионным анализом.

Основная идея, которая лежит в основе множественного регрессионного анализа, та же, что определяет задачу простой регрессии: Определить взаимосвязь между независимыми и зависимой переменными, т. е. предикторами и критерием. Однако в множественном регрессионном анализе для оценки единственной переменной-критерия используется несколько переменных-предикторов.

УЧЕБНАЯ ЦЕЛЬ 7

Объяснить, что понимается под мультиколлинеарностью в задаче множественной регрессии.

Если переменные-предикторы коррелируют между собой, это свидетельствует о существовании мультиколлинеарности в задаче множественного регрессионного анализа.

УЧЕБНАЯ ЦЕЛЬ 8

Дать описание ситуации, в которой используется коэффициент частной регрессии, и пояснить, что он означает.

Если переменные-предикторы не коррелируют между собой, каждый коэффициент частной регрессии показывает среднее изменение переменной-критерия на единицу изменения рассматриваемой переменной-предиктора при сохранении всех остальных переменных-предикторов постоянными.

УЧЕБНАЯ ЦЕЛЬ 9

Объяснить различие между коэффициентом множественной детерминации и коэффициентом частной детерминации.

Коэффициентом множественной детерминации измеряется доля вариации переменной-критерия, принимаемая в расчет или «объясняемая» всеми переменными-предикторами, а коэффициентом частной детерминации измеряется относительная степень, в которой данная переменная обеспечивает «прирост» информации о поведении переменной-критерии сверх сведений, обеспечиваемых другими переменными-предикторами.

УЧЕБНАЯ ЦЕЛЬ 10

Описать, каким образом фиктивные переменные и преобразование переменных расширяют сферу применения регрессионной модели.

Фиктивные, или двоичные, переменные позволяют вводить в уравнение регрессии классифицированные или номинально масштабируемые переменные, а преобразования переменных существенно расширяют сферу применения регрессионной модели, поскольку дают возможность рассматривать определенные нелинейные взаимосвязи.

Соседние файлы в папке Часть 6