
- •Редактирование
- •Кодирование
- •Табулирование
- •Представление табулированных данных
- •Возвращение к примеру
- •Описать виды информации, содержащейся в книге кодов.
- •Контрольные вопросы
- •Вопросы для обсуждения, проблемы и проекты
- •8. Местная телефонная компания желает определить демографические характеристики пользователей справочных служб. Менеджмент нуждается в вашей помощи в деле интерпретации следующих двух таблиц.
Табулирование
Табулирование заключается просто в подсчете количества событий, которые попадают в различные категории. Табулирование может принимать форму простой табуляции или перекрестной табуляции.
ПРОСТАЯ ТАБУЛЯЦИЯ
Подсчет количества событий, которое попадают в каждую категорию, когда категории базируются на одной переменной.
ПЕРЕКРЕСТНАЯ ТАБУЛЯЦИЯ
Подсчет количества событий, которые попадают в каждую из нескольких категорий, когда категории базируются на двух и более переменных, рассматриваемых одновременно.
Простая табуляция связана с подсчетом для единственной переменной. Она может повторяться для каждой из переменных исследования, но табуляция для каждой переменной не зависит от табуляции для других переменных. В перекрестной табуляции две или более переменных обрабатываются одновременно. Например, количество людей, которые покупают суп «Campbell’s» в магазине Krager, является примером перекрестной табуляции, поскольку речь идет об измерении двух связанных характеристик.
Табуляция может выполняться целиком от руки, целиком машиной или частично машиной и частично от руки. Какой из подходов более эффективен, зависит и от числа необходимых табуляций, и от количества событий в каждой табуляции. Число табуляций является прямой функцией количества переменных, тогда как количество событий — это прямая функция размера выборки. Чем меньшее число табуляций требуется и чем меньше выборка, тем более привлекательными становятся ручные методы. Однако привлекательность любого подхода также в значительной степени зависит от сложности табуляций. Сложность возрастает по мере увеличения числа переменных, получаемых для одновременной обработки в перекрестной табуляции. Сложность также возрастает с увеличением числа категорий на одну переменную.
Хотя в очень простых исследованиях ручная табуляция может оказаться полезной, особенно если вопросов немного и число возможных ответов ограничено, большинство исследований полагается на компьютерную табуляцию, использующую пакеты программ. Существует громадное количество таких программ. Некоторые из них, в дополнение к отчетности о количестве событий в каждой категории, могут рассчитывать итоговые статистики и графически представлять гистограммы значений. Базисный ввод для такого рода статистических анализов называется массивом данных, в котором перечисляются значения каждой переменной для каждого блока статистической выборки. Каждая переменная занимает особое место в записи для блока выборки, что упрощает доступ к ее значениям для всех событий. Местоположение каждой переменной определяется в книге кодов.
На вставке 19.1 представлен сокращенный вариант анкеты, которая отправлялась потребителям розничным торговцем спортивными товарами для определения их предпочтений при приобретении товаров по каталогу. Таблица 19.2 — это пример массива данных, который мог бы получиться в результате такого исследования. Таблица 19.3 — это книга кодов для исследований, в которой описывается, что содержится в каждой колонке. Следует обратить внимание, что каждому блоку, или наблюдению, выборки назначена только одна строка. Если количество информации, извлекаемой из каждого блока выборки, настолько велико, что она не умещается в одной строке, каждому наблюдению следует назначать дополнительные строки. Книга кодов по-прежнему должна указывать, где размещается информация по любой конкретной переменной.
Есть ряд важных вопросов, касающихся анализа данных, которые могут быть проиллюстрированы с использованием одномерных и перекрестных табуляций. Обратимся для этого к данным таблицы 19.4. Предположим, что они собраны для исследования, фокусом которого были владельцы легковых автомобилей. Допустим, в частности, что исследователей интересовали ответы на следующие вопросы.
• Какие характеристики отличают семьи, владеющие двумя или более машинами, от семей, владеющих одной машиной?
• Каковы отличительные характеристики тех, кто покупает многоместные легковые автомобили? Экономичные заграничные легковые автомобили? Фургоны?
• Существуют ли различия в характеристиках семей, которые финансировали свои автомобильные покупки, и тех, которые этого не делали? Пусть эти данные были получены с помощью почтового опроса по случайной выборке, и все 100 человек, которым анкета была направлена, дали ответы. Таким образом, проблем с неполучением ответов в данном исследовании нет.
ОДНОМЕРНАЯ ТАБУЛЯЦИЯ
В дополнение к организации связи результатов исследования, одномерная табуляция может использоваться в нескольких других целях: (1) для определения степени безответности позиций анкеты, (2) для локализации грубых ошибок (определяются позднее), (3) для локализации посторонних значений (определяются позднее), (4) для определения эмпирического распределения рассматриваемой переменной и (5) для расчета итоговых статистик. Первые три направления использования часто определяются как очистка данных.
Безответность позиций оказывается существенной проблемой в большинстве исследований. Определенный процент заполненных носителей результатов опроса неизменно страдает этим недостатком. По существу дела, степень безответности позиций зачастую служит полезным индикатором качества исследования. Когда она чрезмерна, сомнительным представляется исследование в целом и возникает необходимость критически пересмотреть его цели и методы. Даже когда безответность остается в определенных границах, руководителю исследования все же необходимо принять решение относительно того, что делать с утраченными позициями, еще до анализа данных. Возможно использование нескольких стратегий.
1. Оставить позиции пустыми и описать их количество как отдельную категорию. Хотя такой метод работает в случае простых одномерных и перекрестных табуляций, он недостаточно хорош для ряда других статистических приемов.
2. Исключать событие с утраченной позицией при анализе с использованием соответствующей переменной. При использовании такого подхода аналитик должен постоянно давать количество событий, на которых базируется анализ, поскольку размер выборки оказывается различным на протяжении анализа. Игнорируется также и тот факт, что степень безответности по какой-то конкретной позиции, возможно, показывает, насколько глубоко заботил респондентов адресовавшийся им вопрос.
3. Подставить значения утраченных позиций анкеты. Обычно такая подстановка должна иметь в своей основе такую меру срединной тенденции, как среднее, медиана или мода. В порядке альтернативного варианта аналитик иногда пытается оценить ответ с использованием другой информации, содержащейся в анкете. Подстановка значений обеспечивает максимальное использование данных, так как дает возможность не потерять вполне сносные анкеты. В то же время, этот подход требует от аналитика большего объема работы, и, кроме того, он несет в себе потенциальную опасность смещения результатов. Возникает также и вопрос о том, какой статистический метод необходимо использовать для генерирования оценки результата.
Таблица 19.3
Часть книги кодов для анкеты – спортивные товары
Колонка (и) |
Номер вопроса |
Переменная (номер переменной) |
Спецификация кодирования |
|
1-3 |
— |
Идентификационный номер анкеты (V1) |
— |
|
4 |
1 |
Процент продукции, приобретенной по каталогу (V2) |
1=0% 2 = 1-10 % 3= 11-15 % 4 = 16-20 % 5 = 21 % + |
|
5 |
2 |
Готовность приобретать товары из каталога Avery (спортивные товары) (V3) |
1 = Не готов вовсе 2 = Иногда готов 3 = Всегда готов |
|
6 |
3 |
Заказывались ли спортивные товары по каталогу Avery (V4) |
1 = Никогда не заказывал 2 = Заказывал прежде, но ни разу в прошлом году 3 = Заказывал в прошлом году
Спецификация кодирования 4(а) — 5(е) 1 = Вовсе не уверен 2 = Слабо уверен 3 = Более или менее уверен 4 = Уверен 5 = Вполне уверен |
|
7 |
4(а) |
Уверенность в покупке по каталогу спортивной одежды (V5) |
||
8 |
4(b) |
Уверенность в покупке по каталогу спортивной обуви (V6) |
||
9 |
4(с) |
Уверенность в покупке по каталогу рыболовных снастей (V7) |
||
10 |
4(d) |
Уверенность в покупке по каталогу мячей (V8) |
||
11 |
4(е) |
Уверенность в покупке по каталогу лыжного снаряжения (V9) |
||
12 |
5(a) |
Уверенность в покупке спортивной одежды в розничном магазине (V10) |
||
13 |
5(b) |
Уверенность в покупке спортивной обуви в розничном магазине (V11) |
||
14 |
5(с) |
Уверенность в покупке рыболовных снастей в розничном магазине (V12) |
||
15 |
5(d) |
Уверенность в покупке мячей в розничном магазине (V13) |
||
16 |
5(е) |
Уверенность в покупке лыжного снаряжения в розничном магазине (V14) |
Не существует «правильного» или простого ответа на вопрос о том, каким образом обрабатывать утраченные позиции. Все зависит от целей исследования, обстоятельств утраты информации и методов, которые используются для анализа данных.
ГРУБАЯ ОШИБКА
Ошибка, которая возникает при редактировании, кодировании, клавиатурном наборе или табулировании данных.
Как упоминалось выше, еще одна цель одномерной табуляции состоит в локализации грубых ошибок, которые представляют собой не что иное, как оплошности, допускаемые при кодировании, редактировании или вводе данных в компьютер. Рассмотрим одномерную табуляцию владения легковыми автомобилями на одну семью в таблице 19.5. Проверка исходной анкеты показывает, что семья, сообщившая о нахождении у нее в собственности девяти машин, на самом деле имеет только одну. Цифра 9 является грубой ошибкой. Простая одномерная табуляция позволила выявить эту ошибку и внести исправление на самой ранней стадии анализа при минимуме затруднений и затрат.
Количество событий, используемых в качестве базы для одномерной табуляции в таблице 19.5, равно 100, поэтому числовые входы легко преобразовать в проценты. В большинстве случаев это преобразование не будет настолько простым. Однако следует признать хорошей практикой всегда указывать в таблице проценты, поскольку это упрощает установление связи. Итак, более общепринятому способу процентного представления нашего автомобильного исследования, направленного на исправление грубых ошибок, соответствует таблица 19.6.
Следует обратить внимание, что проценты представлены без знаков после десятичной точки. В данном примере значения процентов изначально представляют собой целые числа, потому что размер выборки равен 100, но в большинстве случаев их следует округлять. Почти всегда должны использоваться целые числа, так как они проще читаются, а также по той причине, что дробные десятичные знаки процентов могут передавать уровень точности, который абсолютные цифры не поддерживают, особенно если выборка мала. Хотя в некоторых случаях аналитик может принять решение о представлении процентов с одним дробным десятичным знаком (редко двумя), общее правило представления процентов таково: если для применения дробных десятичных знаков нет причин, их следует опускать.
Иногда проценты проставляются в таблице в скобках (см. таблицу 19.7) непосредственно справа от фактического значения или под ним. В некоторых случаях представляются только проценты. Обязательным в подобной ситуации является общее число событий, на котором базируется процентное представление.
ПОСТОРОННЕЕ ЗНАЧЕНИЕ
Наблюдение, настолько отличающееся по величине от остальных наблюдений, что аналитик предпочитает обрабатывать его как особое событие.
Еще одно применение одномерной табуляции состоит в локализации посторонних значении, которые являются не ошибками, а скорее наблюдениями, которые настолько значительно отличаются от остальных наблюдений, что аналитик решает обрабатывать их как особые события. Это может означать исключение наблюдения из анализа или определение особых факторов, которые ответственны за это уникальное наблюдение. Например, если семья в нашем последнем примере действительно владеет девятью машинами, эта цифра должна рассматриваться как постороннее значение, поскольку в высшей степени необычно, что у семьи так много легковых автомобилей.
В качестве следующего случая рассмотрим табуляцию доходов, представленную в таблице 19.7, но на некоторое время оставим без внимания правую колонку. Эта табуляция показывает, что есть четыре семьи с доходами более 105 000 долларов, а в таблице 19.4 показано, что только одна семья имеет доход более 161 000 долларов, а именно под номером 1081 с доходом 304 200 долларов. Это значение явно отличается от строк остальной выборки и, вероятно, должно рассматриваться как постороннее значение. Что аналитик предпочтет делать с этим наблюдением, зависит от цели исследования. В данном случае нет разумных причин не допускать, что какая-то семья имеет такую сумму дохода, поэтому наблюдение следует в анализе оставить.
Четвертое направление использования одномерной табуляции частот состоит в определении эмпирического распределения рассматриваемой характеристики. Некоторые аналитики игнорируют распределение переменных и автоматически рассчитывают такие суммарные статистики, как среднее значение. Игнорирование распределения переменных может привести к серьезной ошибке. Рассмотрим событие появления такого нового товара, как соус.
В среднем покупатели желают, чтобы он не был ни по-настоящему острым, ни по-настоящему неострым. Средний рейтинг мнений участников теста был очень близок к середине шкалы оценок, располагавшейся между полярно противоположными определениями: «очень неострый» и «очень острый». В результате произошла фиксация среднего мнения клиентов.
Однако оценка распределения рейтингов обнаружила существование большой доли покупателей, которые желают, чтобы, соус был неострым, и в равной мере большой доли таких, которым хотелось, чтобы он был острым. На соус промежуточной остроты, производство которого было бы рекомендовано при взгляде на дело с одной только позиции среднего рейтинга, попало относительно небольшое число мнений у частников теста.
ГИСТОГРАММА
Форма столбчатой диаграммы, на которой значения переменной размещаются по оси абсцисс или оси X, а частота или относительная частота появления значений указывается по оси ординат или оси V.
Прежде чем приступать к любому анализу переменной, всегда неплохо разобраться в смысле ее распределения.
Часто распределение лучше всего представить наглядно с помощью гистограммы, представляющей собой определенную форму столбчатой диаграммы, в которой последовательные значения переменной размещаются по оси абсцисс или X, а частота или относительная частота появления значений указывается по оси ординат или оси V. Гистограмма данных о доходах из таблицы 19.7 представлена на рисунке 19.1, где доходы выше 105 000 долларов не показаны, поскольку их включение в диаграмму потребовало бы чрезмерного удлинения оси доходов. Прекрасно видно, что распределение доходов скошено вправо. Это фактическое распределение можно сравнить с подходящим теоретическим распределением, что позволит определить, соответствуют ли данные какой-то априори известной модели. Более глубокого проникновения в суть эмпирического распределения доходов можно добиться, построив полигон частот, который получается из гистограммы посредством соединения верхних точек столбцов прямыми линиями. На рисунке 19.1 полигон частот доходов просто наложен на гистограмму.
ПОЛИГОН ЧАСТОТ
Рисунок, получаемый из гистограммы посредством соединения верхних точек столбцов гистограммы прямыми линиями.
ФУНКЦИЯ НАКОПЛЕННОГО РАСПРЕДЕЛЕНИЯ
Функция, которая показывает число событий, имеющих значения меньше или равные специфицированной величине; эта функция генерируется посредством соединения точек, представляющих заданные комбинации Х (значений) и Y (накопленных частот), прямыми линиями.
Альтернативным способом проникновения в суть эмпирического распределения является построение эмпирической функции накопленных частот. И в данном случае источником необходимых данных является одномерная табуляция. Однако при этом подходе определяется число наблюдений со значениями меньше или равными специфицированной величине; т. е. генерируются накопленные частоты. Обратившись теперь к правой колонке таблицы 19.7, мы видим, что есть 8 семей с доходами менее 15 000 долларов, 33 семьи (8+25) с доходами 24 900 долларов или менее и 48 семей (8+25+15) с доходами 34 900 или менее долларов. На рисунке 19.3 эти накопленные частоты обозначены на оси ординат, а ось абсцисс снова является осью доходов. Эмпирическая функция накопленного распределения строится посредством соединения точек, представляющих заданные комбинации Х (значения) и Y (накопленной частоты), прямыми линиями.
Функция накопленного распределения может также использоваться для определения того, соответствует ли распределение наблюденных доходов подходящему теоретическому или предполагаемому распределению. Кроме того, она может использоваться для расчета некоторых широко используемых мер положения, таких как медиана, квартили и процентили. Эти характеристики могут просто считываться с графика, если ввести в него накопленные относительные частоты. В нашем случае накопленные относительные частоты равны накопленным абсолютным частотам, поделенным на 100, поскольку в выборке всего 100 событий.
По определению, медиана выборки — это значение, для которого 50% наблюденных значений лежат ниже, а 50% выше него. Чтобы считать медиану выборки с графика накопленного распределения, просто проведите горизонтальную линию от 0,50 на оси ординат, представляющей относительные частоты, до пересечения с графиком, а затем опустите вертикальную линию от точки пересечения на ось X. В рассматриваемом случае медиана выборки равна 35700 долларов. Степень приближения к точному значению можно про верить, рассчитав медиану с использованием детальных данных.
Точно таким же образом можно определить квартили выборки. Первый квартиль выборки (также известный как 25% процентиль) есть значение, для которого 25% наблюдений находятся ниже него. Первый квартиль выборки определяется прочерчиванием горизонтальной линии от точки 0,25 на оси ординат, где откладываются относительные частоты, до пересечения с графиком и опусканием вертикальной линии от точки пересечения на горизонтальную ось. Значение первого квартиля считывается в точке пересечения с осью X. В нашем примере первый квартиль равен 17300 долларам. Процедура определения третьего квартиля (75% процентиля) или любого процентиля принципиально не отличается от использованной для установления медианы и первого квартиля. Единственным различием будет то, какая точка начала горизонтальной линии на оси ординат будет рассматриваться.
Одномерная табуляция полезна также для расчета других итоговых мер, таких как мода, среднее значение и стандартное отклонение. Мода, или наиболее часто происходящее событие, может быть определена непосредственно по одномерной табуляции. Так, таблица 19.6 показывает, что большинство семей владеет одним автомобилем.
Среднее значение, или «средний» ответ, может быть рассчитано с помощью одномерной табуляции посредством взвешивания каждого значения по частоте его появления, суммирования этих произведений и деления суммы на число событий. Следовательно, среднее количество автомобилей во владении семьи, задаваемое данными таблицы 19.6, будет оцениваться следующим образом:
-
Значение
Частота
Значение х частоту
1
75
75
2
23
46
3
2
6
100
127
Это дает 127/100 = 1,27 автомобиля во владении одной семьи.
Стандартное отклонение определяет меру разброса данных. Оно рассчитывается по одномерной табуляции посредством расчета отклонения каждого значения от среднего и возведения в квадрат этих отклонений. Затем квадраты отклонений умножаются на соответствующие значениям частоты, произведения суммируются, а их сумма делится на число событий, уменьшенное на единицу, что дает рассеяние выборки. Квадратный корень из рассеяния выборки называется ее стандартным отклонением. Расчет стандартного отклонения оказывается, таким образом, очень похожим на расчет для негруппированных данных, за исключением того обстоятельства, что каждое значение взвешивается по частоте, с которой оно наблюдается. Итак, стандартное отклонение для данных таблицы 19.7 рассчитывается следующим образом:
-
Значение
Значение--среднее
(Значение--среднее)2
Частота
Частота х разность квадратов
1
-0,27
0,0729
75
5,4675
2
0.73
0,5329
23
12,2567
3
1,73
2,9929
2
5,9858
23,7100
Это дает рассеяние 23,7100/99 = 0,2395 и стандартное отклонение, равное
Использование одномерной табуляции в качестве средства связи результатов обсуждаться не будет. Читателю достаточно лишь заглянуть в таблицу 19.4, чтобы увидеть, как много требуется усилий, чтобы с ее помощью проникнуть в суть изменений доходов по собранным данным, а затем сравнить с тем, что можно почерпнуть в результате одномерной табуляции, представленной в таблице 19.7. Принимая во внимание то, что одномерная табуляция служит еще и базой исходных данных для построения гистограммы", полигона частот, эмпирической функции накопленного распределения и расчета итоговых статистик, поистине трудно представить себе аналитика, который не станет уделять время разработке одномерных табуляций и не прибегнет к графическому представлению переменных исследования.
ПЕРЕКРЕСТНАЯ ТАБУЛЯЦИЯ
Тогда как одномерная табуляция полезна для оценки переменных исследований по отдельности, перекрестная табуляция является наиболее важным механизмом для изучения связей внутри* между переменными. В перекрестной табуляции выборка делится на подгруппы таким образом, чтобы выяснить, каким образом зависимые переменные изменяются от подгруппы к подгруппе. Несомненно, это наиболее широко используемый прием анализа данных в маркетинговых исследованиях. Некоторые называют его хлебом и маслом прикладных исследований. Многие маркетинговые исследования не идут дальше перекрестной табуляции, и, более того, большинство исследований, использующих преимущества более сложных аналитических методов, тоже включают в себя перекрестную табуляцию в качестве важной составляющей. Таким образом, и аналитикам, и лицам, которым приходится принимать решения, необходимо понимать, каким образом разрабатываются и интерпретируются перекрестные табуляции.
Рассмотрим вопрос взаимосвязи, если таковая есть, между числом легковых автомобилей, которыми владеет семья, и семейным доходом. Чтобы сохранить выборку этого примера, предположим, что аналитик просто интересуется определением того, более ли вероятно, что семья с доходом выше среднего владеет двумя и более машинами, чем семья, доход которой ниже среднего. Предположим далее, что 37 500 доллара — это медиана доходов всей совокупности, и что эту цифру правомерно использовать для разделения семей выборки на две группы — группу, имеющую доходы ниже среднего, и группу, в которой они выше среднего.
Таблица 19.8 представляет двумерную классификацию семей выборки по доходу и числу легковых автомобилей. Рассматривая суммы этих крайних градаций, мы видим, что 75 семей владеют не более чем одной машиной, а у 25 семей две машины и больше. Мы также видим, что выборка прекрасно представляет генеральную совокупность, по крайней мере в том, что касается доходов, — 54 семьи попали в группу доходов ниже среднего, для отделения которой использован доход 37 500 долларов.
Зависит ли количество машин от семейного дохода? Судя по цифрам таблицы 19.8, это не вызывает сомнения, поскольку 19 семей, владеющих двумя и более легковыми автомобилями, находятся в группе более высоких доходов. Есть что-то такое, что могло бы пролить дополнительный свет на эту взаимосвязь? Ответ положительный. Рассчитайте проценты. Математически таблицы 19.9 и 19.10 эквивалентны таблице 19.8, но базируются на процентах, рассчитанных в разных направлениях: в таблице 19.9 — по горизонтали, а в таблице 19.10 — по вертикали. Эти таблицы содержат совершенно разные сведения. Цифры таблицы 19.9 свидетельствуют, что семейный доход оказывает влияние на обладание более чем одной машиной: 41% семей с доходами выше среднего имеют два и более легковых автомобиля, тогда как только 11% семей с доходами ниже среднего смогли позволить себе то же самое. Это совершенно недвусмысленный результат. С другой стороны, таблица 19.10 рассказывает совсем другую историю. Ее цифры утверждают, что 64% семей, владеющих одной машиной, имеют доходы ниже среднего, а из владеющих двумя и более машинами только 24% попадают в группу доходов ниже среднего. Означает ли это, что владение несколькими машинами прокладывает дорогу к более высоким доходам? Конечно же, нет. Это всего лишь иллюстрация фундаментального правила процентных расчетов: всегда рассчитывайте проценты в поправлении причинного фактора либо поперек, результирующего фактора. В данном случае доход логично принимать за причинную, или независимую, переменную, а владение более чем одним легковым автомобилем — подвергающейся воздействию, или зависимой, переменной. Следовательно, правильный расчет процентов должен выполняться в направлении дохода, как в таблице 19.9.
УСЛОВНАЯ ВЕРОЯТНОСТЬ
Вероятность, которая назначается событию А, когда известно, что произошло событие В, или вероятность, которая могла бы быть назначена событию А, если бы было известно, что произойдет событие В.
Один очень полезный способ определения направления, в котором следует рассчитывать проценты, состоит в том, чтобы разобраться в этой проблеме в терминах условных вероятностей, или вероятности события, возникновение которого задается тем, что уже произошло или произойдет другое событие. Так, мнение, что возможность семьи владеть двумя или более машинами задана тем, что она имеет высокий доход, не лишено смысла. Однако вряд ли имеет смысл мнение, будто возможность иметь более высокий доход задана тем, что семья владеет двумя или более легковыми автомобилями.
Хотя двумерная перекрестная табуляция и обеспечивает некоторое проникновение в суть зависимой взаимосвязи, она не дает окончательного ответа. Скорее, она представляет собой лишь начало такого проникновения. Рассмотрим взаимосвязь между владением более чем одной машиной и размером семьи. Таблица 19.11 показывает численность малых и больших (5 и более членов) семей, которые владеют двумя или более легковыми автомобилями. Совершенно логично, что аналитики должны рассматривать размер семьи в качестве причины владения более чем одной машиной, а не наоборот. Итак, проценты, вероятно, должны рассчитываться в направлении размера семьи или поперек количества машин. Эти проценты представлены в таблице 19.12 и показывают, что на количество машин, находящихся во владении семьи, оказывает влияние ее размер: 77% больших семей имеют две и более машины, а среди малочисленных семей таким количеством автомобилей обладают только 10%.
Этот результат поднимает вопрос, действительно ли владение не одной машиной зависит от размера семьи или, как получалось ранее, от ее дохода? Правильный подход к ответу на этот вопрос состоит в одновременной обработке дохода и размера семьи. Для этого таблицу двумерной перекрестной классификации необходимо разделить на доли и сформировать трехмерную таблицу дохода, размера семьи и владения не одним автомобилем. Один из способов того, как это делается, иллюстрирует таблица 19.13. В определенном смысле она представляет собой как бы две таблицы перекрестной классификации владения не одним автомобилем по отношению к доходу: одну для малых семей из четырех и менее членов и одну для больших семей из пяти и более человек.
Мы снова должны отдать предпочтение вычислению процентов в направлении дохода в пределах каждой таблицы. Они представлены в таблице 19.14и показывают, что владение более чем одним автомобилем зависит и от дохода, и от размера семьи. 19% группы малых семей из четырех и менее человек с доходами выше среднего владеют двумя или более машинами, однако только 4% семей того же размера с доходами ниже среднего имеют более одного легкового автомобиля. 93% больших семей, доход которых выше среднего, и 50% таких же семей с доходами ниже среднего владеют более чем одним транспортным средством.
Предыдущие сравнения проливают свет на влияние дохода на владение несколькими легковыми автомобилями, когда размер семьи остается постоянным. Мы также должны сравнить влияние размера семьи на владение несколькими машинами при постоянном доходе. По-прежнему видно, что каждый из подходов дает частичное объяснение владения более чем одним автомобилем. Вероятно, вы ощутили некоторое неудобство представления данных в таблицах 19.13 и 19.14. Содержащаяся в них информация выглядит несколько размытой, но вам, наверное, приходит в голову вопрос, нельзя ли представить ее таким образом, чтобы суть взаимосвязи проявилась более отчетливо. Это возможно, если вы идете на принятие определенных действии, очищающих представление кое от чего лишнего. Присмотритесь, в частности, к воспроизведению первой строки первого раздела таблицы 19.14 в таблице 19.15. По существу, вся информация, содержащаяся в этой таблице, сведена к одной единственной цифре, 4%. Это процент малых семей с доходами ниже среднего, владеющих двумя или более легковыми автомобилями. Из этого следует, что дополнительный процент, 96%, представляет те семьи, во владении которых есть только одна машина или нет ни одной.
В таблице 19.16 показаны остальные данные таблицы 19.14, обработанные таким же образом. Входом в каждом случае является процент семей соответствующей категории, во владении которых имеется два и более автомобилей. Таблица 19.16 дает ту же информацию, что и таблица 19.14, но содержащиеся в ней цифры более наглядны. Отдельное влияние дохода на владение несколькими автомобилями при постоянном размере семьи прочитывается по колонкам сверху вниз, а эффект размера семьи при постоянном доходе можно определить, считывая цифры по строкам. Преднамеренный пропуск дополнительных процентов помогает выявить структуру данных. По этой причине, при дальнейшем изложении материала мы будем использовать такую форму представления данных всякий раз, когда возникнет необходимость попытаться определить влияние нескольких исследуемых переменных, рассматриваемых одновременно.
ПОЛНАЯ СВЯЗЬ
Связь, существующая между переменными вне зависимости от уровней любых других переменных; также называемая связью нулевого порядка между переменными.
УСЛОВНАЯ СВЯЗЬ
Связь, существующая между двумя переменными, когда в процессе анализа рассматриваются уровни одной или более других переменных; другие переменные также называются условными переменными.
Исходная связь между количеством легковых автомобилей и доходом семьи, отраженная в таблице 19.9, называется полной (или нулевого порядка) связью между переменными. Таблица 19.16, которая дает картину связи между двумя переменными в пределах категорий размера семьи, называется условной таблицей, позволяющей обнаружить условную связь между переменными. Размер семьи здесь является регулируемой переменной. Условные таблицы, построенные на основе одной регулируемой переменной, называются условными таблицами первого порядка; таблицы, составленные с использованием двух регулируемых переменных, называются условными таблицами второго порядка и т. д.
Какая переменная оказывает большее влияние на владение несколькими автомобилями: доход или размер семьи? Полезный метод поиска ответа на этот вопрос состоит в расчете разности долей как функции уровня переменной. Это может быть сделано как для таблиц нулевого порядка, так и для условных таблиц более высокого порядка. Снова рассмотрим таблицу 19.9, концентрируя внимание на влиянии дохода на вероятность того, что семья владеет несколькими легковыми автомобилями. Доля семей с низкими доходами, которые имеют две и более машины, равна 0,11, тогда как аналогичная доля семей с высокими доходами составляет 0,41. Вероятность владения несколькими легковыми автомобилями явно разная при разных доходах семьи; в частности, более высокий уровень дохода повышает вероятность владения двумя или более машинами на 0,30 (0,41-0,11) по сравнению с низким уровнем доходов. Применение подобного анализа к данным таблицы 19.12 показывает, что вероятность владения несколькими автомобилями оказывается разной для разного размера семьи. Тогда как доля малых семей, владеющих несколькими машинами, составляет 0,11, среди многочисленных семей она равна 0,77. Таким образом, с ростом размера семьи вероятность владения двумя или более машинами увеличивается на 0,67 (0,77-0,11) по сравнению с небольшими семьями.
Для определения того, доход или размер семьи имеет наибольшее влияние, необходимо рассмотреть их одновременно, используя похожий анализ. Данные, необходимые для такого анализа, содержатся в таблице 19.16. Сначала рассмотрим влияние дохода. Правомерный способ установления влияния дохода состоит в сохранении в процессе анализа размера семьи постоянным, что, по существу, равнозначно исследованию взаимосвязи между доходом и владением несколькими машинами для малых семей, а затем еще раз для больших семей. Среди малых семей более высокий доход увеличивает вероятность владения несколькими автомобилями на 0,15 (0,19-0,04). Среди больших семей повышение вероятности владения несколькими автомобилями с ростом дохода составляет 0,43 (0,93-0,50). Эти разности и являются мерами связи между доходом и владением несколькими автомобилями для семей разных размеров. Это означает, что имеет место статистическое взаимодействие между независимыми переменными, поэтому, чтобы получить единственную оценку влияния дохода на владение несколькими легковыми автомобилями, необходимо рассчитать некоего рода среднее отдельных эффектов. Подходящим средним значением является взвешенное среднее, принимающее в расчет размеры той и другой групп выборки, на которых рассчитывались эти отдельные эффекты. Наша выборка объемом 100 семей состояла из 78 малых и 22 больших семей; следовательно, весовой коэффициент для малых семей следует принять равным 0,78, а для больших семей 0,22. Таким образом, средневзвешенное значение рассчитывается как:
0,15(0,78)+0,43(0,22) =0,21,
и это свидетельствует о том, что переход из разряда низких доходов в разряд высоких в среднем повышает вероятность владения несколькими автомобилями на 0,21.
Чтобы исследовать влияние размера семьи, необходимо или фиксировать доход, или, как альтернативный вариант, исследовать влияние размера семьи на владение несколькими автомобилями для семей с низкими доходами, повторить то же самое для семей с более высоким уровнем доходов, после чего вычислить средневзвешенное этих двух результатов, если они окажутся неодинаковыми. Среди семей с низкими доходами их большой размер повышает вероятность владения несколькими автомобилями на 0,46 (0.50 — 0,04) по сравнению с семьями малого размера. Среди семей с высокими доходами их большой размер повышает ту же вероятность на 0,74 (0,93-0,19) по сравнению с малочисленными семьями. Поскольку семей с низкими доходами в выборке было 54, а высокодоходных семей — 46, соответствующие веса для осреднения двух влияний равны 0,54 и 0,46 соответственно. Расчет дает в качестве оценки воздействия размера семьи на владение несколькими автомобилями:
0,46 (0,54)+0,74(0,46) =0,59.
Таким образом, размер семьи обладает более существенным влиянием на владение не одним автомобилем, чем доход. Он повышает вероятность владения двумя и более автомобилями на 0,59, тогда как доход увеличивает ее только на 0, 21.
Предыдущий пример проливает свет на важное приложение перекрестной табуляции — использование дополнительной переменной для очистки исходной перекрестной табуляции. В данном случае для очистки взаимосвязи между владением несколькими автомобилями и доходом был использован размер семьи. Это только одно из многих приложений последовательной перекрестной табуляции переменных, однако в действительности возможно появление ряда условий, при которых может возникнуть необходимость введения в перекрестную табуляцию дополнительных переменных, назначение которых показано в разных рубриках таблицы 19.17. Исходная двумерная табуляция может указывать на существование или несуществование взаимосвязи между переменными. Введение третьей переменной может либо оставить сделанное заключение неизменным, либо изменить его.
Рубрика I: исходная взаимосвязь видоизменяется с введением третьей переменной. Теперь, когда в процессе предыдущего обсуждения мы рассмотрели рубрику I-А («Очищающее объяснение»), обратимся к анализу альтернативных условий. Рассмотрим рубрику I-В («Обнаружение ложного объяснения»). Одна из целей исследования владения автомобилями состояла в том, чтобы определить отличительные черты семей, которые приобретают автомобили особого типа. Рассмотрим фургоны. Ожидалось, что владение фургоном должно быть связано со стилем жизни и, в частности, что тот, кто отличается либеральной ориентацией поведения, должен быть владельцем фургонов с большей вероятностью, чем тот, кто по своей природе консервативен. Для проверки этой гипотезы была сконструирована таблица 19.18, для чего были использованы сырые данных о владении автомобилями из таблицы 19.4. Вопреки ожиданию, консервативные люди выглядят более склонными владеть фургонами, чем люди либеральной ориентации; 24 % консерваторов и только 16% либералов из состава нашей выборки оказались владельцами фургонов.
Есть ли какое-то логическое объяснение этому неожиданному открытию? Чтобы проанализировать этот результат, рассмотрим в дополнение третью переменную, а именно — регион страны, в котором проживает семья. Четкость в картину взаимосвязи между тремя переменными, рассматриваемыми одновременно, может быть внесена посредством использования достигнутой нами ранее договоренности, т. е. просто добавлением процентов в каждую категорию. В этом случае дополнение, определяемое как разность между 100% и соответствующим процентом ячейки таблицы, будет определять долю тех, кто не владеет фургонами.
Как показывает таблица 19.19, владение фургоном никак не связано со стилем жизни. Оно, скорее, зависит от региона страны, в котором проживает семья. Когда регион остается постоянным, различие во владении фургонами между либералами и консерваторами не прослеживается. Семьи, живущие на Юге, много более вероятно владеют фургонами, чем семьи, которые живут в северных штатах. Просто так уж получилось, что жители южных штатов консервативнее в отношении стиля жизни, чем северяне. Поэтому исходная взаимосвязь должна быть признана ложной.
Несмотря на то что вычисление разности пропорций для определения влияния каждой переменной на каждое упомянутое в таблице 19.17 потенциальное условие выглядит непродуктивным, в данном случае сделать это представляется полезным просто для демонстрации того, что понимается пол главным эффектом без статистических погрешностей. Этот пример также полезен с точки зрения подкрепления соображений о том, каким образом расчеты разностей долей могут использоваться для изолирования причинных взаимосвязей, которые существуют между данными в перекрестных табуляциях. Сначала рассмотрим связь нулевого порядка между владением фургонами и стилем жизни, содержащуюся в таблице 19.18. Принадлежность к консерваторам повышает вероятность владения фургоном на 0,08 (0,24-0,16) по сравнению с принадлежностью к либералам. И все же таблица 19.19 показывает, что заключение о наличии такого влияния ложно и проявляется только благодаря присутствию в качестве переменной региона страны, подтверждением чего является его исчезновение, когда регион остается постоянным. Среди тех, кто живет на Севере, долевая связь между владением фургоном и стилем жизни составляет 0,00(0,05-0,05). Среди тех, кто живет на Юге, остается слабое повышение вероятности того, что консерваторы более склонны к владению фургонами, а именно, 0,02 (0,43-0,41). Однако этот эффект настолько мал, что его вполне разумно отнести на счет ошибки округления, возникающей, в частности, по той причине, что доли приводились только с двумя дробными десятичными знаками, тогда как число событий недостаточно велико. Вне зависимости от региона страны, в котором проживают семьи, их либеральная или консервативная ориентация не влияет на то, владеют они фургонами или нет.
Следует отметить и обратное: влияние региона проявляется явно, зримо и неизменно. Среди либеральных семей, живущих на Юге, повышение вероятности владения фургоном составляет 0,36 (0,41-0,05) по сравнению с семьями, проживающими на Севере. Среди консервативных семей, живущих на Юге, эта вероятность повышается на 0, 38 (0,43-0,05) по сравнению с северянами. В пределах ошибки округления это влияние одинаково для семей с той и другой ориентацией философии стиля жизни, а это означает, что никакого взаимодействия между этими двумя заранее определенными переменными нет. Скорее всего, существует только главный эффект влияния региона на владение фургоном, а наилучшую оценку его величины дают либо приведенные оценки, либо их средневзвешенное.
Рассмотрим теперь вопрос владения экономичными зарубежными легковыми машинами (рубрика I-С, «Обеспечены ограничивающие условия»). Зависит владение таким автомобилем от размера семьи? Таблица 19.20 утверждает, что да. Меньшие по размеру семьи менее вероятно владеют экономичными зарубежными машинами, чем более многочисленные семьи! Такими легковыми автомобилями владеет только 8% малых семей, но среди больших семей их целых 27%. Это интересная взаимосвязь, потому что она идет вразрез с тем, что мы интуитивно ожидали обнаружить. Можно ли проверить эту связь расчетами?
Попытаемся расширить эту перекрестную классификацию добавлением переменной количества автомобилей в семейном владении. Таблица 19.21 представляет процентные данные, которые показывают, что экономичный зарубежный автомобиль есть у больших семей только когда они владеют двумя или более автомобилями. Ни одна большая семья с единственной машиной такой легковой машиной не владеет. Введение этой третьей переменной обнаруживает условие, которое ограничивает владение экономичной зарубежной легковой машиной, а именно, нахождение в собственности нескольких легковых автомобилей, причем выявляется это условие тогда, когда во внимание принимаются большие семьи.
Рубрика II: исходное заключение о взаимосвязи сохраняется. Обратимся теперь к анализу владения многоместными легковыми автомобилями, базируясь на данных таблицы 19.4. Во-первых, оно, похоже, должно быть связано с размером семьи. Следует полагать, что чем больше семья, тем в большей мере ей нужна многоместная легковая машина, чем семье меньшего размера.
Перекрестная табуляция этих двух переменных в таблице 19.22 свидетельствует, что семьи большего размера действительно более вероятно владеют многоместными легковыми автомобилями: 68% больших семей и только 4% малых семей.
Однако рассмотрим, не может ли также доход иметь влияние на владение многоместным автомобилем? Как показывает таблица 19.23, доход имеет некоторое влияние, но ему далеко до влияния размера семьи. При переходе от малой семьи к большой происходит существенное повышение вероятности владения многоместной легковой машиной. Однако этот переход применительно к семьям с высокими доходами показывает еще большее повышение вероятности. В качестве альтернативного варианта можно сосредоточить внимание только на больших семьях, и тогда становится очевидным, что повышение вероятности владения многоместным автомобилем происходит в направлении от группы ниже среднего к группе выше среднего дохода. Исходное заключение, таким образом, сохраняется: большие семьи отражают более высокое стремление к приобретению многоместным автомобилей. Более того, эффект размера семьи на владение многоместным автомобилем много больше, чем эффект дохода.
Рубрика III: взаимосвязь устанавливается с введением третьей переменной. Предположим, что одна из целей исследования состоит в определении характеристик семей, которые финансировали приобретение своих автомобилей. Рассмотрим перекрестную табуляцию задолженности по ссуде рассрочки платежа по отношению к уровню образования главы семьи. Результат представлен в таблице 19.24 при классификации семей, включенных в таблицу 19.4, по одной из двух образовательных категорий, а именно с образованием не выше средней школы и какой-то продолжительностью обучения в колледже. Как явствует из данных этой таблицы, нет никакой взаимосвязи между уровнем образования и задолженностью по ссудам с рассрочкой платежа. В каждом случае процент семей с просроченной ссудой за автомобиль составляет 30%.
Таблица 19.25 иллюстрирует ту же ситуацию, когда в анализе также рассматриваются доходы. Для доходов ниже среднего вероятность задолженности по ссудам с рассрочкой платежа с повышением уровня образования снижается. В первоначальном варианте анализа влияние образования не проявлялось, поскольку одно исключает другое. Когда рассматриваются и доходы, взаимосвязь задолженности по ссудам с рассрочкой платежа и образование совершенно очевидна.
Рубрика IV: с добавлением третьей переменной заключение об отсутствии связи сохраняется. Рассмотрим еще раз вопрос владения многоместными автомобилями. Мы ранее видели, что оно связано с размером семьи. На минуту забудем этот результат и начнем анализ с вопроса: подвержено ли владение многоместным автомобилем влиянию региона страны, в котором проживает семья? Таблица 19.26 дает первичный исходный ответ. Владение многоместными автомобилями не зависит от региона: многоместными машинами владеют 18% семей выборки, живущих как на Севере, так и на Юге.
Теперь рассмотрим ту же взаимосвязь, когда во внимание снова принимается размер семьи. Данные представлены в таблице 19.27. И на этот раз проценты по регионам постоянны. Есть отклонения вторичного рода, но их причина определяется погрешностью округления. Малые семьи демонстрируют невысокую склонность к приобретению многоместных автомобилей, вне зависимости от того, живут они на Севере или на Юге. Большим семьям свойственна высокая склонность, но и для них она не зависит от того, где семья проживает. Первоначально установленное отсутствие взаимосвязи между владением многоместными автомобилями и регионом проживания подтверждается и после добавления третьей переменной — размера семьи.
Итоговые комментарии по перекрестной табуляции. Представленные выше примеры были призваны подтвердить громадную пользу перекрестной табуляции как инструмента анализа. Мы видели ее приложения, в которых третья переменная (1) помогала обнаружить взаимосвязь, которая первоначально не обнаруживалась, и (2) позволяла изменить заключение, полученное на основе классификации только двух переменных. Возможно, вы сделали паузу, чтобы спросить себя: зачем останавливаться на трех переменных? Не изменится ли заключение с добавлением четвертой переменной? Пятой? Это действительно возможно. Проблема состоит в том, что нет способа узнать наверняка, когда прекращать введение новых переменных. Всегда можно подозревать, что заключение изменится, если ввести «правильную» переменную или несколько «правильных» переменных.
Например, в настоящее время существует заметное беспокойство по поводу исчезновения среднего класса и того, чем это чревато для Соединенных Штатов как экономически, так и социально. В окне 19.1 эта проблема обсуждается с учетом таких факторов, как возраст и брачное состояние членов общества.
Итак, аналитик всегда «подразумевает», что существует какая-то взаимосвязь. Последующие исследования могут показать, что его предположение было некорректным. Вот почему накопление результатов многих исследований, а не единственное изыскание, призванное подтвердить какую-то конкретную взаимосвязь, так жизненно важно для продвижения по пути обретения знании.
Таблица 19.28 представляет собой обзор дилеммы, перед лицом которой оказывается исследователь. Истинная ситуация всегда неизвестна. Если бы она была известна заранее, в исследованиях просто не было бы необходимости. Именно поэтому исследователь всегда находится в положении человека, которому приходится делать заявления в условиях неизвестности истинной ситуации. Аналитик может прийти к заключению, что взаимосвязи нет, или что какая-то взаимосвязь между двумя или более переменными существует, когда на самом деле ее нет. Только одна из четырех возможностей, описанных в таблице 19.28, обязательно корреспондирует с правильным заключением, а именно, когда аналитик делает заключение, что взаимосвязи нет, и ее действительно нет. Две другие возможности обязательно некорректны, а четвертая несет в себе возможность ошибки. То есть, предполагается, что истинная ситуация состоит в том, что между переменными или среди них существует некоторая взаимосвязь. Заключение аналитика оказывается корректным лишь в том случае, если он в дальнейшем обнаруживает надлежащую форму этой взаимосвязи.
Ложная некоррелированность означает, что аналитик пришел к заключению об отсутствии взаимосвязи, когда на самом деле она существует. Ложная коррелированность возникает, когда взаимосвязи между переменными нет, но аналитик сделал заключение о ее существовании.
Возможность ошибки велика. Следовательно, есть соблазн продолжать добавление переменных для анализа до бесконечности. К счастью, и теория и данные будут препятствовать росту озабоченности или чрезмерного честолюбия, толкающего аналитика на этот путь. Ограничения теории состоят в том, что определенного типа табуляции просто бессмысленны. Что же касается данных, то в основе создаваемых ими преград на пути бесконечных перекрестных табуляций лежит несколько причин. Во-первых, следует заметить, что для аналитика будет желательным последовательное добавление переменных, включаемых в анализ, в форме все более высокой размерности таблиц перекрестной классификации. Такой подход возможен только если аналитик правильно предвидел желательные табуляции. Это важнее всего. Если анализ начался, уже поздно говорить: «Ах, если бы мы собрали информацию по переменной X!» Предполагаемые взаимосвязи, подлежащие изучению, следовательно, и перекрестные табуляции, которые необходимо предвидеть, надо установить до сбора данных. Подготовленные незаполненные таблицы должны быть доведены до их окончательного вида во всех отношениях, за исключением данных о количестве наблюдений, попадающих в каждую ячейку. Как показывает практика, обычно невозможно предугадать все перекрестные табуляции, которые окажутся желательными в процессе анализа. Тем не менее тщательная проработка перечня и формата этих таблиц еще во время постановки задачи исследования может обернуться существенными выгодами.
Аналитик также вынужден ограничивать размер выборки. В нашем примере со 100 наблюдениями составление двумерных таблиц не представляло никаких особых затруднений. Однако, как только мы вводили третью переменную, количество наблюдений, попадавших в ячейки, становилось крайне малым. Этому не могло помешать и наше стремление обрабатывать все переменные как дихотомии, т. е. посредством их последовательного деления на две части.
По доходам семьи распределялись как имеющие его ниже либо выше среднего; они делились только на малые и большие; принималось, что люди проживают либо на Севере, либо на Юге, и т. д. Мы делали это целенаправленно, стремясь упростить представление. Тем не менее даже трехмерная табуляция требовала восьми ячеек (2х2х2) для размещения наблюдений. В предположении о равномерности распределения событии по ячейкам на каждую из них приходилось всего по 12,5 событий. Этого количества наблюдений, несомненно, мало для какого бы то ни было заключения.
Проблема, конечно, была бы еще более сложной, если бы количество используемых уровней любой переменной было больше двух. Рассмотрим, какая могла возникнуть картина, раздели мы семьи на четыре группы доходов, а не на две, и приняв более двух уровней для пары других переменных, если знаем, что количество требуемых ячеек определяется произведением числа уровней на число подлежащих рассмотрению переменных. Например, четыре уровня доходов, три уровня образования и четыре уровня размера семьи вылились бы в построение таблицы перекрестной табуляции с 48 отдельными ячейками (4х3х4). Для подтверждения предполагаемых взаимосвязей потребовалась бы более солидная выборка, чем принятые нами 100 событий.