
Распределение по выбору пищи.
Вид пищи |
Процентные распределения |
Первое (суп, бульон). |
45 % |
Мясные и рыбные блюда |
62% |
Гарнир (картофель, гречка, макароны) |
50% |
Салаты |
42% |
Сладкое (шоколад, пирожные, торты) |
36% |
Молочная продукция (йогурт, мусс, творог с фруктами). |
12% |
Нас интересует гендерный аспект потребления пищи. Мы разбиваем весь массив данных на 2 подгруппы: девушки и юноши – это и будет перекрестным табулированием. В итоге у нас получается:
Таблица 4.5.
Гендерный аспект потребления пищи.
Вид пищи |
Девушки (процент от общего числа наблюдений) |
Юноши (процент от общего числа наблюдений) |
Общий показатель |
Первое (суп, бульон). |
20% |
70% |
45 % |
Мясные и рыбные блюда |
53% |
69% |
61% |
Гарнир (картофель, гречка, макароны) |
40% |
60% |
50% |
Салаты |
62% |
22% |
42% |
Сладкое (шоколад, пирожные, торты) |
52 % |
20% |
36% |
Молочная продукция (йогурт, мусс, творог с фруктами). |
20% |
4% |
12% |
Таким образом, мы можем наглядно увидеть гендерные различия, проявляющиеся в выборе пищи. По такой же схеме мы можем выявить различия между факультетами, группами, возрастными категориями, людьми с разным уровнем дохода и т.д.
Меры центральной тенденции.
Для анализа большого массива данных мы используем такие показатели центральной тенденции, как среднеарифметическое, мода и медиана.
Мода – это наиболее часто встречающееся значение. Предположим, мы измерили рост 10 студентов и получили следующие показатели:
180 см, 172 см, 190 см, 179 см, 191 см, 166 см, 172см, 183 см, 179 см, 172 см.
Модой в данном случае будет показатель «172 см», который встречается чаще других.
Следующий показатель – это медиана. Медиана – это такое значение, которое делит множество данных пополам, в итоге 50% случаев меньше медианы, 50% - больше. Для определения медианы нужно упорядочить данные (соответственно, показатель не подходит для номинальных данных). Итак, расположим показатели роста студентов из предыдущего примера по порядку.
166 см, 172 см, 172 см, 172 см, 179 см, 179 см, 180 см, 183 см, 190 см, 191 см.
Поскольку количество случаев – четное (10), то медианным значением будет среднее между 5 и 6 (серединные значения) – 179 см.
Теперь мы рассчитываем среднеарифметический показатель роста студентов.
Для этого нужно сложить все показатели и разделить на число наблюдений. Средний рост, таким образом, составил 178,4 см.
Соотношение показателей моды, медианы и среднеарифметического зависит от симметричности распределения. При унимодальном симметричном распределении эти показатели будут равны между собой.
Как выглядят среднеарифметические показатели в массовом опросе? Предположим, мы изучали оценки состояния общежитий студентами ТУСУРа. Мы предлагали студентам ответить на вопрос:
Таблица 4.6.
Ответ на вопрос о санитарном состоянии.
Оцените, пожалуйста, по 5-балльной шкале (5 – очень хорошо, 1 – очень плохо, 6 – затрудняюсь ответить) санитарное состояние:
4. кубовых |
1 |
2 |
3 |
4 |
5 |
6 |
5. умывальников |
1 |
2 |
3 |
4 |
5 |
6 |
6. туалетов |
1 |
2 |
3 |
4 |
5 |
6 |
В результате расчета средних были получены следующие данные:
Таблица 4.7.
Средние оценки.
|
Средняя оценка по всем общ. |
Средняя оценка по общ. № 3 |
Средняя оценка по общ. № 4 |
Средняя оценка по общ. № 5 |
Средняя оценка по общ. № 6 |
Состояние кубовых |
3,25 |
3,2 |
3,6 |
3,2 |
3 |
Состояние умывальников |
3,35 |
2,9 |
3,6 |
3,6 |
3,3 |
Состояние туалетов |
2,65 |
2,5 |
3,1 |
2,8 |
2,2 |
Для нас является важным определить меры изменчивости, разброса данных.
Это такие показатели, как:
-
Размах
-
Коэффициент вариации
-
Дисперсия
-
Стандартное отклонение
Размах – это диапазон изменчивости значений. Вспомним пример с ростом. Итак, мы замерили рост группы людей и получили: 166 см, 172 см, 172 см, 172 см, 179 см, 179 см, 180 см, 183 см, 190 см, 191 см. Размах в данном случае будет равен 25 (191 см - самый большой показатель минус 166 см (самый маленький).
Коэффициент вариации – это процент наблюдений, лежащих вне модального интервала (для порядковых данных – не совпадающих с модальным значением). В нашем примере мода = 172 см, соответственно, коэффициент вариации равен 70% (или 0,7).
Другой значимый показатель - дисперсия – является важнейшей мерой рассеяния.
Квадратный корень из дисперсии называется стандартным отклонением. Для нормального распределения 68% наблюдений будет заключено ± 1 стандартное отклонение от среднего значения.
Выбор методов статистического анализа зависит от типа данных. Данные подразделяются на номинальные, порядковые и интервальные. Мы уже затрагивали этот вопросов в предыдущей главе (см. Виды шкал).
В книге «Маркетинговые исследования» приводится следующее описание номинальных, порядковых и интервальныхтипов данных [1, с. 493-494 ].
1. Номинальные данные – «наиболее примитивные с точки зрения анализа данных. Это просто числа, поставленные в соответствие объектам, на том основании, что объект принадлежит к той или иной категории… единственным имеющим смысл показателем центральной тенденции является мода».
Пример – распределение по полу.
Женский 52%
Мужской 48%
2. Порядковая шкала (неметрические данные) – «более высокий уровень измерения, нежели номинальная, поскольку числа, используемые для представления порядка, также идентифицируют объекты…с порядковыми данными можно использовать большинство непараметрических проверок».
Пример порядковых данных: оценка своего самочувствия (10 – очень хорошо, 1 – очень плохо).
3. Интервальные и относительные данные (метрические данные) – с этими данными можно использовать как параметрические, так и непараметрические проверки. Пример интервальных данных - распределение по уровню дохода на человека в семье в определенном регионе:
Таблица 4.8.
Уровень заработной платы.
До 3000 рублей/месяц |
12% |
3000 – 5999 рублей/месяц |
20% |
6000 – 8999 рублей/месяц |
34% |
9000 – 11999 рублей/месяц |
24% |
Свыше 12000 рублей/месяц |
10% |
Методы многомерного анализа данных.
Мы не можем подробно разбирать все методы анализа, поэтому кратко остановимся на наиболее популярных из них.
Корреляционный анализ.
Предполагает выявление и определение силы взаимосвязи между двумя переменными. Коэффициент корреляции может принимать значение от -1 до 1. Значение коэффициента, равное 1, говорит о прямой линейной зависимости, равное -1 – об обратной линейной зависимости. 0 – полное отсутствие корреляции. Чем ближе значение коэффициента к 1 по модулю, тем сильнее взаимосвязь. Пример задачи: выявить взаимосвязь между вложениями в рекламу и уровнем продаж товара.
Регрессионный анализ.
Метод позволяет связать две и больше переменных, причем одна из них является зависимой, а другие – независимыми переменными, предсказать изменения зависимой переменной. Модель может быть использована для описания, прогнозирования и контроля интересующей переменной на основе информации о независимых переменных. Проблема данной модели состоит в том, что она основана на допущениях:
1. Именно выбранные независимые переменные объясняют (предсказывают) изменение зависимой.
2. Мы не упустили ни одной переменной, которая может влиять на интересующую нас (зависимую) переменную.
Пример задачи: какие факторы позволяют предсказать электоральную активность томичей?
Дискриминантный анализ классифицирует индивидов на одну или две группы на основании ряда измерений. Мы хотели бы знать, какие переменные позволяют нам прогнозировать и контролировать интересующую переменную.
Задачи дискриминантного анализа [1, с. 598]:
1. Определение линейной комбинации независимых переменных, которая позволяет разделить группы, максимизируя вариацию между группами по сравнению с вариацией внутри групп.
2. Разработка процедур распределения между группами новых объектов, компаний или индивидуумов, характеристики которых известны, но неизвестна их принадлежность к той или иной группе.
3. Проверка наличия значимых различий между группами на основе их центроидов (усредненных дискриминантных оценок по всей группе) .
4. Определение переменных, объясняющих различия между группами наилучшим образом.
Пример задачи: наличие каких показателей потребителей позволяет предсказать заинтересованность в товаре?
Факторный анализ – метод выявления взаимозависимости, выявление набора переменных (факторов), созданных путем объединения ряда характеристик. Фактор – это линейная комбинация исходных переменных: несколько переменных могут измерять одну и ту же характеристику. Пример задачи: сгруппировать множество различных оценок нового продукта таким образом, чтобы минимизировать их количество, избавившись от избыточных переменных.
Кластерный анализ – метод группировки объектов в неизвестные заранее группы. Пример задачи: сегментировать потребителей товара в различные группы, чтобы разработать рекламу для каждой.
Многомерное шкалирование – определение параметров оценки объекта и позиционирование объектов по этим параметрам. Задача: позиционирование кандидатов в президенты, включающая в себя выявление значимых параметров, которыми пользуются респонденты при оценке кандидатов, а также расположение кандидатов на «карте восприятия» в соответствии с этими параметрами.