Многомерные данные
Наборы многомерных (много переменных) данных содержат информацию о трех или более признаках для каждого объекта. В дополнение к обобщению свойств каждой из этих переменных (рассматриваемых как отдельные наборы одномерных данных) и установлению зависимости между парами переменных (как при анализе набора двумерных данных) статистические методы можно использовать для изучения взаимосвязей между всеми этими переменными, выясняя при этом следующие вопросы.
Существует ли простая зависимость между этими признаками?
Насколько сильно, они взаимосвязаны?
Можно ли предсказать значения одной (выделенной) переменной исходя из значений остальных? С какой степенью надежности?
Существуют ли отдельные объекты или группы, которые требуют особого внимания?
В представленной ниже таблице содержатся многомерные данные о размерах прибыли 12 компаний общественного питания (из списка Fortune 500) вместе с процентом изменения прибыли по отношению к предыдущему году, количеством служащих и размерами дохода.
Компания |
Прибыль, млн. дол. |
Изменение прибыли, в % к предыдущему году |
Количество служащих |
Доходы, млн. дол. |
А Б В Г Д Е Ж З И К Л М |
134,5 60,5 -91,0 34,1 20,8 1642,5 61,5 13,2 -13,7 -35,7 80,3 130,5 |
0 76 -222,4 69,8 45,5 4,4 -14,2 20,6 0 -173,6 214,8 -16,3 |
85000 47000 114582 29000 24000 237000 19000 3000 3400 33000 23613 27500 |
2609,5 1335,3 3171,8 1071,7 1284,6 11408,8 1151,6 1230,1 3901,2 1202,8 2417,5 2037,3 |
Рассмотрим еще несколько примеров наборов многомерных данных.
Темп роста (выделенная переменная) и набор характеристик стратегий (остальные переменные), таких как тип оборудования, объем инвестиций, стиль руководства для каждой из нескольких новых предпринимательских фирм. Анализ мог бы показать какое сочетание приводит к успеху, а какое — нет.
Заработная плата (выделенная пepeменная) a также пол (регистрируется как “мужской/женский”, или 1/0), стаж работы, категория работы и производительность для каждого служащего. Такие данные могут рассматриваться в судебном процессе о дискриминации (с точки зрения более низкой средней оплаты труда) женщин. Ключевой вопрос на который может, ответить многомерный анализ, заключается в следующем. Можно ли объяснить расхождение в размере заработной платы факторами отличными, от пола служащего? Статистические методы могут исключить влияние этих остальных факторов и таким образом измерить среднее различие заработной платы между мужчинами и женщинами, которые одинаковы в других отношениях.
Для каждого из домов в районе цена этого дома (выделенная переменная) и ряд переменных, от которых зависит стоимость недвижимости, а именно количество домов такого тина, площадь дома, количество комнат, наличие или отсутствие бассейна, возраст дома. Анализ, показал бы как оценивается недвижимость в этом районе. Такой результат можно было бы использовать для определения реальной рыночной стоимости дома в этом районе или при строительстве, чтобы определить, какая комбинация характеристик нового дома повышает его цену.
