Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
маркетинг / МИ_Книга2006.doc
Скачиваний:
45
Добавлен:
23.05.2015
Размер:
4.47 Mб
Скачать

Главная таблица

Главная таблица132представляет собой последовательность перекрестных таблиц, отражающих связи между критерием (зависимой переменной) и несколькими независимыми переменными, сведенные в одну таблицу. Значения зависимой переменной (феномена, который требуется объяснить), образуют строки таблицы; столбцы соответствуют значениям объясняющей или причинной переменной. Наиболее наглядно ввести в таблицу, помимо абсолютных значений, проценты, округляемые обычно до целых значений. Пример главной таблицы – табл. 5.11.

Таблица 5.11

Пример главной таблицы

Вопрос: Сколько телевизоров в Вашей семье?

Всего в выборке

По доходу

По размеру семьи

9613

>9613

2

>2

Общее количество семей

100

(100%)

56

(100%)

44

(100%)

66

(100%)

34

(100%)

Семей, где 0 или 1 телелвизор

45

(45%)

31

(55%)

14

(32%)

35

(53%)

10

(29%)

Семей, где 2 и более телевизоров

55

(55%)

25

(45%)

30

(68%)

31

(47%)

24

(71%)

Достоинствами такой таблицы являются: большой объем информации в компактном представлении и ясность.

К недостаткам главной таблицы можно отнести то, что

  • не видны зависимости от нескольких переменных, что затрудняет исследование альтернативных объяснений.

  • не видны ошибки кодирования и редактирования.

OLAP

Уже упоминавшаяся онлайновая аналитическая обработка помогает проводить анализ связи между переменными. По сути, это дальнейшее развитие описанного выше метода перекрестной табуляции.

Одной из основных концепций, на которых основан OLAP, являются гиперкубы133 данных.

Табл. 5.9 можно представить в трехмерном виде (рис.Рис. 17).

Рис. 17. Гиперкуб данных – количеств семей различных категорий

Это интуитивно понятное представление. Оно содержит два «слоя» одной и той же таблицы: для больших и небольших семей134. Нетрудно перейти и к более высокой размерности куба данных. Четвертым измерением может стать период исследования, например, год. Тогда кубы, аналогичные рис.Рис. 17 могут быть построены для каждого года. Набор этих кубов и будет представлять собой четырехмерный куб.

Можно рассмотреть любое сечение гиперкуба рис.Рис. 17, например, получить двумерную таблицу только для небольших семей или двумерную таблицу только для семей с низким доходом. Такие сечения служат для получения обобщенных данных, например, представленных в табл. 5.10.

Простейшим средством расчета гиперкубов и отображения OLAP-данных, в том числе и полученных из внешних источников, служит средство Сводная таблицаMicrosoft Excel [15]. В ней можно задать группировку данных по столбцам, строкам и страницам. На рис.Рис. 18 показана одна страница такой многостраничной таблицы. Для перехода к другой странице (другому «слою» гиперкуба) можно нажать на кнопку со стрелкой, расположенную справа от текущего значения размера семьи (в верхней строке таблицы). Существует и страница, на которой даются данные по семьям всех размеров.

Кроме этого, возможно создание сложных, многоуровневых клеток, как показано на рис.Рис. 19. По умолчанию значение упорядочиваются по алфавиту, поэтому вначале идет большая семья и высокий доход. Количество по полю Телевизоровозначает количество ячеек в поле (в столбце)Телевизоров. Это поле было выбрано произвольно для подсчета количества строк.

Рис. 18. Сводная таблица MSExcel со страницами

Рис. 19. Сводная таблица сложной формы

Наконец, в сводных таблицах возможно и проведение расчетов (рис.Рис. 20). Для ячеек Количество по полю телевизоров2использовался расчет процента от итога по столбцу. Теперь лишь небольшие преобразования отделяют рис.Рис. 20 от табл. 5.9.

Многие программы, к числу которых относится и MSExcel, и специализированные программы визуализации, позволяют визуализировать данные сводных таблиц различными способами, что делает их восприятие более наглядным.

Второй основной концепцией OLAP является выборка нужных данныхи средства ее обеспечения. Представленный вариант с двумя значениями (большая/небольшаясемья,низкий/высокийдоход) – лишь простейший. В общем случае число значений, а, следовательно, строк, столбцов и «слоев» куба заранее неизвестно. Например, можно группировать данные по странам, городам, видам товара, фирмам-поставщикам, периодам. Более того, возможна иерархия признаков по одному измерению (города страны, месяцы года, товары различных групп). Иерархии могут бытьмногоуровневыми(страна—город—поставщик). Существуютнесбалансированныеиерархии, например, структура организации, где отображаются связиначальник—подчиненный,имеет различную длину ветвей. Например, генеральному директору непосредственно подчиняются четыре человека, а у одного из них, в свою очередь, в подчинении находится еще несколько человек. Наконец, иерархии могут бытьнеровными.Пример такой иерархиистрана—штат—город. Если данные касаются США, то заполнены все уровни, а для стран без штатов средний уровень остается пустым.

Рис. 20. Сводная таблица с дополнительным полем Процент от итога по столбцу.

Для получения гиперкубов данных используются многомерные базы данных или сложные запросы к обычным реляционным базам данных. Описание этих средств можно найти, например, в цикле статей в журнале Компьютер пресс, начинающемся с работы [29]135. К их числу относитсяMicrosoft SQL Server.Полученные им данные можно отображать средствами сводных таблицMSExcel. Для работы с этими программными средствами нужна некоторая специальная подготовка в области программирования и организации баз данных.

Наконец, для извлечения максимальной пользы от применения OLAP требуется организовать хранение данных. Этот последний из основных элементов OLAP практически все авторы признают как обязательный. Именно с него часто начинаются описания метода. Данные предлагается хранить в хранилище136. Проблема организовать данные по-новому, способом, отличным от традиционных реляционных баз данных, возникла в связи с тем, что объемы данных в последние годы значительно возросли. Кроме того, стало понятно, что данные в организации являются разнородными, не только табличными, но и текстовыми, графическими.

Особенностями хранилищ данных, отмеченными в [29], являются:

  • ориентация не на повседневную работу, а на принятие решений. Например, если выписку счета производят с помощью средств работы с базой данных, то анализ динамики продаж – с помощью хранилища данных;

  • бόльшая стабильность по сравнению с базами данных. Обновления данных в хранилище производятся обычно по плану, например, раз в неделю. При этом данные, уже находящиеся в хранилище, не изменяются;

  • данные берутся как из баз данных, так и из других источников.

Хранилища должны обеспечивать [9]:

  • производительность (ориентация на быстрое извлечение различных данных);

  • множественность источников (для работы требуется слияние внутренних данных фирмы и данных, полученных из Интернет, из печатных источников, от других фирм и подразделений);

  • очистку данных как от умышленных искажений, так и от опечаток. Сюда же можно отнести и заполнение незаполненных полей документов, согласование кодов товаров, поставщиков, подразделений;

  • согласование данных, представленных в разных системах отчетности, формах документов, уровней конфиденциальности;

  • приведение данных из различных источников к определенному моменту времени;

  • хранение истории изменения данных (время почти всегда является одной из координат гиперкуба). Именно поэтому данные из Хранилищ не подлежат удалению;

  • обобщение излишне детализированных данных;

  • модификацию данных без изменений в «оригинале».

Поэтому фактически оказывается, что Хранилище создается как некоторое дублирование данных, собираемых из различных источников.

В качестве критерия отнесения того или иного программного средства к категории OLAP обычно используется предложенный еще в 1994 году «FASMIтест»137, описанный, например, в [9]. Программное средство класса OLAP должно позволять проводить анализ

  • быстро (время реакции на запрос пользователя, даже сложный, должно быть не более 30с, что не всегда достижимо на современном этапе);

  • гибко, задавая различные, в том числе и нестандартные, процедуры обработки и визуализации данных;

  • совместно используемых данных, с применением механизмов разграничения прав доступа к данным и их изменения;

  • многомерных данных (конкретный смысл этого термина определяется особенностями реализации хранилища);

  • с получением информации, то есть полезных для принятия решений сведений.

Работы в области хранения данных в хранилищах и их обработки методами OLAP еще далеки от завершения, но объем продаж средств OLAP в мире достиг в 2004году суммы в$5млрд. [9].

***

Итак, средства OPAL не выходят за рамки традиционного подхода к маркетинговым исследованиям: исследователь сам задает тот «разрез», в котором он хочет видеть данные для проверки своей гипотезы.