Скачиваний:
44
Добавлен:
08.04.2015
Размер:
255.49 Кб
Скачать

1.2. Типы и виды данных. Шкалы измерения

В научных исследованиях мы встречаемся с тремя типами данных: пространственные данные (cross-sectional data), временные ряды (time-series data) и панельные данные, которые являются одновременно и пространственными, и временными.

Примером пространственных данных является, например, набор сведений (объем производства, количество работников, доход и др.) по разным фирмам в один и тот же момент времени (пространственный срез). Пространственные данные часто используются для построения моделей классификации, регрессионных моделей.

Примерами временных данных могут служить ежеквартальные данные по инфляции, средней заработной плате, национальному доходу за последние годы и т.п. Отличительной чертой временных данных является то, что они естественным образом упорядочены во времени. Часто наблюдения в близкие моменты времени бывают зависимыми.

Наиболее информативными видами представления данных являются временные ряды, многоугольники и гистограммы распределения (частотные и кумулятивные), диаграммы.

Вид представления данных определяется типом шкалы измерения. Различают четыре основные вида данных, отличающихся по тому, как наблюдаемый объект измеряется или описывается (табл. 1.3).

Таблица 1.3

Основные виды данных

Вид данных

Примеры

1. Данные классификации (номинальные)

Лица, классифицированные по полу, национальности. Регионы РФ, классифицированные по принадлежности к центральным федеральным округам.

2. Ранжированные (ординарные, порядковые)

Ранжирование регионов по инвестиционной привлекательности и т.д.

3. Данные измерения на интервальной шкале

Температура объекта (шкала с произвольной нулевой точкой и масштабом)

4. Данные измерений на относительной шкале

Измерения веса, высоты, объема и т.п. (шкалы с произвольным масштабом, но фиксированной нулевой точкой)

Наименее информативной является номинальная шкала (шкала наименований, классификационная шкала), по которой объектам дается некоторый признак. Этот тип шкал соответствует простейшему виду измерения, при котором шкальные значения используются лишь как имена объектов. Единственная цель таких измерений – выявление различий между объектами разных классов. Однако не следует пренебрегать значением этих имен; так, одной из задач кластерного анализа является назначение удачных названий выявленных групп близких по совокупности свойств объектов.

Шкала является ранговой (шкалой порядка), если множеству измеряемых объектов можно присвоить монотонно возрастающие шкальные значения. Тем самым допускается не только номинальное различение объектов, но и их упорядочение по измеряемым свойствам. Таковы балльные, рейтинговые оценки.

Измерение в шкале порядка может применяться в различных ситуациях:

— необходимо упорядочить объекты во времени или пространстве, когда интересуются не сравнением степени выраженности какого-либо свойства объектов, а лишь их взаимным пространственным или временным расположением;

— необходимо упорядочить объекты по степени выраженности какого-либо их свойства, при этом не требуется производить его точное измерение;

— какое-либо свойство в принципе измеримо, но измерение невозможно по причинам практического или теоретического характера.

Шкалы интервалов являются одним из наиболее важных типов шкал. Их отличительная особенность – возможность положительного линейного преобразования, когда меняется масштаб и начало отсчета, но сохраняется направленность измеряемого свойства. Классическим примером служат температурные шкалы Цельсия tC и Фаренгейта tF, связанные линейным преобразованием шкальных значений

t F = 1,8 t C + 32. (1.1)

Шкалы интервалов сохраняют не только различие и упорядочение объектов, но и отношение «расстояний» между парами. Однако отношение самих шкальных значений при этом не сохраняется. Например, в случае температурных шкал Цельсия и Фаренгейта нельзя сказать, что вода, нагретая до 80 C вдвое горячее, чем вода при 40 C, поскольку в шкале Фаренгейта соотношение температур воды будет уже другим: 176 F и 104F соответственно. В то же время отношение разностей этих температур в обеих шкалах сохраняется. Так, если отсчитывать разность температур двух упомянутых объектов в обеих шкалах относительно третьего объекта, охлажденного до 0 C (32 F), то отношение разностей в обеих температурных шкалах составляет одну и ту же величину 2:

(80 C – 0 C)/(40 C – 0 C) = (176 F – 32 F)/( 104 F – 32 F) = 2.

Частным случаем шкал интервалов являются шкалы отношений, когда нулевая точка означает отсутствие измеряемого свойства. Шкалы отношений сохраняют не только отношения свойств объектов, но и отношения «расстояний» между парами объектов. Примерами измерений в шкалах отношений являются стоимостные измерения.

Иногда рассматривают также шкалы разностей и абсолютные шкалы. Первые являются частным случаем шкал интервалов; примерами служат измерения прироста продукции в абсолютных единицах, увеличение численности учреждений и т.п. Абсолютные шкалы характеризуются единственностью измерения и применяются, например, для измерения количества объектов.

Шкалы измерения следует учитывать при вычислении средних величин. В общей теории статистики различают структурные и степенные средние. К первым относятся мода и медиана, ко вторым – арифметическая, геометрическая, квадратическая и гармоническая средние.

Наименее информативная номинальная шкала допускает лишь один вид средних – моду. При переходе к более информативной порядковой шкале в моде добавляется медиана как мера центральной тенденции. Эти средние являются частными случаями средних по Коши – функции, ставящей в соответствие совокупности измерений (х1, х2, …, хn) любое число, заключенное между наибольшим и наименьшим членом вариационного ряда.

Обобщением понятия степенных средних является средние по Колмогорову Fn, задаваемые строго монотонными функциями :

Fn (х1, х2, …, хn) =  -1(1/n)  ( хi), (1.2)

где  -1 – функция, обратная ; хi – значение i-го измерения показателя Х; n – объем выборки. При (х) = х; ln х; х–1; х2 формула (1.2) определяет соответственно среднее арифметическое, среднее геометрическое, среднее гармоническое и среднее квадратическое.

В шкале интервалов и разностей центральную тенденцию адекватно отражает среднее арифметическое, в шкале отношений – среднее геометрическое, однако среднее геометрическое не рекомендуется применять при обработке данных, измеренных в шкале интервалов и разностей. В абсолютной шкале можно пользоваться любым средним, т.е. с усложнением типа шкалы измерения число средних, адекватных в этой шкале, увеличивается.

Нередко при оценивании альтернатив возникает необходимость в использовании измерений с помощью специально разрабатываемых вербально-числовых шкал, применяемых преимущественно в случаях, когда оценки носят субъективный характер, в частности, при экспертном оценивании. Эти шкалы носят название психофизических и позволяют формализовать имеющуюся у эксперта систему предпочтений.

Психофизические шкалы задаются функциями специального вида – функциями желательности и устанавливают соответствие между натуральными значениями показателей в физических шкалах и психофизическими параметрами – субъективными оценками «ценности» этих значений. Обычно функцию желательности d(x) строят таким образом, чтобы в наиболее распространенной области «удовлетворительно» она была близка к линейной и в то же время изменялась от 0 до 1 на всем возможном множестве значений показателя. Понятно, что при таком подходе к нормированию функция желательности должна быть более «чувствительна» к изменению значений информативного показателя x в области «удовлетворительно» и менее чувствительна вне ее.

Наиболее известной и часто используемой является функция желательности Харрингтона, впервые примененная им в задачах контроля качества массовой продукции. Шкала Харрингтона устанавливает соответствие между лингвистическими оценками желательности значений показателя х и числовыми интервалами d(х) (табл. 1.4):

Таблица 1.4

Числовые интервалы шкалы Харрингтона

Лингвистическая оценка

Интервалы значений функции желательности d(x)

Очень хорошо

1,00-0,80

Хорошо

0,80-0,63

Удовлетворительно

0,63-0,37

Плохо

0,37-0,20

Очень плохо

0,20-0,00

При таком шкалировании значения функции желательности d(x) изменяются в интервале от 0 до 1, причем значение di0 соответствует абсолютно неприемлемой величине i-го показателя качества жизни, di1 – идеальной величине.

Практически часто ограничиваются тремя градациями шкалы Харрингтона, отвечающим лингвистическим категориям «плохо», «удовлетворительно», «хорошо». В этом случае область, соответствующая уровню «удовлетворительно», расширяется от 0,37 до 0,69, а области «плохо» и «хорошо» характеризуются интервалами (0,00-0,37) и (0,69-1,00) соответственно.

Аналитически для монотонных по предпочтениям критериев, характерных, например, для показателей качества жизни, функция желательности Харрингтона задается следующей формулой:

di = d (zi) = exp (-exp (-zi)), (1.3)

zi = (хiхi0)/( хi1хi0), (1.4)

где zi – кодированные значения i-го показателя, представляющие собой безразмерные величины; хi – значение i-го информативного показателя; хi0 и хi1 – границы области «удовлетворительно» в исходной шкале:

di0 = d (zi (хi0)) = 0,37; di1 = d (zi (хi1)) = 0,69. (1.5)

Функция желательности Харрингтона представляет собой монотонно возрастающую функцию, изменяющуюся от 0 до 1.

При кодированном значении информативного показателя z=0 (нижняя граница области «удовлетворительно») функция желательности принимает значение 0,368, при z=1, т.е. нижняя граница области «удовлетворительно», d(z)=0,692. Для ее построения достаточно, чтобы эксперты указали границы исходных показателей хi0 и хi1, внутри которых качество жизни можно считать удовлетворительным. В частности, можно эти значения положить равными хi1=хmax и хi0=хmin, т.е. соответственно максимальному и минимальному значению показателя по массиву региональных данных. Естественно, при таком назначении границ области «удовлетворительно» выборка должна быть, во-первых, однородной, т.е. не иметь «выбросов», во-вторых, распределение значений показателя должно не противоречить нормальному закону.

Применим такое преобразование к показателю «число студентов, обучающихся в учреждениях высшего профессионального образования, в расчете на 10 тыс. населения в 2010-2011 уч.г.». Для выборки регионов ЦФО без г. Москвы х1=642 (Курская область) и х0=237 (Московская область), т.е. кодированные значения показателя будет определяться формулой

z = (х – 237) / (642 – 237),

а функция желательности числа студентов на 10 тыс. населения формулой (1.3).

Все эти расчеты достаточно просто выполняются в редакторе данных пакета анализа данных общественных наук SPSS Base.

Результаты расчета функции желательности числа студентов на 10 тыс. населения представлены на рис. 1.1.

а

б

Рис. 1.1. Функция желательности числа студентов в 2010/2011 учебном году: а – для выборки регионов ЦФО без г. Москвы; б – для полной выборки регионов

Видно, что в области «удовлетворительно» зависимость функции желательности от кодированной переменной z и от числа студентов на 10 тыс. населения близка к линейной, но в области «хорошо» она носит характер кривой с насыщением (правая точка кривой рис. 1.1 а отвечает данным по г. Москве).

Однако при назначении границ области «удовлетворительно» по формуле (1.5) не проявляет себя такое свойство функции желательности, как быстрый ее рост в области «плохо». Это является следствием того, что все регионы в выборке считаются «удовлетворительными». Но это не так – в ЦФО есть «лидеры», есть и «аутсайдеры». Поэтому более обоснован иной подход – нижнюю границу зоны «удовлетворительно» положить равной значению параметра центральной тенденции (медианы или средней арифметической величины), а ее верхнюю зону «сдвинуть» в сторону значений показателя, отстоящих от параметра центральной тенденции на величину стандартного отклонения. Согласно правилу «трех сигм» [265], тогда примерно 1/6 часть статистических объектов будет характеризоваться термом «удовлетворительно», половина – термом «плохо», 1/3 – термом «хорошо».

Для рассматриваемого показателя среднее арифметическое (невзвешенное) равно 427,1 и стандартное отклонение – 104,9. Тогда кодированные значения показателя будут определяться формулой

z1 = (х – 427,1) / 104,9.

На рис. 1.2 представлены результаты расчета функции желательности показателя «число студентов на 10 тыс. населения».

а

б

Рис. 1.2. Модифицированная функция желательности числа студентов в 2010/2011 учебном году в регионах ЦФО: а – принцип построения; б – зоны желательности

Рис. 1.2 а поясняет принцип построения модифицированной функции желательности числа студентов в 2010/2011 учебном году в регионах ЦФО: значениям 0 и 1 кодированной переменной z1 отвечают граничные значения зоны «удовлетворительно» модифицированной функции желательности d1. В этой зоне не 17, как ранее, а пять регионов – Брянская, Ивановская, Рязанская, Смоленская и Белгородская области (метки 2, 5, 12, 13 и 1 соответственно). Три региона – Орловская, Воронежская (метки 11 и 4 соответственно) и Курская области (метка 8 на рисунке не показана) по рассматриваемому показателю «попадают» в зону «хорошо», девять регионов – в зону «плохо».

На рис. 1.2 б обозначены уже не три, а пять зон желательности. Зона «хорошо» разбита на две подзоны: «хорошо» и «очень хорошо», зона «плохо» – на подзоны «плохо» и «очень плохо». В подзоне «хорошо» две области Орловская и Воронежская, в подзоне «очень хорошо» – только одна Курская область. В подзоне «плохо» два региона – Тамбовская и Ярославская области (метки 14 и 17 соответственно), в подзоне «очень плохо» – семь регионов ЦФО – Владимирская, Калужская, Костромская, Липецкая, Московская, Тверская и Тульская области (метки 3, 6, 7, 9, 10, 15 и 16).

Таким образом, использование описанного выше модифицированного алгоритма построения функции желательности позволяет не только выполнить преобразование именованных показателей в безразмерные индексы, но и осуществить отнесение регионов к зонам желательности их значений, установить границы зон. Так, в приведенном выше примере это следующие границы: нижняя граница зоны «плохо» – 375 студентов на 10 тыс. населения, нижняя граница зоны «удовлетворительно» – 420 студентов, нижняя граница зоны «хорошо» – 510 студентов, нижняя граница зоны «очень хорошо» – 600 студентов на 10 тыс. населения.

Введение шкалы желательности позволяет свести исходную многокритериальную задачу принятия решения с разноразмерными критериями к многокритериальной задаче с критериями, измеряемыми в одной и той же шкале, поэтому следующим этапом является свертка частных функций желательности di в обобщенный критерий D.

Обобщенный критерий рекомендуется выбирать из семейства средних по Колмогорову, задаваемых монотонными функциями . Выбор этих функций осуществляется с привлечением суждений экспертов о связи обобщенного критерия с величинами частных функций желательности. Так, логично предположить, что совершенно неудовлетворительная ситуация по одному критерию (di0) влечет за собой неудовлетворительную оценку ситуации в целом (D0). В математической форме это суждение находит свое отражение с помощью функций вида:

1 = ln d, (1.7)

2 = -ln (-ln d), (1.8)

Соответствующие обобщенные критерии равны среднему геометрическому

D1 = DG = exp (1/n* ln di) = (d1 d2 … dn)1/n, (1.9)

и среднему логарифмическому

D1 = DL = exp [-(-ln d1) (-ln d2)… (-ln dn)1/n] . (1.10)

Если частные критерии неравноценны, то их весовые коэффициенты различны между собой, и обобщенные критерии имеют следующий вид:

D1 = DG = exp (1/n* ln di) = d11 d22 … dnn, (1.11)

D1 = DL = exp [-(-ln d1)1 (-ln d2)2 (-ln dn)n] . (1.12)

Сравнение критериев DG и DL показывает, что обобщенный критерий DG дает более жесткую оценку, чем DL: DGDL во всей области определения частных функций желательности.

Помимо выбора вида свертки частных функций желательности в обобщенный критерий, важной задачей является назначение весовых коэффициентов. Один из эффективных методов экспертного оценивания весов – метод аналитических иерархий, логические и алгоритмические основы которого будут рассмотрены позднее.

Соседние файлы в папке моно_2012_Шуметов_Крюкова