- •Тема 2 Измерение, сбор, регистрация данных. Подготовка к анализу.
- •Измерительные шкалы Шкалы наименований (номинальные или классификационные)
- •Порядковые (ранговые) шкалы
- •Модифицированные порядковые (ранговые) шкалы
- •Шкалы интервалов
- •Сбор данных
- •Связь через последовательный порт
- •Подготовка данных к анализу. Первичная обработка данных.
- •Выявление и исключение резко выделяющихся наблюдений
- •Сглаживание кривых
- •Исследование данных на однородность
- •Диагностика мультиколлинеарности
- •Масштабирование переменных (данных)
- •Интерполяция и аппроксимация данных
Измерительные шкалы Шкалы наименований (номинальные или классификационные)
Пусть число различимых состояний конечно. Каждому состоянию (классу эквивалентности) ставится в соответствии обозначение в виде символа. Множество этих символов образует шкалу. Измерение состоит в определении принадлежности результата к данному классу эквивалентности. Обработка результатов состоит в вычислении относительных частот классов. Над этими частотами можно выполнять различные статистические процедуры. В номинальных шкалах измеряются в основном дискретные, по своей природе, явления. Если наблюдаемые состояния образуют непрерывные множества, то его искусственно разбивают на подмножества, образуя классы эквивалентности.
Формально процедуру измерения с помощью номинальных шкал можно представить с помощью символа Кронекера:
ij = {1: xi = xj ; 0: xi xj }
, частота
n –общее число наблюдений;
nk – количество наблюдений соответствующее каждому классу эквивалентности.
Pk – частота к-го класса
Например: названия болезней образует номинальную шкалу.
Порядковые (ранговые) шкалы
Если класс эквивалентности удовлетворяет соответствующей упорядоченности, то, обозначив их символами и установив между этими символами теже отношения порядка, получим шкалу простого порядка. Отношение порядка ничего не говорит о дистанции между сравниваемыми классами, однако, позволяет установить какое из наблюдений предпочтительнее, сравнивая их ранги. Определим индикатор положительных чисел следующим образом:
C(t) = {1: t0 ; 0: t0}
Тогда, ранг наблюдения - это целое положительное число Ri , которое образуется путем суммирования индикаторов при попарном сравнении:
, 1 Ri n,
где n – число сравниваемых объектов.
С помощью рангов также можно находить частоты, моды, появляется возможность определить выборочную медиану, т.е. такие наблюдения для которых Ri = n/2. можно разбить всю выборку на части в любой пропорции и вычислить квантили: 0 P 1 – это наблюдения ранг которых Rp nP, кроме того можно определить коэффициенты ранговой корреляции между двумя сериями наблюдений. Для этих шкал также не существуют стандартов. (Например, измерение интеллекта людей – через рассмотрение тестовой задачи).
Модифицированные порядковые (ранговые) шкалы
В некоторых случаях удается не только упорядочить альтернативы, но и указать хотя бы грубо силу предпочтения. Эта существенная модификация значительно усиливает шкалу. Например: шкала твердости по Моосу:
Тальк – эталон наименьшей твёрдости – 1, алмаз – эталон наибольшей твёрдости – 10, остальные материалы между ними.
Шкала ветра по Ботфорту:
Штиль 0
Умеренный ветер 4
Свежий ветер 6
Шторм 10
Ураган 12
Шкалы интервалов
Если упорядочивание классов позволяет выражать расстояние между ними в единицах хотя и произвольных, но одинаковых по длине шкалы, то построенные таким образом шкалы называются – интервальными. Для таких шкал отношение двух любых интервалов не зависит от того, какова единица длины интервала и какое значение принято за начало отсчета. Связь между показаниями в таких шкалах является линейной. Шкала интервалов является единственной с точностью до линейных преобразований:
В этой шкале только интервалы имеют смысл настоящих чисел, и единственной допустимой операцией над наблюдениями является определение интервала между ними. Например: шкала по Фаренгейту и по Цельсию: F0 = 1.81C0 + 31.
Шкалы отношений
В этих шкалах отношение двух наблюдаемых значений измеряемой величины не зависит от того, в какой из них произведены измерения. Величины, измеряемые в шкале отношений имеют естественный абсолютный 0, т.е. если в одной из шкал измерены x1, x2, а другой y1, y2 и взяты их отношения, то . Между шкалами получим линейную связь: y = ax.
Шкалы разностей (циклические или периодические шкалы)
Особенность этих шкал состоит в том, что они инвариантны к сдвигу, значение не изменяется при любом числе сдвигов.
y = x + nb, n = 0, 1, 2 …
b – период шкалы.
Циклические шкалы - частный случай интервальных шкал, однако, соглашение об едином начале отсчета позволяет использовать показания в этой шкале как числа.
Абсолютные шкалы
Уникальные шкалы, которые имеют абсолютный нуль и абсолютную безразмерную единицу. Именно такими качествами обладает числовая ось. Результаты измерений в такой шкале являются полноценными числами, над которыми допустима любая обработка, в том числе использование их в качестве показателя степени основания и аргумента логарифма.
Физические шкалы и неоднозначность образов действительности
Создавая образы действительности с помощью измерений мы получаем неоднозначные отображения из-за ограниченной точности приборов и из-за свойств органов чувств людей. Состояние а измеряемой некоторой характеристики х отображается во множество значений области абстракций В: a Ba = {b}
Элементы множества В, которые сопоставляются значению а неравнозначны. Пусть вероятность отображения а в В (b = f(a)) больше или меньше вероятности отображения b + = f(a), > 0. тогда выбор элементов из множества В отвечающего состоянию а определяется мерой P[0,1] такой что Или при непрерывной:
В соответствии с этой вероятностной мерой отображение принимает вид:
a {b, Pa(b)}, при этом мощность множества Р и мощность множества В равны. Графически это означает:
Для построения измерительной шкалы из множества Ва нужно выбрать только один элемент b*, относительно которого мы можем утверждать, что оно лучше всех остальных отображает состояние а. Выбор производится в соответствии с правилом выбора (решением): b* = D(Pa).
Чаще всего используют три правила выбора чисел отображающих характеристики а:
b1* = D1(Pa), Pa(b1*) = max Pa
bBa
b1* - наиболее вероятное значение (мода распределения)
b2* = D2(Pa), или где b2* - среднее значение
b3* = D3(Pa), Pa(b3*) = ½
b3* - медиана.
Если утверждается, что Ba является окрестностью точки b*, то возможно поэлементное отображение (Ba)=Aa*={a*}, т.е. образом состояния a является Ba, которое образует в области состояний множество Aa*. a Ba Aa* эквивалентность aa* существует только в пределах выраженных этим соотношением. Неопределенность образа можно охарактеризовать удалением (отклонением) элементов множества (Ba) от точки b*, если считать что множество B образов является подмножеством R (рациональных чисел), на котором определена метрика (b*,b)0, то формально отклонение можно выразить с помощью этой метрики. Поскольку отображение строится с использованием вероятностной меры, то опираясь на рассмотренные метрики используют следующий вид частных мер:
, − средневзвешенное значение
= , − стандартное отклонение.
Если b непрерывный параметр, то все суммы заменяются интегралами.