
- •На правах рукописи
- •Метрология - это наука об измерениях, методах и средствах обеспечения их единства, способах достижения требуемой точности (такое определение дает гост 16263-70).
- •Система единиц физических величин - совокупность основных и производных единиц, относящихся к некоторой системе величин и образованная в соответствии с принятыми принципами.
- •Внесистемные единицы - единицы не входящие не в одну из систем.
- •Абсолютное измерение основано на прямых измерениях основных величин.
- •Мера - это средство измерения, предназначенное для воспроизведения физической величины заданного размера.
- •Точность измерений, отражающее близость их результатов к истинному значению измеряемой величины характеризует точность измерений (определение согласно гост).
- •Критерии отброса промахов
- •Список литературы к лекции 3
- •Государственный эталон - эталон единицы величины, официально утвержденный уполномоченным на то органом в качестве исходного на территории страны.
- •Смесь (газообразная, жидкая, твердая, в виде плазмы или вакуума) Гетерогенная смесь Гомогенная смесь - растворы
- •Дополнительная литература
- •Уникальные программы
- •Другие функции распределения. Дискретные распределения
- •Другие распределения
- •Лекция 7. Математические модели измеряемых величин и средств измерений
- •Основы прикладной теории измерений
- •Особенности дисперсионного анализа.
- •Стратегии мо зависят от вида деятельности: 1. Измерение параметров (Измерение технического состояния. Отыскание отказа. Регулировка. Юстировка. Настройка.). 2. Поддержание качества измерений.
- •Приложение
Основы прикладной теории измерений
Прикладная теория измерений посвящена математическим методам и моделям и включает разделы:
Первичная обработка и описание данных. Включает исследование выборок, анализ эмпирических распределений, статистическую проверку гипотез (дискриминация моделей). При этом одномерная статистика означает операции со случайными одномерными числовыми величинами и многомерная статистика (случайные векторы) означает, что параметр имеет более чем одну размерность (например, понятие точность).
Исследование зависимостей. Включают регрессионный, дисперсионный, ковариационный, корреляционный анализы и анализ временных рядов и случайных процессов.
Классификация объектов и признаков. Основой является разбиение на однородные группы и классы. Различают дискриминантный анализ, кластер анализ, группировки.
Сжатие данных. Включает исключение неинформативных параметров, агрегирование (группировку) связанных определенными уравнениями параметров. Основными разделами являются метод главных компонент, факторный анализ, метод экстремальной группировки параметров. Само составление математической модели объекта является основной составляющей сжатия данных.
Прикладная теория измерений служит для сбора, систематизации, обработки данных и последующей оптимизации и планирования процессов.
НОВЫЕ НАПРАВЛЕНИЯ В ОБРАБОТКЕ ДАННЫХ
Непараметрика (непараметрическая статистика). Функции распределения не соответствуют классическим и часто являются эмпирическими. При этом достаточно предположения о непрерывности функции распределения. Позволяет делать статистические выводы, оценивать характеристики распределения, проверять статистические гипотезы без слабо обоснованных предположений о том, что функция распределения элементов выборки входит в то или иное параметрическое семейство. К настоящему времени с помощью непараметрических методов можно решать практически тот же круг задач, что ранее решался параметрическими методами. Тем не менее, параметрические методы всё еще популярнее непараметрических, особенно среди тех прикладников, кто слабо знаком со статистическими методами. Неоднократно публиковались экспериментальные данные, свидетельствующие о том, что распределения реально наблюдаемых случайных величин, в частности, погрешностей измерения, в подавляющем большинстве случаев отличны от нормальных. Тем не менее, теоретики продолжают строить и изучать статистические модели, основанные на нормальном распределении, а практики - применять подобные методы и модели [56, 57]. Но исследования продолжаются и достаточно успешно [58, 59].Это направление развивается также и в регрессионном анализе [4].
Робастность (устойчивость). Под робастностью понимается устойчивость процедур к нарушению исходных предпосылок, например, нарушение предположения о нормальности распределения данных. Выводы, полученные на основе математических методов исследования, должны мало меняться при небольших изменениях исходных данных и отклонениях от предпосылок модели. Две задачи: изучение устойчивости распространенных алгоритмов анализа данных и поиск робастных алгоритмов для решения тех или иных задач [56, 57].
В математической статистике робастными называют статистические оценки (статистики), малочувствительные к нарушению гипотез, на основе которых они построены. К их числу в широком смысле относят гипотезы нормальности, линейности, независимости и пр.
В узком смысле под робастностью статистических оценок вероятностных характеристик случайных величин понимают относительно малую их чувствительность к выделяющимся значениям (выбросам). Отношение к робастности на сегодня неоднозначно. Есть мнение, что достаточно руководствоваться двухшаговой процедурой: “редактирование” данных усечением выделяющихся результатов и последующее применение для “отредактированных” данных классических критериев и процедур оценивания. Однако, в задачах многомерной регрессии выбросы распознать трудно, если не иметь надежных робастных оценок для параметров. Кроме того, даже если исходные данные имеют нормальное распределение, после редактирования они таковыми наверняка не будут. Поэтому теоретические выводы, основанные на нормальности, неприменимы для отредактированных данных [60]. В статье [61] показано, что иногда даже при очень сильном цензурировании количество сохранившейся в выборке информации позволяет достаточно точно оценивать параметры закона. При ограниченных объемах выборок и значительном цензурировании распределения оценок оказываются существенно ассиметричными, а оценки смещенными. В случае неполных выборок оценки максимального правдоподобия параметров более чувствительны к имеющимся в выборке отклонениям от предположений и более предпочтительным является использование робастных оценок.
Робастная статистика остается своеобразной модой. Своей популярностью она обязана эффектным предложениям, особенно в биологических, психологических и социальных исследованиях. В работе [60] отмечается, что в сфере прикладной метрологии эффект от внедрения робастной статистики неоднозначен. В ней отмечается, в частности, что робастность – заложница нормальности и решение задачи проверки статистической однородности возможно лишь в том случае, когда контролируемое распределение вероятностей известно или хотя бы известен его тип. Так как в реальности контролируемое распределение никогда полностью не известно, то задача сводится к типовой задаче математической статистики – проверке гипотез о виде распределения совокупности результатов измерений. В итоге автором выделены следующие выводы: основная идея робастности – редактирование данных – противоречит основной идее теории вероятностей. Реальность вероятности не в математическом формализме, а в степени его адекватности физическим объектам, в степени статистической устойчивости явлений, что количественно и характеризует воспроизводимость.
Что же касается регрессионного анализа, то выяснилось, что повышенной устойчивостью обладают оценки параметров, полученных по методу минимизации суммы модулей погрешностей и максимального модуля погрешности (чебышевский метод оценивания). Робастные алгоритмы в известном смысле можно рассматривать как промежуточные компромиссные между параметрическими методами стандартной теории и непараметрическими подходами. Они используют некоторую информацию о законах распределения, хотя и “распоряжаются” ею иначе [4].
Кроме редактирования данных есть и другие направления, по которым ведутся работы, позволяющие если не исключить, то, по крайней мере, учесть неизбежные погрешности. Примером может послужить рекуррентный алгоритм оценивания линейной модели регрессии с учетом погрешности регрессионного метода [63].
Автоматическое исключение грубых погрешностей – это отнюдь не всегда наиболее целесообразная процедура. В работе [4] высказано мнение, что иногда выброс дает такую информацию, которую другие данные не могут дать благодаря тому, что он связан с необычной комбинацией условий, являющейся жизненно важной. В этом случае требуется, скорее, дальнейшее углубление исследования, а не механическое отбрасывание выброса. В целом, все признают общее правило: выбросы должны исключаться сразу, если только выяснится, что они вызваны такими причинами, как ошибки в регистрации результатов наблюдений или в настройке аппаратуры и т.п. В противном случае требуется тщательное исследование. Однако на практике оно выполняется не всегда.
Интервальная статистика. Это анализ интервальных статистических данных. Все средства измерений имеют погрешности. Однако до недавнего времени, это очевидное обстоятельство никак не учитывалось в статистических процедурах. В результате – абсурдная концепция состоятельности как необходимого свойства статистических оценок параметров и характеристик. Только недавно начала развиваться теория интервальной статистики. В ней предполагается, что необходимые данные – не числа, а интервалы. Интервальную статистику можно рассматривать как часть интервальной математики. Выводы в ней часто принципиально отличаются от классических [56, 57]. Интервальная постановка задачи более реалистична, чем точная, но сопряжена с дополнительной трудностью, обусловленной несравнимостью (невозможностью измерения) некоторых интервальных величин. Эта несравнимость – плата за недостаток информации о сравниваемых (измеряемых) величинах. Поэтому выход из сложившейся ситуации следует искать, пополняя указанную информацию, либо уменьшая шаг между эталонами с увеличением их общего числа [64].
Разомножение выборок. Используется при дефиците данных. На основе исходной выборки ограниченного объема тиражируется множество выборок для изучения эмпирического распределения, оценки параметров, проверки гипотез. Например, выделяют «метод складного ножа», «бутстреп».
Объекты нечисловой природы. Включают объекты нечисловой природы (нелинейные пространства не имеющие векторную структуру). Их нельзя складывать и умножать на числа, но используются расстояния между объектами (меры близости и показатели различия). Примеры: значения качественных признаков, ранжировки объектов, разбиения объектов, парные сравнения, слова, предложения, тексты.
СОЗДАНИЕ ЭКСПЕРТНОЙ СИСТЕМЫ
Основная идея, которая последовательно была реализована в экспертной системе, состоит в том, что, поскольку персональные компьютеры становятся повсеместно распространенными, то могут использоваться любые самые сложные, комплексные методы обработки, если они приводят к повышению точности измерений и/или к снижению трудоемкости обработки данных. Резерв повышения точности при обработке данных на ПК заключается, прежде всего, в отказе от непроверяемых априорных предположений, приводящих к оцениванию "сверху". Часть априорных предположений проверяется с помощью стандартных статистических критериев. Для анализа последствий использования других предположений используется имитационное моделирование. В тех случаях, когда априорные предположения не выполняются, замена моделей происходит на основе априорной информации, хранящейся в базах знаний и данных. Все манипуляции с данными и математическими моделями в автоматизированной информационной системе осуществляются при минимальном участии пользователя, что позволяет надеяться, что она найдет широкое применение в работах по метрологическому обеспечению физико-химических измерений. Обработка результатов измерений проводится с использованием стандартных методов, но с учетом технологических критериев. Только совместное использование критериев из математической статистики и технологических критериев, таких как критерии потери качества, экономичности и безопасности дает возможность провести объективную оценку результатов измерений. Для осуществления оценки результатов измерения технологические критерии более важны, чем математические.
Структура экспертной системы. Особенность экспертной системы состоит в том, что математические модели и наборы экспериментальных данных играют роль фактов, а правила устанавливаются с помощью статистических методов исследования. Для каждого типа данных и для каждой новой задачи обработки создается математическая модель. Любая математическая модель на первом этапе рассматривается только как гипотеза, которая с одной стороны не должна противоречить накопленной системе знаний, а с другой должна выдерживать проверку практикой. Метрологическая аттестация рассматривается как исследование статистическими методами с использованием технологических критериев оценки. На первом этапе этих исследований анализируется априорная информация об измерительной задаче, которая используется, во-первых, для планирования эксперимента и, во-вторых, для обоснования критериев, позволяющих определить, решена ли с требуемой точностью поставленная измерительная задача. На следующем этапе полученные экспериментальные данные обрабатываются применительно к выбранной модели. Далее с помощью обоснованных критериев оценивается ее пригодность. Если выбранная модель позволяет решать поставленную измерительную задачу, она используется для контроля определяемых веществ, если не позволяет – производится выбор новой модели и, при необходимости, планирование нового эксперимента.
Экспертная система состоит из базы знаний, базовой программы и пользовательского интерфейса (диалоговый компонент, ориентированный на организацию общения с пользователем). В базе знаний хранятся математические модели, критерии, физико-химические данные, которые используются при обработке данных. При создании экспертной системы, учитывалось в первую очередь то, что специалист-метролог, студент, для которого создается автоматизированная система, может иметь минимальный опыт работы на персональном компьютере, и поэтому пользовательский интерфейс сделан очень простым, диалог с пользователем ведется на русском языке. Вывод результатов обработки организован в графической форме с поясняющим текстом.
Структуру экспертной системы можно представить в виде схемы:
Формирование исходных данных;
Предварительный анализ;
Вычисление метрологических характеристик градуировочного графика;
Вычисление метрологических характеристик результатов анализа;
Проверка однородности дисперсии градуировочного графика и анализируемых проб;
Вывод результатов обработки на экран дисплея (график и поясняющий текст);
Возврат в базу данных
Лекция 8. ЛИНЕЙНЫЙ РЕГРЕССИОНЫЙ АНАЛИЗ. МНОГОМЕРНЫЕ ФИЗИЧЕСКИЕ ПОСТРАНСТВА
Корреляционный анализ (дисперсионный анализ) означает нахождение уравнения и статистических характеристик, описывающих зависимость параметров. Параметры могут быть приняты как аргументы или иначе - факторы (фундаментальные параметры) и как функции (параметры зависящие от аргумента). Корреляционный анализ изначально предполагает значимость погрешностей всех параметров. В обратном случае необходимо называть процесс исследования взаимосвязи параметров регрессионным анализом. Таким образом, регрессионный анализ является частным случаем корреляционного анализа. В дальнейшем рассмотрим частный случай корреляционного анализа – линейный регрессионный анализ (имеет место линейная зависимость функции от аргумента и погрешность аргумента незначима по сравнению с погрешностью функции).
При линейном регрессионном анализе зависимости двух параметров решаются следующие вопросы: Нахождение уравнения, оптимально описывающего зависимость параметров (нахождение уравнения регрессии). Нахождение показателя, характеризующего связь между двумя параметрами (соответствующий коэффициент называется коэффициентом корреляции). Оценка статистических характеристик полученного уравнения.
Нахождение коэффициентов линейного уравнения регрессии методом наименьших квадратов (МНК) определяется проведением прямой линии охватывающей экспериментальные данные таким образом, чтобы сумма квадратов отклонений экспериментальных данных от линии регресии была наименьшей.
Алгоритм обработки данных: В базе данных имеются n значениq двух параметров (xi, yi). Аргументу присваивается символ Х, а функции – Y. Для наглядности зависимость нужно отобразить графически: Y=f(X). Находят угловой коэффициент уравнения регрессии: b=(xi-X)*(yi-Y)/(xi-X)2, и свободный член уравнения регрессии: a=Y-bX, составляют уравнение регрессии: Y=a+bX. Угловой коэффициент b может быть интерпретирован как величина изменения результативного признака (Y) при изменении факторного признака (X) на единицу. Минимизация суммы квадратов отклонений точек по оси Y не означает одновременно, что аналогичная сумма квадратов по оси X тоже будет минимальной.
Вычисление коэффициента корреляции. Количественной статистической мерой линейной зависимости между признаками, имеющими количественное выражение, является коэффициент корреляции r:
r=[(xi-X)*(yi-Y)]/SQR((xi-X)2 (yi-Y)2), r=(nxi yi-xi yi)/SQR([nxi2-(xi)2]*[nyi2- yi)2]
Формулы равнозначны, но вторая более удобна для программирования. r может принимать значения от 0 до 1. При r = 0 связь между факторами отсутствует, при r = 1 связь однозначная. Однако r не является показателем точности прогноза, его можно использовать только для решения вопроса о том, в каком случае взаимная связь факторов больше или меньше. r можно рассматривать как среднее геометрическое из угловых коэффициентов двух линий регрессий Y по X и X по Y: rxy=SQR(b*b`).
Для метрологической
проработки результатов измерений кроме
расчета параметров регрессии необходима
оценка всех видов погрешностей, сравнение
с технологическими и другими видами
оценок, вычисление рабочей области
измерений. Эти вопросы решаются в ходе
практических работ. При проведении
измерений необходимо стремиться к
обеспечению оптимальной точности
результата измерений. При этом следует
помнить, что низкая точность измерений
приводит к получению ошибочной информации
о состоянии измеряемого объекта.
Необоснованно высокая точность измерения
может быть экономически неоправданной.
Поэтому при решении вопроса о выборе
средств и методов измерений следует
помнить следующие основные положения:
1. Средства измерений не должны оказывать
значимое влияние на физическое состояние
измеряемого объекта. 2. Когда абсолютные
измерения не позволяют получить
результаты с необходимой точностью,
следует перейти к относительным
измерениям как одному из способов
получения результата измерений с более
высокой точностью. 3.Повышение точности
результата измерений может быть
достигнуто исключением грубых и
систематических погрешностей из
результатов измерений и уменьшением
влияния случайных погрешностей. При
этом во всех случаях грубые погрешности
(промахи) следует исключать из результатов
измерений. Систематические погрешности
следует исключать тогда, когда это
обеспечивает заметное повышение
точности. Необходимо иметь в виду, что,
если принять за результат измерений
среднее арифметическое из ряда
n-измерений, точность повышается в n0.5
раз. Зависимость между х
и
единичных измерений определяется
равенством
о
=х/n.
4.Неоднородность измеряемого объекта
не должна оказывать влияние на результат
его измерений. 5. Необходимо помнить,
что порог чувствительности средств
измерений ограничена. Точность результата
измерений никогда не может быть выше
порога чувствительности средств
измерений.
Ограничения в линейном регрессионном анализе: 1. Факторы и функции известны и детерминированы. 2. Нет ограничений на параметры. 3. Нет значимой систематической погрешности. 4. Σε(t)=0 – выполняется условие несмещенности случайной погрешности. t – k-мерный вектор факторов.
Регрессионный анализ модели включает этапы: 1. Точечная оценка параметров и самой функции, оценка σ2. При этом используется метод МНК, не требующий знания типа распределения вероятностей случайных погрешностей. Другие методы, требующие знания типа распределения: МНСП (метод наибольшего статистического правдоподобия), метод максимизации апостериорной плотности распределения параметров (оценивание по Байесу). 2. Оценка точности. Геометрические характеристики элипсоида рассеяния параметров (ЭРОП) определяются статистическими характеристиками случайных погрешностей параметров. Квадрат объема ЭРОП пропорционален обобщенной дисперсии оценок параметров. Эллипсоид рассеяния МНК-оценок имеет наименьшие размеры в классе несмещенных оценок. Критерии МНК-оценок являются основой при формировании критериев оптимальности в планировании экспериментов. 3. Доверительное оценивание. При условии известности вида распределения формируется эллипсоид рассеяния оценок параметров, который с вероятностью Р накрывает вектор истинных параметрических функций. 4. Проверка статистических гипотез. Чаще всего проверяют гипотезы о незначимости погрешностей параметров; о незначимости некоторых параметров в определенных участках функций; об адекватности модели. Оценку незначимости параметров на определенных участках физического пространства можно рассмотреть на примере практической работы 7.
Нелинейный регрессионный анализ. Отличия от линейного регрессионного анализа: 1. Отклик зависим от факторов нелинейно. Решений уравнений нетривиальное с множеством неоднозначных решений. Часто функции имеют параметры в неявном виде (нельзя решить уравнения аналитически через этот параметр). 2. В случае нормального распределения погрешностей факторов, погрешности и оценки откликов могут иметь другие распределения. Определение видов этих распределений затруднено. В результате затруднены процедуры доверительного оценивания и проверка гипотез моделей. В случае несмещенности (незначимости систематических погрешностей), равноточности и некоррелированности наблюдений задача аналогична линейному регрессионному анализу со следующими дополнениями: 1. Использование методов линеаризации функции (получение анаморфоз). 2. Использование метода поправок (поправки к линейной составляющей). 3. Использование данных, полученных по прямой математической модели для первоначальной оценки параметров. Прямой математической моделью следует называть модель, созданную на основе априорной информации. Модель должна содержать все значимые факторы и отклики. Значения параметров могут быть любыми или в заданных границах. Подбирая значения констант, параметров, откликов и оптимально подгоняя под экспериментальные данные, можно дискриминировать уравнения. Полученные таким образом начальные оценки позволяют более точно провести оценку соответствия с данными эксперимента. Далее можно создать новую модель, задача которой провести уточнение целевых функций. Такой цикл расчетов называется итерационным. Число циклов итераций определяется незначимостью поправок за счет итераций. Оценка последней итерации считается окончательной. Указанная процедура является универсальной при исследовании любых сложных систем.
Проблема неединственности решения задач оценивания параметров регрессии. Даже при большом числе опытов, проведенных различными способами и средствами, неоднозначность определения оценок параметров или создание адекватной объекту математической модели является неоднозначной, неединственной (неединственность информационной матрицы). Априорная неидентифицируемость определяется структурой модели (модель может быть излишне упрощенной, что дает ложные результаты; излишне сложной, что дает невозможность получения решений из-за нехватки возможностей ЭВМ, интерпретации данных, неоднозначности результатов и т.д.); неадекватной (неправильно выбраны предпосылки, граничные условия и т.д. – ложная модель). Такая неидентифицируемость не может быть устранена за счет выбора более совершенного эксперимента. Устранение проблемы проводится за счет нового анализа структуры модели и вывода о возможности или невозможности однозначного определения параметров в условиях хотя бы идеального эксперимента (неограниченный объем наблюдений, отсутствие погрешностей, новые методы и способы эксперимента). Различают два вида априорной неидентифицируемости: Модель называется структурно - локально неидентифицируемой (СЛНИ), если для параметрического пространства есть участки, где непрерывное преобразование параметров не приводит к изменению отклика, что легко приводит к смещенным оценкам параметров. Такое положение может быть устранено при привлечении дополнительной информации о параметрах модели. СЛНИ модель допускает репараметризацию (переход к другим параметрам, которые могут быть оценены однозначно). Такие параметры называются параметрическими функциями, допускающие оценивание (ПФДО). Установив связи между отдельными функциями базисного уравнения можно устранить СЛНИ. Число таких ПФДО равно числу линейно независимых функций. Также причины неоднозначности определения оценок параметров могут быть в результате нарушения условия линейной независимости отдельных функций базисного уравнения. Модель называется структурно-глобально неидентифицируемой (СГНИ), если для любой точки параметрического пространства преобразование параметров не приводит к изменению отклика. Это обязательно нелинейные модели. Задача отыскания параметров для СГНИ моделей по данным идеального эксперимента может иметь конечное число решений, если есть структурно-локально идентифицируемые участки СГНИ-СЛИ модели.
Апостериорная неидентифицируемость возникает при обработке данных эксперимента и связана как с неверной структурой моделей, так и с погрешностями эксперимента, недостаточностью данных, неполным экспериментальным перебором факторного пространства, особенно в местах экстремумов и перегибов функций. Так, число опытов могут быть меньше числа параметров.