Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИНФ_методичка6.doc
Скачиваний:
4
Добавлен:
03.05.2019
Размер:
153.6 Кб
Скачать

Федеральное агентство по образованию Российской Федерации

Саратовский государственный технический университет

ОБРАБОТКА ЧИСЛОВЫХ ДАННЫХ

Методическое указание

к лабораторной работе

по дисциплинам «Информатика» и «Информационные технологии» для студентов специальностей 210601 и 210700.62

Одобрено

Редакционно-издательским советом

Саратовского государственного

технического университета

Саратов 2012

Цель работы: изучение приемов алгоритмической и программной реализации методов регрессионного анализа для обработки числовых данных.

  1. Основные теоретическое положения

1.1 Обработка числовых данных на эвм

Обработка числовых данных на ЭВМ, установленных, например, экспериментально играет важную роль в различных отраслях знаний, включая научные исследования, инженерную практику, статистику, медицину и т.д. Данное направление информационных технологий базируется на разделах прикладной математики, посвященных созданию вычислительных моделей для аппроксимации определенных объемов числовых данных. С помощью методов регрессионного анализа удается установить форму связи между случайными величинами, то есть подобрать такую функцию, которая наилучшим образом описывает поведение чисел в базе данных [1].

Для автоматизированной обработки числовых данных в настоящее время создано достаточно много пакетов прикладных программ, в том числе: Mathematica, STATISTICA, Excel, STATGRAPHICS, STADIA и др. В программе Excel, к примеру, процедура аппроксимации графика однофакторной функции реализуется щелчком правой клавиши мыши при подведении курсора к линии графика. В качестве приближающих зависимостей в Excel предусмотрены линейные и нелинейные (полином степени не выше 6, степенная, экспоненциальная и логарифмическая) функции. Подробное описание этой процедуры дано в методическом указании к выполнению практической работы № 1.

Одним из наиболее мощных пакетов для этих целей считается TableCurve3D, предназначенный для получения двухфакторных зависимостей посредством нескольких сотен числовых моделей, встроенных в этот пакет. Точность аппроксимации здесь оценивается коэффициентом регрессии, который определяется программой автоматически.

Несмотря на наличие таких удобных инструментов как пакеты прикладных программ иногда может возникнуть ситуация, когда эти программы не доступны, либо они не дают возможность достигнуть приемлемой точности аппроксимации данных. Тогда необходимо создать программу автоматической обработки числовых данных, которая позволяет решить эту проблему. Рассмотрим один из наиболее часто используемых методов аппроксимации.

1.2 Метод наименьших квадратов.

Пусть в результате измерений (или численного моделирования) получена таблица некоторой зависимости f :

Таблица 1

x

x1

x2

. . . .

xn

f(x)

y1

y2

. . . .

yn

Требуется найти функцию заданного вида:

y = F(x) (1),

которая в точках x1, x2 , xn, которая принимает значения как можно более близкие к табличным значениям y1, y2, yn . Практически вид приближающей функции F можно определить следующим образом. По таблице 1 строится точечный график функции f , а затем проводится плавная кривая, по возможности наилучшим образом отражающая характер расположения точек (рис.1). По полученной таким образом кривой устанавливается вид приближающей функции (обычно из числа простых по виду аналитических функций).

Формула (1), которую называют уравнением регрессии, позволяет находить значения функции f для нетабличных значений x, сглаживая результаты измерений величины y.

Рассмотрим один из распространенных способов нахождения (1). Предположим, что приближающая функция F в точках x1, x2 , xn имеет значения: ŷ1, ŷ2 , .. . , ŷn.

Рис.1

Рассмотрим обе совокупности значений f(x) как координаты двух точек n-мерного пространства. Тогда задачу можно сформулировать следующим образом: найти такую функцию F заданного вида, чтобы расстояние между точками G(y1, y2, yn) и Ĝ(ŷ1, ŷ2 , .. . , ŷn) было наименьшим. Это требование можно выразить [2] как:

(y1 - ŷ1)2 + (y2 - ŷ2 )2 + . . . + (yn - ŷn)2 => min (2)

Задача (2) носит название приближения функции методом наименьших квадратов. В качестве приближающих функций в зависимости от характера точечного графика функции f(x) часто используют следующие функции: y = ax + b; y = ax2 + bx + c; y = axm; y = aexp(mx); y = (ax + b)-1; y = alnx + b; y = (a/x) + b. Здесь a, b, c, m - параметры. Когда вид приближающей функции установлен, задача сводится только к отысканию значений параметров.

Рассмотрим метод нахождения параметров приближающей функции в общем виде на примере функции с тремя параметрами:

y = F(x, a, b, c) (3)

Итак, имеем: F(xi, a, b, c) = ŷi , i = 1, 2, …, n. Сумма квадратов разностей соответствующих значений функций f и F будет иметь вид:

(4)

Эта сумма является функцией Ф(a, b, c) трех переменных. Задача сводится к отысканию ее минимума. Используя необходимое условие экстремума:

Ф/∂а = 0; ∂Ф/∂b = 0; ∂Ф/∂c = 0 (5)

или (6)

(7)

(8)

Решив эту систему трех уравнений с тремя неизвестными относительно параметров a, b, c мы и получим конкретный вид искомой функции F(x, a, b, c). Значения найденной функции в точках x1, x2 , xn будут отличаться от табличных значений y1, y2, yn. Значения разностей:

yi - F(xi, a, b, c) = εi (i=1, 2, …., n) (9)

называются отклонениями измеренных значений от вычисленных. Для найденной эмпирической формулы (3) в соответствии с исходной таблицей 1 можно найти сумму квадратов отклонений:

(10)

которая в соответствии с принципом наименьших квадратов для заданного вида приближающей функции (и найденных значений параметров a, b и c) должна быть наименьшей. Из двух разных приближений одной и той же табличной функции, следуя принципу наименьших квадратов, лучшим нужно считать то, для которого сумма (10) имеет наименьшее значение.