Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
2242.pdf
Скачиваний:
6
Добавлен:
07.01.2021
Размер:
4.37 Mб
Скачать

3.3.1. Анализ и первичная обработка данных

При проведении исследований и сборе информации об исследуемом объекте могут появляться ошибки, которые делятся по причине возникновения на следующие виды:

Грубые.

Системные.

Случайные [5].

Грубые ошибки возникают"в случае невнимательности исследо-

вателя, записывающего, передающего или получающего информацию

[5].

СибАДИ

 

Систематические ошибки могут появиться в процессе сбора или

обработки информации, либо под влиянием человеческого фактора (желание приукрасить ситуац ю или скрыть часть неблагоприятной информации) [5]. Систематические" ошибки, вызванные применением неисправного измерительного инструмента, могут быть устранены путем визуального или статистического анализа.

 

Случайные ошибки неизбежны и связаны с воздействием мно-

 

ВПО

жества не зависящих от исследователя факторов [5].

 

Ошибки в статистике называют «выбросами». В статистических

данных могут содержаться следующие виды «выбросов»:

Пропущенные данные.

Дубликаты (ФГБОУповторяющиеся данные).

)

Аномальныесзначения (резко отличающиеся от других получен-

 

(

 

ных данных).

Для парциального анализа данных и повышения их качества используются следующие методы и алгоритмы [3]:

сглаживание рядов данных (используется с целью удаления аномальных значений, шумов (быстрых случайных изменений данных); применяется в случае, когда ряд данных оказывается неравномерным, содержит множество различных структур, препятствующих выявлению закономерностей [3]);

восстановление пропущенных данных (применяются различные алгоритмы Data Mining, позволяющие восстанавливать пропущенные данные на основании выявленных закономерностей. В случае, если пропущено много данных, то может не хватить ис-

ходных данных для восстановления пропусков [3]);

редактирование аномальных данных (применяются алгоритмы Data Mining, позволяющие выявить скрытые закономерности и анализировать аномальные значения в полученном массиве данных и заменять их на усредненные значения. При редактировании аномальных данных необходимо быть осторожным, поскольку аномальные данные могут быть не результатом ошибки, а изменением поведения исследуемой системы алгоритмов [3]);

обработка дубликатов и противоречий (используются аналогич-

ные методы как при редактировании аномальных данных). " Для повышения качества и упрощения расчетов в статистике

используются методы снижения размерности входных данных и уст-

ранение незначащих факторов. Это обусловлено тем, что чем выше

следуемой системы, тем сложнееСибАДИпроводить их анализ и выявление

размерность пространства признаков, описывающих поведение ис-

закономерностей. Для решения задачи снижения размерности данных " и устранения незначащих факторов используются такие методы, как

корреляционно-регрессионный анализ, наивные байесовские сети и пр. Применение методовВПОпарциального анализа позволит повысить

качество и точность выявления закономерностей и прогнозирования

поведения исследуемых социально-экономических систем.

ФГБОУ

 

 

 

 

 

 

3.3.2. Расчет коэффициента корреляции

)

 

 

 

 

 

 

 

с

 

 

 

 

 

 

(

 

используется для выявления ли-

нейной взаимосвязи между

 

Коэффициент корреляции

 

 

двумя показателями

 

и ,

характери-

зующими исследуемый объект. Если понятно

между какими показа-

 

 

 

 

ет следующим свойством [7]:

 

 

 

 

то

коэффициент

телями рассчитывается коэффициент корреляции,

корреляции обозначается просто . Коэффициент корреляции облада-

1 ≤ ≤ 1.

(2)

Приведем основные критерии, по которым осуществляется интерпретация полученного коэффициента корреляции.

1.Если значение показателя корреляции равно 0, следовательно, связь между исследуемыми показателями отсутствует.

2.Если значение показателя корреляции равно по модулю 1, сле-

довательно, связь между исследуемыми показателями сильная.

Но как показывает практический опыт, в реальности коэффициент корреляции, равный 1, практически не встречается. В случае, если по расчетам коэффициент корреляции равен 1, необходимо выполнить дополнительную проверку полученных в ходе исследования данных и результатов расчетов, поскольку велика вероятность, что мог измеряться один и тот же показатель только различными методами или приборами.

3. Если значение коэффициента корреляции лежит в диапазоне от

0,1 до 0,3, это говорит о наличии слабой линейной связи между " исследуемыми показателями.

4. Если значение коэффициента корреляции лежит в диапазоне от 0,31 до 0,7, это говорит о наличии средней линейной связи между исследуемыми показателями.

5. Если значение коэффиц ента корреляции больше 0,71, можно

утверждать о сильной линейной связи между исследуемыми по-

 

СибАДИ

казателями.

"

 

6. Если коэффициент корреляции имеет положительное значение, это говорит о наличииВПОположительной связи между исследуемыми показателями, то есть если значения одного исследуемого показателя увеличиваются, следовательно, значения другого показателя также увеличиваются.

7. Если коэффициент корреляции имеет отрицательное значение,

то это говорит об отрицательной связимежду исследуемыми по-

казателями.ФГБОУЕсли значения одного показателя увеличиваются,

)

 

 

 

 

 

 

 

 

 

 

 

 

 

следовательно, значения другого исследуемого показателя будут

(

 

 

 

 

 

 

 

 

 

 

 

 

 

уменьшаться.

 

 

 

 

 

 

 

 

 

 

 

 

 

Приведем

формулы

для расчета коэффициента

 

корреляции

[7]:

 

 

 

̅= 1

 

 

 

=

1

 

 

 

 

(3)

 

 

 

 

,

 

,

 

 

2

1

 

 

 

=1

2

 

1

 

=1

2

2

 

 

 

2

2

 

=

 

 

,

(4)

=

 

− ̅,

 

 

 

 

 

 

=1

= 1

 

 

 

=1

 

 

 

(5)

 

 

 

 

− ̅,

 

 

 

 

 

 

 

 

 

 

=1

 

 

 

 

 

 

 

 

 

 

= .

(6)

 

 

 

 

где n количество измерений.

3.3.4. Построение уравнения линейной регрессии

Для выявления закономерностей функционирования исследуемых систем, выделения значимых"факторов, влияющих на поведение социально-экономических систем, используется регрессионный анализ, позволяющий выявить взаимосвязь между заданным множеством входами и выходами исследуемой системы, и построить между ними функциональную взаимосвязь. применением методов эконометрики

могут быть построены разл чные формы уравнений регрессии, но в

 

 

СибАДИ

 

данном пособии приведем"алгоритм построения линейной формы

уравнения регрессии, имеющей вид [7]:

 

 

 

ВПО

 

 

 

показатель, задающий выход исследуемой

где – результирующий = + ,

(7)

системы;

 

 

 

 

 

 

мы. – входной показатель, определяющий вход исследуемой систе-

 

Для построенияФГБОУуравнения регрессии используем метод наи-

 

)

(МНК).

 

меньших квадратовс

 

 

(

 

 

 

Уравнение регрессии строится по статистическим данным, по-

лученным в ходе исследования системы с учетом плана эксперимента. Для нахождения двух переменных а и b, входящих в выражение

(8), строится система уравнений:

 

 

 

 

 

 

 

+

 

 

2

 

=

.

(8)

 

=1

 

 

=1

 

 

 

 

=1

 

 

+ =

 

 

 

 

 

=1

 

 

=1

 

 

Эта система (8) имеет единственное решение [7]:

= 2 ,

= − ̅.

(9)

 

 

 

Найдя значения неизвестных параметров a и b и подставив их в уравнение (7), найдем уравнение линейной регрессии, наилучшим образом выражающее статистическую зависимость между величинами x и у.

Для оценки, насколько точно построенное уравнение регрессии

описывает связь между результатами наблюдений, используется

 

 

 

"

 

 

 

 

 

среднеквадратичная погрешность, определяемая по формуле

 

 

=

1

 

 

(

2

.

(10)

 

[

+ )]

 

=1

 

 

 

 

 

 

 

 

СибАДИ

 

 

 

 

 

"

 

 

 

 

 

 

 

 

 

 

 

 

, тем

Чем меньше значение среднеквадратичной погрешности

точнее уравнение регрессии описывает статистические данные.

 

ВПО

 

 

 

 

 

 

 

3.3.5. Некоторые методы прогнозирования

 

 

по одномерным временным рядам

 

 

Если необходимоФГБОУвыполнить прогноз по одному или нескольким

)

 

 

поведение социально-экономической

показателям, определяющимс

(

 

 

 

 

 

 

 

 

 

системы, используют методы прогнозирования по одномерным вре-

менным рядам.

Временным (динамическим или хронологическим) рядом называют последовательность значений некоторого показателя во времени (например, объемов продаж) [7].

Для прогнозирования по временным рядам используют следующие методы:

подвижное (скользящее) среднее (метод простого скользящего среднего, метод взвешенного подвижного (скользящего) среднего);

метод экспоненциального сглаживания;

метод проецирования тренда [7].

Метод простого скользящего среднего состоит в том, что расчет значений прогнозируемого показателя строится путем усреднения

значений этого показателя за несколько предшествующих моментов

времени по формуле

 

= 1

 

 

 

 

 

 

(11)

 

 

 

 

,

 

 

 

 

 

 

моментов времени,

 

 

где

 

– реальное значение показателя=1

в момент времени

;

 

 

 

 

N – число предшествующих

 

 

 

 

используемых

 

 

 

 

 

 

 

 

 

 

 

 

при расчете;

 

"

 

 

 

 

 

 

 

 

 

– прогноз на момент времени

 

.

 

 

 

 

 

 

 

 

 

 

 

 

Часто при составлении прогноза методом усреднения приходится наблюдать, что влияниеСибАДИиспользуемых при расчете реальных показателей оказывается неодинаковым, при этом обычно наиболее све-

жие данные имеют больший вес [7]. Для решения данной задачи ис-

 

 

 

 

 

"

 

 

 

 

 

 

 

 

 

 

 

ВПО=1 − −

 

 

пользуется метод взвешенного подвижного среднего:

 

 

 

 

 

 

=

 

 

 

 

,

(12)

 

 

 

– весовой

 

 

 

 

 

 

=1

 

 

где

 

причем

 

 

 

 

 

 

 

 

коэффициент, с которым используется показатель

в расчетах,

ФГБОУ

 

 

 

 

(13)

 

 

 

 

 

 

 

 

 

 

 

)

 

 

 

 

 

 

 

(

 

= 1.

 

 

 

 

 

с

 

 

=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Значения весовых коэффициентов задаются либо на основании результатов экспериментов, либо экспертным путем.

При расчете прогноза методом экспоненциального сглаживания учитывается отклонение предыдущего прогноза от реального показа-

теля, расчет прогнозируемых значений проводится по формуле [7]:

= 1+ ( 1 1), (14)

где − постоянная сглаживания, причем 0 < < 1, значение постоянной сглаживания задается либо на основании проведенных экспериментов, либо экспертным путем.

В основе метода проецирования тренда лежит построение пря-

( , ), = 1,2,3, … , ,

 

 

мой, которая «в среднем» наименее уклоняется от массива точек

 

заданного временного ряда [7].

 

Данная прямая задается уравнением [7]:

(15)

 

= + ,

где a и b – постоянные, подлежащие определению.

Для расчета значений a и b строится система уравнений [7]:

 

 

 

 

 

 

 

 

 

 

 

"

+ =

 

 

 

 

 

 

.

(16)

 

 

=1

 

=1

 

 

 

 

 

 

СибАДИ

 

 

 

 

"

2

 

 

 

 

 

 

+ =

 

 

 

=1

 

=1

=1

 

 

 

ВПО

 

 

 

 

 

 

Решая систему уравнений (16), получаем значения a и b, кото-

рые затем подставляются в уравнение (15). Полученное уравнение

тренда используется для прогнозирования значений временного ряда. ФГБОУ ) с (

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]