Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2117

.pdf
Скачиваний:
2
Добавлен:
15.11.2022
Размер:
1.18 Mб
Скачать

редукция данных – сокращение числа первоначально взятых признаков путем выделения наиболее значимых переменных;

выявление структуры взаимосвязей между переменными, в частности выявление групп взаимосвязанных переменных;

классификация и систематизация факторных признаков путем построения новых обобщенных показателей.

Пусть результаты наблюдений за n объектами, каждый из которых описывается m признаками, сведены в матрицу

 

x11

x12

...

x1m

 

X

x 21

x 22

...

x 2m

,

... ... ... ...

 

 

 

x n1

x n2

...

x nm

 

в которой все наблюдения центрированы, т.е. приведены к виду

xij

~

 

~

 

 

 

xij

x j , где xij – исходные результаты наблюдений за j–м

признаком i–го объекта, x j

– среднее значение j–го признака,

i

1,..., n , j

1,..., m .

 

 

 

 

 

Допустим, есть основания полагать, что первоначально

выбранное

количество

признаков

избыточно

и

рассматриваемый объект может быть охарактеризован меньшим набором из k ( k m ) основных факторов:

 

f11

 

f21

 

fk1

F

f12 , F

f22 , ...,

F

fk2 .

1

...

2

...

k

...

 

 

 

 

f1n

 

f2n

 

fkn

Модель факторного анализа предполагает, что каждый

из первоначальных признаков x1,...,xn

представляется в виде

линейной комбинации факторов F1,...,Fk

и специфического

фактора U

(u1,u2,...,um ) ,

компенсирующего в случае

необходимости разницу, возникающую при замене m–мерного базиса признаков k–мерным:

51

x j

a j1F1

a j2F2 ...

a jk Fk d ju j,

где a j1,..., a jk

– факторные нагрузки, характеризующие

существенность

влияния

каждого

фактора, d j – нагрузка

специфического фактора.

Задачу факторного анализа можно сформулировать следующим образом: определить минимальное число k линейно независимых факторов, после учета которых все остаточные корреляции между исходными признаками должны стать незначимыми.

В результате решения полученной системы из m

уравнений находятся

значения факторных

нагрузок

a jh и

самих факторов Fh , h

1,...,k . Если все полученные факторы

линейно независимы,

т. е. множество Fh

образует

полный

базис, то специфические факторы u j 0 . В противном случае будут присутствовать значения u j 0 и можно сделать вывод,

что линейная модель неточная и первоначальные признаки не могут быть линейно выражены через рассматриваемые факторы.

Разработано несколько методов решения задачи факторного анализа, самым распространенным из которых является метод главных компонент.

Согласно данному методу предполагается, что изначально число общих факторов равно числу исходных признаков исследуемого объекта. Такое предположение позволяет исключить из модели специфические факторы и сформулировать модель главных компонент в виде

k

x j

a jh Fh .

h

1

Метод главных компонент состоит в построении факторов – главных компонент, каждая из которых представляет линейную комбинацию исходных признаков. Первая главная компонента F1 определяет такое направление в

52

пространстве исходных признаков, по которому совокупность объектов имеет наибольший разброс (дисперсию). Вторая главная компонента F2 строится так, чтобы ее направление

было ортогонально направлению F1 , и она объясняла как можно большую часть остаточной дисперсии и т.д. вплоть до компоненты Fm . Достаточное число факторов k определяется

обычно на основе заранее заданного уровня объясняемой фактором дисперсии исходных признаков.

Пусть исследуемый объект описывается двумя признаками x1 и x2 . Для такого двумерного случая можно

построить следующую геометрическую интерпретацию метода главных компонент (рис. 11).

x2

x

 

1

x2

x2

x1

x1

Рис. 11. Геометрическая интерпретация метода главных компонент

Центр координат системы переносится в точку (x1, x2 )

с помощью центрирования результатов наблюдений. Вокруг них строится эллипсоид рассеяния таким образом, чтобы исследуемые объекты, изображенные точками, находились приблизительно в его очертаниях. Затем оси координат поворачиваются на угол так, чтобы ось x1 шла вдоль главной оси эллипсоида рассеяния. Чем теснее наблюдения группируются около оси x1, тем менее значащим является для

53

x2 , а

исследователя разброс точек в направлении оси

следовательно, и сама эта координата.

Аналитически процесс построения ортогональных компонент соответствует вычислению диагональной матрицы собственных значений корреляционной матрицы исходных переменных:

1

0

...

 

0

 

 

 

 

 

 

0

2

...

 

0

.

... ... ... ...

 

0

0

0

 

m

 

 

 

 

 

 

В этой матрице значения

 

j

равны дисперсиям j–х

 

 

 

 

 

признаков рассматриваемого объекта. Те главные факторы, которым соответствуют большие значения дисперсии, объясняют большую часть разнообразия исследуемых объектов и они являются важными для описания системы, а факторами с малыми значениями дисперсии можно пренебречь с целью понижения размерности.

Для выбора факторов их собственные значения

располагаются в порядке убывания

1

2

...

m

и

к

 

 

 

 

 

 

 

первому

самому

значимому

фактору

 

1

max(

j )

добавляются остальные факторы, собственные значения которых соответствуют некоторому выбранному критерию.

В качестве такого критерия могут применяться:

– критерий Кайзера, согласно которому отбираются

факторы, для которых

j

1

;

 

 

 

– критерий каменистой осыпи – число необходимых факторов определяется графически; для этого строится график с собственными значениями и на нем находится такое место, где убывание собственных значений максимально замедляется. Пример графика с собственными значениями приведен на рис.

12.

54

Рис. 12. Графический способ определения числа главных компонент

Согласно данному графику наибольшую значимость имеют первые три фактора с максимальными собственными значениями.

После определения главных компонент находятся значения факторных нагрузок из соотношения

jh r(x j, Fh ) ,

где r(x j, Fh ) – коэффициент корреляции между признаком x j и главной компонентой Fh .

Контрольные вопросы

1.Что такое кластерный анализ? Какие расстояния между объектами и меры близости между кластерами используются в кластерном анализе?

2.Какие методы используются для решения задач раздельного и иерархического кластерного анализа?

3.Что такое дискриминантный анализ? Что такое дискриминантная функция? Как определяются ее коэффициенты?

4.Что такое факторный анализ? Что такое главные компоненты? На чем основан метод главных компонент?

55

4. ТЕХНОЛОГИИ МНОГОМЕРНОГО АНАЛИЗА ДАННЫХ

4.1. Основы организации обработки больших объемов данных

Большие объемы информации, используемой, например, на крупном предприятии, требуют применения специальных программных средств, предназначенных для ввода, хранения и анализа данных – систем поддержки принятия решений

(СППР, в английской терминологии DSS – Decision support system).

Основная задача СППР – предоставить специалистам – аналитикам инструмент для выполнения анализа данных. СППР не генерируют правильные решения сами, а только предоставляет аналитику данные в соответствующем виде (отчеты, графики, таблицы и т.д.) для изучения и анализа.

Задачи, решаемые с помощью СППР, в зависимости от их интеллектуальности можно разделить на три класса:

информационно–поисковый анализ – СППР осуществляет поиск необходимых данных; характерной чертой такого анализа является выполнение заранее определенных запросов;

оперативно–аналитический анализ – СППР производит группирование и обобщение данных в любом виде, необходимом аналитику; заранее предсказать необходимые запросы невозможно;

интеллектуальный анализ – СППР осуществляет поиск фундаментальных логических закономерностей в накопленных данных, построение моделей и правил, которые объясняют найденные закономерности и/или прогнозируют развитие некоторых процессов.

Таким образом, обобщенно архитектура СППР включает следующие подсистемы:

1) подсистема ввода данных – выполняет операционную (транзакционную) обработку данных (Online transaction

56

processing, OLTP); для реализации этих подсистем используются обычные СУБД;

2)подсистема хранения – реализуется, как правило, с помощью современных СУБД и хранилищ данных;

3)подсистема анализа – включает следующие подсистемы:

– подсистему информационно–поискового анализа на базе реляционных СУБД и статических запросов с использованием языка структурных запросов SQL;

– подсистему оперативного анализа реализуется с помощью OLAP – технологии, использующей концепцию многомерного представления данных;

– подсистему интеллектуального анализа, реализующие методы и алгоритмы Data Mining.

OLTP–системы оперативной обработки транзакций достаточно успешно решают задачи сбора, хранения и поиска информации, однако их применение для полноценного анализа данных не является эффективным. Основной причиной этого является различие в требованиях, предъявляемых к OLTP– системам и системе анализа (табл. 9).

Противоречивость требований к OLTP–системам и системам, ориентированным на глубокий анализ информации, усложняет задачу их интеграции как подсистем единой СППР.

Внастоящее время наиболее популярным решением этой проблемы является подход, ориентированный на использовании концепции хранилищ данных. Общая идея хранилищ данных заключается в разделении базы данных для OLTP–систем и базы данных для выполнения анализа и последующем их проектировании с учетом соответствующих требований.

Хранилище данных (ХД) – интегрированный, неизменчивый, поддерживающий хронологию набор данных, организованный для целей поддержки принятия решений.

Интеграция данных в ХД заключается в приведении данных, извлеченных из разных систем, к единому формату.

57

 

 

Таблица 9

 

 

 

 

Характеристика

Требования к OLTP–

Требования к системе

 

системе

анализа

 

 

 

 

Доступ к данным

Запросы к данным

 

Характер запросов

пользователя

могут быть

 

осуществляется по

произвольными и

 

к данным

 

заранее составленным

заранее не

 

 

 

 

запросам

определены

 

 

Должна быть

Должна быть

 

 

возможность в любое

 

Управление

возможность

 

время добавлять,

 

данными

периодически

 

изменять и удалять

 

 

обновлять данные

 

 

данные

 

 

 

 

 

Допускаются неверные

Не допускаются

 

Качество данных

данные из–за ошибок

 

ошибки в данных

 

 

ввода

 

 

 

 

Время обработки

 

Время отклика

 

Время отклика системы

системы может

 

обращений к

 

измеряется в секундах

составлять несколько

 

данным

 

 

минут

 

 

 

 

Характер

 

Загрузка процессора

 

вычислительной

Постоянная средняя

только при

 

нагрузки на

загрузка процессора

выполнении запроса,

 

систему

 

но на 100%

 

 

Основными

Приоритетными

 

 

являются

 

Приоритетность

приоритетами

 

обеспечение гибкости

 

характеристик

являются высокая

 

системы и

 

системы

производительность и

 

независимости

 

 

доступность

 

 

работы пользователей

 

 

 

 

Поддержка хронологии заключается в том, что для проведения анализа все данные, хранящиеся в ХВ, привязываются ко времени.

Неизменяемость – данные после загрузки в ХД только читаются. Это позволяет существенно повысить скорость доступа к данным за счет исключения операций модификации.

Все данные в ХД делятся на три основных категории:

1. Детальные данные – данные, переносимые непосредственно из OLTP–систем (например, продажи,

58

результаты наблюдений и т.д.). Принято делить все данные делятся на измерения и факты. Измерения – наборы данных, необходимые для описания событий, например, товары, города, люди. Факты – данные, отражающие сущность событий (сведения о продажах, результаты измерений…).

2.Агрегированные данные формируются на основании детальных данных путем суммирования числовых фактических данных по отдельным измерениям.

3.Метаданные – информация о содержащихся в ХД

данных:

– описание объектов предметной области, информация о которых хранится в ХД (возможные значения атрибутов объектов, источники информации об объектах и др.);

– описание категорий пользователей, использующих данные (сведения о пользователях и их категории доступа);

– места хранения данных (местоположение источников данных – серверов и рабочих станций, установленное на них программное обеспечение и др.);

– описание действий, выполненных над данными (исправление ошибок, расщепление / слияние полей и т.д.);

– время выполнения разных операций над данными (загрузка, агрегирование, извлечение…);

– причины, повлекшие выполнение над данными тех или иных операций (требования пользователей, статистика обращений к данным и т.д.).

В зависимости от способа организации ХД можно разделить следующим образом:

1. Виртуальные ХД – данные не копируются из источников информации в единое хранилище, а извлекаются, преобразуются и интегрируются непосредственно при выполнении аналитических запросов в оперативной памяти компьютера. Достоинством виртуальных ХД является минимизация объема памяти, занимаемой на носителе информации, но при этом они обладают следующими недостатками:

– большое время обработки запросов;

59

временная недоступность хотя бы одного источника информации может привести либо к невыполнению аналитического запроса, либо к ошибочным результатам;

требуются значительные ресурсы компьютеров, что приводит к снижению производительности OLTP–систем, что является недопустимым, т.к. время выполнения операций в таких системах часто бывает критичным;

сложность формирования единого непротиворечивого взгляда на объект исследования из–за различий в форматах данных, несинхронностью моментов обновления данных в разных источниках информации и т.д.;

практическая невозможность получения данных за долгий период времени, т.к. доступны только те данные, которые на момент запроса есть в источнике; устаревшие данные могут быть уже удалены или выгружены в архив.

2. Физические ХД – отформатированные данные физически размещаются на носителе, что связано с решением следующих проблем:

потребность в эффективном хранении и обработке очень больших объемов информации;

повышенные требования к безопасности данных. Снижения затрат на создания ХД можно добиться,

используя витрину данных (ВД) – упрощенный вариант ХД, содержащий только тематически объединенные данные.

ВД максимально приближена к конечному пользователю и содержит данные, тематически на него ориентированной (например, данные только по конкретному отделу или городу). ВД существенно меньше по объему, чем ХД, и для ее реализации не требуется больших затрат. Они могут быть реализованы как самостоятельно, так и вместе с ХД.

Самостоятельные (автономные) ВД часто встречаются в организациях с большим количеством независимых подразделений, решающих собственные аналитические задачи. Достоинствами такого подхода являются:

60

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]