Добавил:

bagiwow Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Пермский национальный исследовательский политехнический университет

Предмет:

Нейронные сети

Файл:

Сборник методов нейроинформатики.DOC

Скачиваний:

122

Добавлен:

10.12.2013

Размер:

3.85 Mб

Скачать

☆

<<< < Предыдущая 12 / 522 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Моделирование данных при помощи кривыхдля восстановления пробелов в таблицах

А.А.Россиев

Институт вычислительного моделирования СО РАН

660036, Красноярск-36, ивм со ран,

E-mail: alexross@cc.krascience.rssi.ru

Предложен и реализован метод последовательного моделирования набора данных одномерными многообразиями (кривыми). Метод интерпретируется как построение конвейера нейронов для обработки данных с пробелами. Другая возможная интерпретация – итерационный метод главных компонент и нелинейный факторный анализ для данных с пробелами.

1. Общая схема метода

Для заполнения пробелов в данных в общем случае обычные уравнения регрессии практически неприменимы из-за большого разнообразия возможного расположения пропущенных данных – 2ⁿ-1 вариантов дляn-мерного вектора данных. Более перспективным представляется моделирование множества данных многообразиямиMмалой размерности. Вектор данныхxсkпробелами представляется какk-мерное линейное многообразиеL_x, параллельноеkкоординатным осям, которые соответствуют пропущенным данным. При наличии априорных ограничений на пропущенные значения местоL_xзанимает прямоугольный параллелепипедP_xL_x. Особую роль во всем дальнейшем рассмотрении играют две точки:

Pr_M(x) – ближайшая кx(соответственно кL_xилиP_x) точкаM,

и для некомплектных данных – Im_M(x) – ближайшая кMточкаL_x(или, соответственно,P_x).

С использованием этого многообразия Mпроизводятся следующие операции:

заполнениепробелов – заменаxна Im_M(x),

ремонт данных(замещение данных моделью) – заменаxна Pr_M(x).

Регрессионная зависимостьодной части данных от другой определяется через заполнение пробелов, соответствующих зависимым переменным, по известным значениям независимых.

Итерационный процесс моделирования данных состоит в том, что для исходных данных строится наилучшая (в определенном точном смысле) модель – многообразие Mмалой размерности. Далее из данныхx(соответственноL_xилиP_x) вычитаются проекции Pr_M(x). Получаем уклонения от первой модели. Для этого множества уклонений снова строится простая модель и т.д., пока все уклонения не станут достаточно близки к нулю. В следующем разделе описаны простейшие линейные модели данных, которые могут интерпретироваться как сингулярные разложения таблиц с пробелами. Далее с использованием линейных моделей строятся простейшие нелинейные.

2. Итерационный метод главных компонент для данных с пропусками

Пусть задана прямоугольная таблица, клетки которой либо заполнены действительными числами или значком @, означающим отсутствие данных. Требуется правдоподобным образом восстановить отсутствующие данные. При более детальном рассмотрении возникают три задачи:

заполнить пропуски в таблице;

отредактировать таблицу– изменить значения известных данных таким образом, чтобы наилучшим образом работали модели, используемые при восстановлении пропущенных данных;

построить по таблице вычислитель, заполняющий пробелы в приходящей для анализа строке данных с пробелами (в предположении, что данные в этой строке связаны теми же соотношениями, что и в строках таблицы).

Для решения этих задач предлагается использовать метод последовательного приближения множества векторов данных (строк таблицы) прямыми.

Основная процедура – поиск наилучшего приближения таблицы с пропусками матрицей видаx_iy_j+b_j.

Пусть задана таблица с пропусками A=(a_ij). Ставится задача поиска наилучшего приближенияA матрицей видаx_iy_j+b_j методом наименьших квадратов:

(1)

Если фиксированы два из трех векторов x_i, y_j иb_j, то третий легко находится по явным формулам. Задаваясь практически произвольными начальными приближениями для двух из них, ищем значение третьего, далее, объявляем неизвестным другой вектор из трех, находим его значение, наконец, находим третий и т.д. (по кругу) – эти простые итерации, очевидно, сходятся. Более того, по фиксированномуx_i, можно сразу по явным формулам посчитать значенияy_jиb_j– таким образом расщепление производится не на три, а на две составляющие.

При фиксированных векторах y_jиb_jзначенияx_i, доставляющие минимум форме (1), определяются из равенствx_i=0 следующим образом:

При фиксированном векторе x_i значенияy_jиb_j, доставляющие минимум форме (1), определяются из двух равенствy_j=0 и b_j=0 следующим образом:

Для каждого j имеем систему из двух уравнений относительноy_j иb_j:

, где,,k=0..1, l=0..1.

Выражая из первого уравнения b_jи подставляя полученное значение во второе, получим:

Начальные значения:

y – случайный, нормирован на 1 (т.е.)

, где(число известных данных вj-ом столбце), т.е.b_j определяется как среднее значение в столбце.

Критерий остановки – малость относительно улучшения /, где– полученное за цикл уменьшение значения, а– само текущее значение. Второй критерий – малость самого значения. Окончательно: процедура останавливается, еслиили для некоторых, 0.

Последовательное исчерпание матрицы A.

Для данной матрицы A ищем наилучшее приближение матрицейP₁ видаx_iy_j+b_j. Далее, дляA-P₁ищем наилучшее приближение этого же видаP₂ и т.д. Контроль ведется, например, по остаточной дисперсии столбцов.

Q-факторное заполнение пропусков есть их определение из суммыQполученных матриц видаx_iy_j+b_j,

Q-факторный “ремонт” таблицы – замена ее на суммуQполученных матриц видаx_iy_j+b_j.

Пусть в результате описанного процесса построена последовательность матриц P_q видаx_iy_j+b_j (), исчерпывающая исходную матрицуA с заданной точностью. Опишем операцию восстановления данных в поступающей на обработку строкеa_j с пробелами(некоторыеa_j=@). Для каждогоq по заданной строке определим числоx^q(a) и вектор:

;

…………….. (2)

;

……………..

Здесь многообразие M – прямая, координаты точек наM задаются параметрическим уравнениемz_j=ty_j+b_j, а проекцияPr_M(a) определяется согласно (2):

Pr(a)=t(a)y_j+b_j;

. (3)

Для Q-факторного восстановления данных полагаем:

,. (4)

Если пробелы отсутствуют, то описанный метод приводит к обычным главным компонентам – сингулярному разложению исходной таблицы данных. В этом случае, начиная с q=2, (b=0). В общем случае это не так и центрирование к данным с пробелами неприменимо.

Также следует учесть, что при отсутствии пробелов, полученные прямые будут ортогональны, то есть получим ортогональную систему факторов (прямых). Исходя из этого, при неполных данных возможен процесс ортогонализации полученной системы факторов, который заключается в том, что исходная таблица восстанавливается при помощи полученной системы, после чего эта система пересчитывается заново, но уже на полных данных.

<<< < Предыдущая 12 / 522 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете Нейронные сети

#
10.12.2013162.67 Кб57Модель приниадаптивных решений.pdf
#
10.12.20131.99 Mб214Нейрокомпьютернатехника.doc
#
10.12.2013172.54 Кб96Проектирование быстрых нейронных сетей.doc
#
10.12.20133.85 Mб122Сборник методов нейроинформатики.DOC
#
10.12.2013126.98 Кб45Содержание.doc