Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Назаметдинов Анализ данных 2012

.pdf
Скачиваний:
10
Добавлен:
12.11.2022
Размер:
5.66 Mб
Скачать

Тем не менее комбинация мутаций, порождая структурные изменения в аллельных формах генов, могут приводить к увеличению степени приспособленности. Обобщение ГА на поиск максимума функции многих (для определенности n) переменных не представляет особых сложностей. Заметим, что задача минимизации функции f(x) сводится к задаче максимизации функции g(x) = -f(x); сама функция должна быть неотрицательной на всей области определения, что достигается добавлением подходящей положительной константы.

Каждая переменная кодируется бинарной строкой длиной, определяемой как и для одномерного случая. В итоге хромосома

n

представляется двоичной строкой из mi бит: первые m1 бит от-

i 1

водятся под переменную x1, следующие m2 – под х2 и так далее. Работа ГА идет по описанному выше сценарию.

Если число переменных велико и при этом предъявляются высокие требования к точности результатов, бинарное кодирование оказывается неэффективным: длина хромосомы оказывается слишком большой, соответственно большим должен быть и размер популяции Действительно, если требуемая точность составляет k знаков после запятой, то шаг дискретизации надо уменьшить в 10k раз,

соответственно

m=[log2 10k ].

Пусть, например, ищется экстремум функции 10 переменных, каждая из которых лежит в диапазоне [-100;100], точность решения по

каждой переменной – 6 знаков после запятой. Длина хромосомы составит 280 бит. Уточним процедуру декодирования хромосомы, необходимую для подсчета значения целевой функции, она же функция приспособленности. Фрагмент хромосомы, соответствующий цепочке генов переменной xi (xi [ai,bi]), переводится в десятичную форму (обозначим полученное целое число deci) и затем

масштабируется xi ai deci (bi ai ) .

2ki 1

Для многомерных задач с повышенной точностью решений применяется непрерывный ГА. Здесь ген представляется веще-

281

ственным числом и соответствует входной переменной, так что хромосома есть вектор вещественных чисел. Длина хромосомы будет совпадать с длиной вектора-решения оптимизационной задачи. Генотип объекта становится идентичным его фенотипу. Естественно, приходится вносить изменения в алгоритм рекомбинации хромосом.

Пусть c1 (c11, c12 ,...,c1n ) и c2 (c12 , c22 ,...,cn2 ) – две родительские хромосомы. Простейший кроссовер (simple crossover) случайным

образом выбирает число k из интервала {1,2,…,n-1} и генерирует

два потомка H 1 (c1,c1

,...,c1

,c2

,...,c2 ) и

H 2 (c2

,...,c2 , c1

1

,...,c1 ) .

1 2

k

k 1

n

1

k k

n

Арифметический кроссовер (arithmetical crossover) создает два по-

томка H 1

(h11,...,hn1 ) , H 2 (h12 ,...,hn2 ) , где hk1 w c1k (1 w) ck2 ,

hk2 w ck2

(1 w) c1k (k=1,…,), w – из интервала [0;1].

Взаключение отметим преимущества ГА:

1)поиск осуществляется по множеству точек одновременно, снижая тем самым опасность попадания в локальный экстремум;

2)не требуется привлечение дополнительной информации, поскольку используется только целевая функция, а не ее производные, благодаря чему увеличивается скорость работы алгоритма;

3)универсальность, поскольку ГА работает с закодированной формой параметров задачи.

Вопросы и упражнения

1.В чем состоит различие алгоритмического и нейросетевого подходов к решению задач?

2.Что является аргументом функции активации?

3.Поясните происхождение термина «алгоритм обратного распространения ошибки».

4.Укажите преимущества и недостатки бинарного кодирования.

282

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

1. Айвазян C.А., Енюков И.С., Мешалкин Л.Д. Прикладная ста-

тистика. Исследование зависимостей. М.: Финансы и статистика,

1985.

2.Айвазян C.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика, 1989.

3.Бахтин А.В., Чалый В.Д. Многокритериальные планы эксперимента для построения моделей объектов и процессов. М.: МИФИ, 1995

4.Демиденко Е.З. Линейная и нелинейная регрессии. М. Финансы и статистика, 1981.

5.Джонстон Дж. Эконометрические методы. М.: Статистика,

1980.

6.Доугерти К. Введение в эконометрику. М.: ИНФРА-М, 2009.

7.Дэйвисон М. Многомерное шкалирование. М.: Финансы и статистика, 1988.

8.Ежов А.А., Шумский С.А. Нейрокомпьютинг и его применение в экономике и бизнесе. М.: МИФИ, 1998.

9.Елтаренко Е.А. Элементы теории измерений. М.: МИФИ,

1980.

10.Жамбю М. Иерархический кластерный анализ и соответствия. М.: Финансы и статистика, 1988.

11.Иберла К.Факторный анализ. М.:Статистика,1980.

12.Канторович Г.Г. Анализ временных рядов. // Экономический журнал ВШЭ, №3, 2002.

13.Кендэл М. Временные ряды. М.: Финансы и статистика,

1981.

14.Кремер Н.Ш., Путко Б.А. Эконометрика. М.: ЮНИТИ, 2006.

15.Кричевский М.Л. Интеллектуальные методы в менеджменте. М.: Питер, 2005.

16.Крянев А.В., Лукин Г.В. Математические методы обработки неопределенных данных. М.: Физматлит, 2003.

17.Луговская Л.В. Эконометрика в вопросах и ответах. М.: Проспект, 2005.

283

18.Лукашин Ю.П. Адаптивные методы краткосрочного прогнозирования. М.: Статистика, 2003.

19.Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика.

М.: «Дело», 2001.

20.Марковский М.В., Чалый В.Д. Информационная технология идентификации динамических объектов. М.: МИФИ, 1999.

21.Миркин Б.Г. Анализ качественных признаков и структур. М.: Статистика, 1980.

22.Мишулина О.А. Статистический анализ и обработка временных рядов. М.: МИФИ, 2004.

23.Мостеллер Ф., Тьюки Дж. Анализ данных и регрессия. М.: Финансы и статистика, 1982.

24.Орлов А.И. Эконометрика. М.: Экзамен, 2004.

25.Терехина А.Ю. Анализ данных методами многомерного шкалирования. М.: Наука, 1986.

26.Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. 3-е изд. М.: ИНФРА-М, 2003.

27.Фишер Ф. Проблемы идентификации в эконометрии. М.: Статистика, 1978.

28.Хартман К. Планирование эксперимента в исследовании тех-

нологических процессов. М.: Мир, 1977.

29. Yang, Y., Guan, X., You. J. CLOPE: A fast and Effective Clus-

tering Algorithm for Transactional Data In Proc. of SIGKDD’02, July

23-26, 2002, Edmonton, Alberta, Canada

284

СПИСОК СОКРАЩЕНИЙ

2МНК – двухшаговый метод наименьших квадратов; АР – авторегрессия; АРСС – авторегрессия-скользящее среднее;

АРИСС либо АРПСС (ARIMA – в англоязычной литературе), – интегрированный либо проинтегрированный процесс АРСС;

ДФЭ – дробный факторный эксперимент; ДФП – дробный факторный план; КК – коэффициент корреляции; МНК – метод наименьших квадратов;

ПФЭ – полный факторный эксперимент; СОУ – система одновременных уравнений; СС – скользящее среднее; ЧКК – частный коэффициент корреляции;

ЧСС – число степеней свободы; ЧССЧ – число степеней свободы числителя;

ЧССЗ – число степеней свободы знаменателя; ЧСО – числовая система с отношениями; ЭСО – эмпирическая система с отношениями

Соглашение об обозначениях

Ma – математическое ожидание случайной величины а; N – число наблюдений;

N(a;b) – нормальное распределение с математическим ожиданием а и дисперсией b;

N(0;1) – стандартное нормальное распределение (с нулевым математическим ожиданием и единичной дисперсией);

t(ЧСС) – t-распределение с заданным ЧСС;

(p,d,q) – порядок авторегрессии, порядок разности, порядок скользящего среднего соответственно в процессе АРИСС(p,d,q);

q – уровень значимости;

1-q – уровень надежности (обычно в процентах);

xij – значение i-й компоненты вектора х в j-м наблюдении; А′ – транспонированная матрица А.

285

Низаметдинов Шамиль Умерович Румянцев Виктор Петрович

Анализ данных

Учебное пособие

Редактор Е.К. Коцарева

Подписано в печать 15.11.2011. Формат 60×84 1/16. Печ.л. 18,0. Уч.-изд.л. 17,25. Тираж 100 экз.

Изд. № 1/55. Заказ № 19.

Национальный исследовательский ядерный университет «МИФИ». 115409, Москва, Каширское шоссе, 31

ООО «Полиграфический комплекс «Курчатовский». 144000, Московская область, г. Электросталь, ул. Красная, 42