Тем не менее комбинация мутаций, порождая структурные изменения в аллельных формах генов, могут приводить к увеличению степени приспособленности. Обобщение ГА на поиск максимума функции многих (для определенности n) переменных не представляет особых сложностей. Заметим, что задача минимизации функции f(x) сводится к задаче максимизации функции g(x) = -f(x); сама функция должна быть неотрицательной на всей области определения, что достигается добавлением подходящей положительной константы.
Каждая переменная кодируется бинарной строкой длиной, определяемой как и для одномерного случая. В итоге хромосома
n
представляется двоичной строкой из mi бит: первые m1 бит от-
i 1
водятся под переменную x1, следующие m2 – под х2 и так далее. Работа ГА идет по описанному выше сценарию.
Если число переменных велико и при этом предъявляются высокие требования к точности результатов, бинарное кодирование оказывается неэффективным: длина хромосомы оказывается слишком большой, соответственно большим должен быть и размер популяции Действительно, если требуемая точность составляет k знаков после запятой, то шаг дискретизации надо уменьшить в 10k раз,
соответственно
m=[log2 10k ].
Пусть, например, ищется экстремум функции 10 переменных, каждая из которых лежит в диапазоне [-100;100], точность решения по
каждой переменной – 6 знаков после запятой. Длина хромосомы составит 280 бит. Уточним процедуру декодирования хромосомы, необходимую для подсчета значения целевой функции, она же функция приспособленности. Фрагмент хромосомы, соответствующий цепочке генов переменной xi (xi [ai,bi]), переводится в десятичную форму (обозначим полученное целое число deci) и затем
масштабируется xi ai deci (bi ai ) .
2ki 1
Для многомерных задач с повышенной точностью решений применяется непрерывный ГА. Здесь ген представляется веще-
ственным числом и соответствует входной переменной, так что хромосома есть вектор вещественных чисел. Длина хромосомы будет совпадать с длиной вектора-решения оптимизационной задачи. Генотип объекта становится идентичным его фенотипу. Естественно, приходится вносить изменения в алгоритм рекомбинации хромосом.
Пусть c1 (c11, c12 ,...,c1n ) и c2 (c12 , c22 ,...,cn2 ) – две родительские хромосомы. Простейший кроссовер (simple crossover) случайным
образом выбирает число k из интервала {1,2,…,n-1} и генерирует
два потомка H 1 (c1,c1 |
,...,c1 |
,c2 |
,...,c2 ) и |
H 2 (c2 |
,...,c2 , c1 |
1 |
,...,c1 ) . |
1 2 |
k |
k 1 |
n |
1 |
k k |
n |
Арифметический кроссовер (arithmetical crossover) создает два по-
томка H 1 |
(h11,...,hn1 ) , H 2 (h12 ,...,hn2 ) , где hk1 w c1k (1 w) ck2 , |
hk2 w ck2 |
(1 w) c1k (k=1,…,), w – из интервала [0;1]. |
Взаключение отметим преимущества ГА:
1)поиск осуществляется по множеству точек одновременно, снижая тем самым опасность попадания в локальный экстремум;
2)не требуется привлечение дополнительной информации, поскольку используется только целевая функция, а не ее производные, благодаря чему увеличивается скорость работы алгоритма;
3)универсальность, поскольку ГА работает с закодированной формой параметров задачи.
Вопросы и упражнения
1.В чем состоит различие алгоритмического и нейросетевого подходов к решению задач?
2.Что является аргументом функции активации?
3.Поясните происхождение термина «алгоритм обратного распространения ошибки».
4.Укажите преимущества и недостатки бинарного кодирования.
282
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
1. Айвазян C.А., Енюков И.С., Мешалкин Л.Д. Прикладная ста-
тистика. Исследование зависимостей. М.: Финансы и статистика,
1985.
2.Айвазян C.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика, 1989.
3.Бахтин А.В., Чалый В.Д. Многокритериальные планы эксперимента для построения моделей объектов и процессов. М.: МИФИ, 1995
4.Демиденко Е.З. Линейная и нелинейная регрессии. М. Финансы и статистика, 1981.
5.Джонстон Дж. Эконометрические методы. М.: Статистика,
1980.
6.Доугерти К. Введение в эконометрику. М.: ИНФРА-М, 2009.
7.Дэйвисон М. Многомерное шкалирование. М.: Финансы и статистика, 1988.
8.Ежов А.А., Шумский С.А. Нейрокомпьютинг и его применение в экономике и бизнесе. М.: МИФИ, 1998.
9.Елтаренко Е.А. Элементы теории измерений. М.: МИФИ,
1980.
10.Жамбю М. Иерархический кластерный анализ и соответствия. М.: Финансы и статистика, 1988.
11.Иберла К.Факторный анализ. М.:Статистика,1980.
12.Канторович Г.Г. Анализ временных рядов. // Экономический журнал ВШЭ, №3, 2002.
13.Кендэл М. Временные ряды. М.: Финансы и статистика,
1981.
14.Кремер Н.Ш., Путко Б.А. Эконометрика. М.: ЮНИТИ, 2006.
15.Кричевский М.Л. Интеллектуальные методы в менеджменте. М.: Питер, 2005.
16.Крянев А.В., Лукин Г.В. Математические методы обработки неопределенных данных. М.: Физматлит, 2003.
17.Луговская Л.В. Эконометрика в вопросах и ответах. М.: Проспект, 2005.
283
18.Лукашин Ю.П. Адаптивные методы краткосрочного прогнозирования. М.: Статистика, 2003.
19.Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика.
М.: «Дело», 2001.
20.Марковский М.В., Чалый В.Д. Информационная технология идентификации динамических объектов. М.: МИФИ, 1999.
21.Миркин Б.Г. Анализ качественных признаков и структур. М.: Статистика, 1980.
22.Мишулина О.А. Статистический анализ и обработка временных рядов. М.: МИФИ, 2004.
23.Мостеллер Ф., Тьюки Дж. Анализ данных и регрессия. М.: Финансы и статистика, 1982.
24.Орлов А.И. Эконометрика. М.: Экзамен, 2004.
25.Терехина А.Ю. Анализ данных методами многомерного шкалирования. М.: Наука, 1986.
26.Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. 3-е изд. М.: ИНФРА-М, 2003.
27.Фишер Ф. Проблемы идентификации в эконометрии. М.: Статистика, 1978.
28.Хартман К. Планирование эксперимента в исследовании тех-
нологических процессов. М.: Мир, 1977.
29. Yang, Y., Guan, X., You. J. CLOPE: A fast and Effective Clus-
tering Algorithm for Transactional Data In Proc. of SIGKDD’02, July
23-26, 2002, Edmonton, Alberta, Canada
СПИСОК СОКРАЩЕНИЙ
2МНК – двухшаговый метод наименьших квадратов; АР – авторегрессия; АРСС – авторегрессия-скользящее среднее;
АРИСС либо АРПСС (ARIMA – в англоязычной литературе), – интегрированный либо проинтегрированный процесс АРСС;
ДФЭ – дробный факторный эксперимент; ДФП – дробный факторный план; КК – коэффициент корреляции; МНК – метод наименьших квадратов;
ПФЭ – полный факторный эксперимент; СОУ – система одновременных уравнений; СС – скользящее среднее; ЧКК – частный коэффициент корреляции;
ЧСС – число степеней свободы; ЧССЧ – число степеней свободы числителя;
ЧССЗ – число степеней свободы знаменателя; ЧСО – числовая система с отношениями; ЭСО – эмпирическая система с отношениями
Соглашение об обозначениях
Ma – математическое ожидание случайной величины а; N – число наблюдений;
N(a;b) – нормальное распределение с математическим ожиданием а и дисперсией b;
N(0;1) – стандартное нормальное распределение (с нулевым математическим ожиданием и единичной дисперсией);
t(ЧСС) – t-распределение с заданным ЧСС;
(p,d,q) – порядок авторегрессии, порядок разности, порядок скользящего среднего соответственно в процессе АРИСС(p,d,q);
q – уровень значимости;
1-q – уровень надежности (обычно в процентах);
xij – значение i-й компоненты вектора х в j-м наблюдении; А′ – транспонированная матрица А.
Низаметдинов Шамиль Умерович Румянцев Виктор Петрович
Анализ данных
Учебное пособие
Редактор Е.К. Коцарева
Подписано в печать 15.11.2011. Формат 60×84 1/16. Печ.л. 18,0. Уч.-изд.л. 17,25. Тираж 100 экз.
Изд. № 1/55. Заказ № 19.
Национальный исследовательский ядерный университет «МИФИ». 115409, Москва, Каширское шоссе, 31
ООО «Полиграфический комплекс «Курчатовский». 144000, Московская область, г. Электросталь, ул. Красная, 42