Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Методическое пособие 662

.pdf
Скачиваний:
5
Добавлен:
30.04.2022
Размер:
3.47 Mб
Скачать

Важно понимать, что и существующие программные решения работают с журналом, но строят отчеты на основе аналитических моделей. Это позволяет визуализировать текущее состояние только в виде различных графиков и статистических данных. Для более детального анализа бывает полезно знать, например, наличие и размеры очереди на доступ к программным средствам при сокращении количества закупленных лицензий. Для реализации такого функционала хорошо подойдут имитационные модели [1], так как они позволяют собирать информацию, которую сложно получить аналитически.

Основной идеей создания системы является предоставление возможности использовать гибкие имитационные модели. Эти модели, с одной стороны, могут быть отредактированными администраторами (при помощи визуального конструктора моделей), а с другой стороны, подстраиваются под текущую конфигурацию системы (например, изменяют количество блоков, имитирующих отделы компании в зависимости от их реального количества).

Для реализации такого функционала необходим алгоритм расчета имитационных моделей. На вход поступает модель в виде специализированного описания (аналог представления модели в среде GPSS) и данные из журнала использования ПО. Расчет модели происходит путем прогона потока заявок через элементы системы, имитирующие стандартные объекты моделирования: очередь, ключ, обработка и т.д. Взаимное расположение таких объектов определяется путем анализа описания имитационной модели.

Для поддержки возможности оптимизации таких моделей требуется создать компонент, который будет работать на основе генетических алгоритмов. Такое решение обусловлено тем, что изначально неизвестен весь перечень оптимизируемых моделей, поэтому сложно подобрать какой-то более специализированный алгоритм оптимизации [2]. Для реализации оператора репродукции система должна использовать имитационную модель в качестве целевой функции. Популяцию будут составлять наборы входных параметров имитационной модели. Результаты работы модели – это совокупность параметров, которые рассматриваются как значения целевой функции. Остальные операторы генетического алгоритма работают так же, как операторы простого ГА.

Активное развитие компьютеров и технологий создает все большую зависимость бизнеса от IT-индустрии, так как она способна обеспечить планомерное развитие и усовершенствовать бизнес-процессы. В связи с этим возникает потребность в анализе и планированию затрат на ПО. При использовании системы на основе гибких моделей данных, конечный потребитель получит относительно простое решение, которое будет включать какие-то базовые имитационные и аналитические модели и далее сможет сделать его настолько сложным, насколько это понадобится.

70

Литература

1.Воробьев Э. И. Моделирование и анализ сложных систем: учеб. пособие. – Воронеж: ВГТУ, 2005. - 118 с.

2.Гладков Л. А., Курейчик В. В., Курейчик В. М Генетические алгоритмы системы - М.: Физматлит, 2010. - 368 с.

3.Google Trends. – Электрон. дан. – Режим доступа: https://trends.google.ru

Воронежский государственный технический университет

УДК 004.04

Д. В. Романов

БАЙЕСОВСКИЙ КЛАССИФИКАТОР ТРАНЗАКЦИЙ ДЛЯ ЛОГИСТИЧЕСКОЙ СИСТЕМЫ

Классификация транзакций по классам безопасности – основная задача антифрод-системы – комплексного инструмента по обнаружению и пресечению неправомерных действий клиента сервиса [1]. Для логистической сферы характерна бинарная классификация, то есть каждая транзакция может принадлежать либо к классу «подозрительных», либо «безопасных».

Наиболее современным подходом к классификации принято считать алгоритмы машинного обучения, модели которых настраиваются на обучающей выборке с последующим использованием на реальных данных. Проведенные исследования показывают, что при малых объемах такие алгоритмы показывают точность распознавания до 90% [1]. Однако в ходе эксплуатации выявляются некоторые проблемы. Во-первых, адаптивность к изменениям существенно понижает точность алгоритмов. Это объясняется ложной корреляцией между параметрами транзакций – то есть связь между отдельными параметрами, которые в действительности никак не связаны. А вовторых, при большом количестве анализируемых параметров классификация может быть противоположной, видной только при анализе данных экспертом. В конечном итоге подход оказывается бесполезным и непригодным в использовании.

Возможным решением может быть использование вероятностного классификатора. Байесовский подход к классификации предполагает выбор максимальной апостериорной вероятности, которая вычисляется с помощью функции правдоподобия [1]. Наиболее простой и эффективной реализацией такого подхода является строгий (наивный) байесовский классификатор.

Основу классификатора составляет теорема Байеса с условием независимости событий:

71

ȁݐ

ݐȁ

ǡ

(1)

ݐ

 

где ȁݐ – вероятность, что транзакция ݐ принадлежит к классу безопасности ; ݐȁ – вероятность встретить транзакцию ݐ среди класса ;– безусловная вероятность транзакции класса ; ݐ – безусловная вероятность транзакции ݐ среди других.

Важной особенностью здесь является взаимовыражение причины и следствия.

Для того, чтобы определить класс безопасности, перейдем от вероятностей к оценке апостериорного максимума, т.е. наиболее вероятному классу. Упростив форм. 1 – убрав из рассмотрения вероятность транзакции, которая не оказывает влияния на итоговую оценку классов, получим:

Так как транзакция в

ݔ ݐȁ Ǥא

 

 

 

(2)

нашем случае представляет собой набор данных по ней, а также ретроспективные данные по клиенту, то ее условную вероятность можно представить в виде произведения условных вероятностей этих

характеристик [2]:

 

 

ݐȁ ݓ ȁ ݓ ȁǥ ݓ ȁ ݓ ȁ Ǥ

(3)

 

 

 

Для удобства вычисления можно воспользоваться свойством логарифма произведения, который не изменяет параметров, при которых достигается максимум, и таким образом форм. 2 примет вид:

 

 

ݔא

ݓ ȁ Ǥ

 

(4)

 

 

 

 

 

 

 

 

 

Вероятность класса безопасности определяется как:

 

 

где

 

– общее

 

 

 

ǡ

 

(5)

 

 

 

количество транзакций в выборке;

 

– количество

транзакций определенного класса.

 

 

 

 

Для определения условной вероятности каждой характеристики

транзакции воспользуемся мультиномиальным распределением [2]:

 

 

 

 

 

 

 

(6)

 

 

 

ݓ ȁ σ א ǡ

 

 

72

где – количество раз, в которых характеристика встречается в транзакциях текущего класса; – набор из всех возможных характеристик оценки транзакции.

Использование такого подхода накладывает особенность – при появлении новой характеристики транзакции ее условная вероятность становится нулевой, что делает классификацию невозможной. Одним из вариантов решения может служить сглаживание Лапласа – добавление некоторого коэффициента размытия ݖ для каждой характеристики. Для рассматриваемой задачи за коэффициент возьмем минимальное количество появления одной характеристики [1]. Преобразовав форм. 6 получим:

ݓ ȁ

ݖ

 

ݖ

 

 

Ǥ

(7)

σ א ݖ

ȁ ȁݖ σ א

ȁ ȁ σ א

 

Сравним на примере оценку, полученную таким преобразованием. Возьмем 3 характеристики и добавим новую (4 – более 4 устройств захода на аккаунт):

 

 

Таблица 1

 

Характеристики транзакций

 

 

 

 

Номер

Характеристика

Количество транзакций

1

Более 5% неудачных платежей с карты

3428

 

2

Есть адреса доставки в разных странах

2731

 

3

Не подключены профили социальных сетей

4965

 

Исходя из табл. 1 коэффициент размытия будет равен 2731, а

вероятности:

 

 

͵ ʹͺ

 

 

 

ݓ ȁ

 

ǡ͵Ǣ

(8)

͵ ʹͺ ʹ ͵ ͻ

 

כ

 

 

͵ ʹͺ ʹ ͵

 

(9)

ݓ ȁ

ʹ ͵ ͵ ʹͺ ʹ ͵ ͻ ǡʹͺǤ

 

где * – с применением сглаживания Лапласа. Изобразим сравнение оценок и убедимся, что для новой характеристики будет ненулевая оценка.

Таким образом, форм. 4 примет вид:

ݔא

 

 

 

 

Ǥ

(10)

 

 

ȁ ȁ σ א

 

Рассчитав вероятность для каждого класса безопасности выбираем наибольший, и именно к этому классу будет определена транзакция.

73

Рис. График сравнения оценок

Целиком продемонстрируем работу байесовского классификатора на примере данных по нескольким характеристикам транзакций.

 

 

 

 

 

 

 

 

 

 

Таблица 2

 

Статистика транзакций по классам безопасности

 

 

 

 

 

 

 

 

 

 

 

 

Характеристика

 

 

 

 

Безопасные

 

Подозрительные

Более 5 адресов доставки

 

 

 

207

 

146

 

 

Заход не из страны регистрации более 5%

 

1533

 

572

 

 

Более 10% подозрительных платежей

 

4581

 

3995

 

 

2 и более банковских карт оплаты

 

784

 

802

 

 

Нет профиля социальной сети

 

4965

 

748

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 3

Сводная статистика транзакций и их характеристик

 

 

 

 

 

 

 

 

 

 

 

 

 

Параметр

 

 

 

 

Безопасные

 

Подозрительные

Общее количество транзакций

 

 

120436

 

 

85709

 

 

Суммарное количество характеристик

 

 

12070

 

 

6263

 

 

Классифицируем транзакцию, которая обладает 1-ой, 3-ей и 5-ой

характеристиками для обоих классов безопасности:

 

 

 

 

 

 

 

ʹ ͵

 

 

 

 

 

 

ʹ ʹ

ʹ ͵ ͺ ͻ

(11)

 

 

ʹ ʹ

 

 

ͻ ʹ

 

 

 

 

 

ͺ ʹ

 

 

 

 

 

 

 

ʹ ʹ

 

 

ʹ ʹ

ʹǡ Ǣ

74

 

 

 

ͺ ͻ

 

 

 

(12)

 

 

 

 

ʹ ͵ ͺ ͻ

 

 

 

 

 

 

 

 

 

 

 

͵ͻͻ

 

 

 

 

 

 

ʹ ͵

 

ʹ ͵

 

 

 

 

 

 

ͺ

ʹǡͺ Ǥ

 

 

В

итоге

получаем,

ʹ ͵

 

 

 

 

 

 

 

 

 

что вероятность класса «небезопасный» больше

(

), следовательно, транзакция будет помечена как подозрительная.

 

 

В

целом,

описанный алгоритм подходит

и для характеристик не

логистического профиля с похожей структурой, его гибкость можно применять к задачам широкого плана. Результаты исследований показывают преимущество данного подхода в долгосрочной перспективе, а относительная простота реализации и низкие вычислительные затраты являются существенными критериями при использовании его в качестве основного алгоритма [1]. Таким образом, его можно рекомендовать в решении задач классификации.

Литература

1.Романов Д. В., Рындин А. А., Скворцов Ю. С. Методика управления антифрод-системой в логистической отрасли на основе байесовского классификатора // Вестник ВГТУ, 2020. Т. 16. № 1. С. 23-32

2.Баженов Д. Наивный байесовский классификатор. Режим доступа: http://bazhenov.me/blog/2012/06/11/naive-bayes.html

Воронежский государственный технический университет

УДК 681.3

Б. А. Чернышов

ЭКСПЕРТНО-ОПТИМИЗАЦИОННЫЙ ПОДХОД К РЕЙТИНГОВОМУ УПРАВЛЕНИЮ РЕСУРСНЫМ ОБЕСПЕЧЕНИЕМ РАЗВИТИЯ ОБЪЕКТОВ ОРГАНИЗАЦИОННОЙ СОЦИАЛЬНО-ЭКОНОМИЧЕСКОЙ СИСТЕМЫ

Особое место среди объектов организационной системы, управленческие действия, администрации которых ориентированы на активизацию режима развития, занимают объекты, потенциально готовые к повышению своей конкурентоспособности среди аналогичных объектов других организационных систем по результатам внешнего рейтингового оценивания. Такие объекты

75

получают дополнительное ресурсное обеспечение и образуют группу объектовлидеров.

Поскольку дополнительное ресурсное обеспечение выделяется на определенное число календарных сроков, первичное распределение необходимо корректировать на последующие сроки с учетом динамики изменения рейтингового состояния объектов-лидеров. В этом случае управляющий центр предоставляет возможность объектам проявить свой потенциал в течение определенного числа календарных сроков инерционного развития и наблюдает по внешним рейтинговым оценкам динамику изменения [1]. На основе этих наблюдений на экспертном уровне удается провести кластеризации объектов и формировать распределение ресурсного обеспечения с учетом особенностей динамики улучшения рейтинговых оценок в каждом кластере.

Первое распределение ресурсного обеспечения заданного управляющим

центром на первый календарный срок периода развития

ݐ

определяется на

наблюдения.

 

 

 

 

 

 

 

 

 

 

 

в последний

 

 

 

 

 

 

 

 

 

 

 

 

основе рейтинговых оценок

 

 

 

 

 

 

 

 

 

ݐ ǡݐ

 

календарный срок пассивного

Последующее распределение

 

ʹǡ

 

предлагается осуществить

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

объектов

 

 

ǡ ǡ

 

по величине

с учетом динамики изменения состояния

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ݐ ǡݐ

 

 

ʹǡ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

рейтинговой оценки

 

 

 

 

 

 

 

 

 

 

 

 

и разбиения на

экспертном уровне всего

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ускоренного

 

 

 

 

 

 

 

 

 

 

 

 

 

В этом случае значения

 

 

 

 

 

 

 

периода

ݐ

ǡ

 

на

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ݐ

ǡ

 

 

 

 

 

 

 

 

 

два подпериода: инерционного

развития

 

 

 

 

и

будут определяться

в

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

развития

ݐ

 

 

 

Ǥ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ݐ ǡݐ

ʹǡ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

соответствии с процедурой экспертного выбора [2].

нумерационного множества объектов-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Определение

 

значений

 

 

ݐ

ǡݐ

 

 

 

 

ǡ

свяжем

 

с

 

 

разделением

развития,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

лидеров на три подмножества:

 

 

 

 

 

 

ǡ

ǡ

 

 

объектов, характеризующихся восходящим трендом

 

 

 

 

 

 

 

 

 

 

 

 

обусловленным переходом в более высокий рейтинговый кластер;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ǡ

 

ǡ ǡ

 

 

 

 

объектов,

характеризующихся

ускоренно

 

 

 

 

 

 

 

 

 

 

 

 

 

 

инерционным трендом развития, обусловленным существенным улучшением

позиции в рамках определенного рейтингового кластера;

 

 

трендом

 

 

 

 

 

 

 

 

 

 

 

 

 

ǡ

объектов, характеризующихся умеренно инерционным

 

 

 

 

развития, обусловленным незначительным улучшением позиции в

рамках определенного рейтингового кластера.

 

 

 

на двух уровнях:

что распределение

 

 

 

осуществляется

Будем считать,

 

ݐ

ǡݐ

 

 

ǡ

подмножеств объектов-лидеров;

 

 

 

объектов внутри каждого подмножества.

 

 

 

 

 

Пусть на первом уровне распределение осуществляется следующим

образом:

 

 

ݐ ݐ ݐ ǡ

 

 

 

 

 

 

 

 

 

 

 

(1)

 

 

 

 

ݐ ݐ ݐ

 

 

 

 

 

 

 

 

76

 

 

 

 

 

 

 

 

где

ݐ ݐ ݐ

 

ݐ ݐ ݐ ǡ ݐ ǡ ݐ ǡ ݐ (2)

- коэффициенты распределения ресурсного обеспечения на уровне подмножеств объектов-лидеров,

ǡ ǡ дополнительное ресурсное обеспечение, выделяемое управляющим центром для изменения состояния объектов, которые вошли соответственно в первое, второе и третье подмножества.

На втором уровне примем равномерную схему распределения:

 

 

 

 

 

 

 

 

ݐ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ݐ

 

 

 

ǡ ǡ

 

 

(3)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ݐ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ݐ

 

 

 

ǡ ǡ

 

ǡ ǡ

 

 

 

 

 

 

 

ݐ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ݐ

ǡ

 

 

 

ǡ Ǥ

 

С целью учета динамики изменения состояния объектов ǡ ǡ сформируем следующие выборки, включающие период инерционного развития

 

 

 

 

 

 

 

 

ǡǥǡ ݐ ǡǥǡ ǡ

 

 

 

 

(5)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(4)

 

Используя

 

 

 

ǡǥǡ

ݐ ǡǥǡ ǡ

 

 

 

 

 

 

 

 

 

 

выборки (4), (5), построим модель регрессии [3]

 

 

 

 

 

 

 

 

 

 

 

 

ǡݐ Ǥ

 

 

 

 

 

 

(6)

 

Сформируем задачу оптимизации дополнительного ресурсного

обеспечения для периода ускоренного развития

следующим

образом:

сумму рейтинговых оценок

 

что будет

 

 

 

 

 

необходимо для каждого календарного срока

ݐ

 

 

ǡ

минимизировать

 

 

 

 

ǡ

в

 

 

ݐ ǡ

 

 

определять изменения состояния

 

 

 

 

 

 

 

 

 

объектов

 

 

соответствии с требованиями, характеризующими их

 

 

 

 

 

 

 

принадлежностьǡ

 

 

 

 

 

нумерационным

 

 

 

подмножествам

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ǡ ǡ

ǡ

 

ǡ ǡ

ǡ ǡ

таким образом, чтобы выполнялось

условие (1). Оптимизируемыми переменными в этом случае будут величины

ǡ ǡ

Ǥ

Для

формализованной

записи критерия оптимизации

через эти

 

 

 

переменные подставим выражения (1), (2) в модели регрессии (6) при фиксированном значении календарного срока ݐ

77

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ǡ

ǡ ǡ

 

 

 

 

(7)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ǡ

 

 

 

 

 

 

 

 

 

 

 

ǡ

 

 

ǡ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ǡ

 

 

ǡ Ǥ

 

 

 

С учетом (7) и условия (2) имеем следующую задачу оптимизации

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(8)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ǡ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ǡ

 

 

 

 

 

 

где

 

порог,

 

ǡ ǡ ǡ

 

 

 

 

 

 

 

 

 

 

устанавливаемый экспертным центром, обеспечивающий

дополнительное ресурсное обеспечение объектам, принадлежащим всем трем нумерационным подмножествам.

Задача (8) является задачей нелинейного программирования с линейным ограничением типа равенство. Сведем ее к задаче без ограничений путем замены переменных

 

 

 

 

 

 

 

 

 

 

 

 

ǡ

ǡ

с использованием

и вычисления переменной

 

через переменные

ǡ

условия (2)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(9)

 

 

 

͵

 

 

 

 

 

 

 

 

 

 

 

ǡ

 

 

 

 

 

 

 

 

Условия экстремума функции (9) по оптимизируемым переменным ǡ определяются равенством ее частных производных [3]:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ǡ

(10)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ǥ

 

 

 

 

(11)

 

 

 

 

 

 

78

Из уравнения (10) определяем оптимальное решение כǡ из (11) – оптимальное решение כ. Отсюда оптимальное решение задачи (8) имеет вид

כ כ ǡכ ǡכ כ כ

(12)

На основании формул (1), (3) и оптимального решения (12) вычисляем оптимальные объемы дополнительного ресурсного обеспечения в группе объектов-лидеров для каждого календарного срока периода ускоренного

развития ݐ ǡ :

כݐ ǡ ǡ Ǣ כݐ ǡ Ǣ כݐ ǡ

Литература

1.Дуканич В. В. Рейтинговое управление экономическими системами и процессами: концепция и некоторые результаты применения / В. В.Дуканич, А. С. Тимченко // Экономический вестник Ростовского государственного университета.–2005.–Т.3.–№№. –С.83-91.

2.Львович Я. Е. Принятие решений в экспертно-виртуальной среде / Я. Е. Львович, И. Я.Львович. – Воронеж: ИПЦ «Научная книга», 2010. – 140 с.

3.Львович И. Я. Информационные технологии моделирования и оптимизации: краткая теория и приложения / И. Я.Львович, Я. Е.Львович, В. Н.Фролов. – Воронеж: ИПЦ «Научная книга», 2016. – 444 с.

Воронежский институт высоких технологий

УДК 681.3

Е. В. Кащенко, С. Ю. Белецкая

СЕГМЕНТАЦИЯ КЛИЕНТСКИХ СРЕД С ИСПОЛЬЗОВАНИЕМ НЕЙРОННЫХ СЕТЕЙ

В современном мире просто предлагать покупателю продукты и услуги надлежащего качества будет уже мало. Сегодня, чтобы подняться выше конкурентов на рынке, необходимо построить эффективные и долгосрочные отношения со своей клиентской базой. При этом в большей степени лучше акцентироваться на самых доходных клиентов. Модель работы с клиентами обычно заключается в сборе статистики по клиентской базе, далее разделение её на группы, составления прогнозной модели, то есть выявления вероятности использования услуг компании каждой группой в зависимости от

79