Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ИНФОРМАЦИООНЫЙ_МЕНЕДЖМЕНТ / Бочаров_Интегрированные корпоративные ИС(галактика)

.pdf
Скачиваний:
176
Добавлен:
29.03.2016
Размер:
21.5 Mб
Скачать

ются методом «обучения без учителя» специального вида нейрон­ ных сетей - сетей Кохонена [10, 24].

3. Выявление ассоциаций. Ассоциация - закономерность в дан­ ных, фиксирующая наступление двух (или более) одновременных событий. Типичный пример ассоциации исследуется в задаче оп­ ределения пар одновременно покупаемых продуктов (телевизо­ ры и видеомагнитофоны, зубные пасты и зубные щетки и т.д.).

4.Выявление последовательностей. Последовательность - за­ кономерность в данных, фиксирующая наступление событий не одновременно, а с некоторым определенным разрывом во време­ ни. Таким образом, ассоциация есть частный случай последова­ тельности с нулевым временным лагом. Так, например, если ви­ деомагнитофон не был куплен вместе с телевизором, то в течение месяца после покупки нового телевизора покупка видеомагнито­ фона производится в 51% случаев [23].

5.Прогнозирование - формализованная процедура предсказа­ ния, которая на основе исследования текущих и прошлых дан­ ных позволяет оценить будущие значения числовых показателей.

Взадачах подобного типа наиболее часто используются тради­ ционные методы математической статистики, а также нейронные сети.

Из всего многообразия методов, применяемых для решения задач ИАД, вкратце рассмотрим два наиболее часто применяе­ мых: нейронные сети (более правильно говорить об искусствен­ ных нейронных сетях (ИНС)), моделируемые на ПК, и системы поиска логических правил в данных.

Входные

Синаптичес-

Блок сум-

Блок нелинейного

Выходной

сигналы

кие веса

мирования

преобразования

сигнал

^1

И/^1

!

^2

W2

!

Хп

j

VVn

 

L

_

-""'"^^ L

1 '

^ J

'

1

^

 

 

/

Рис. 1.17. Функциональная схема нейрона

40

Нейронные сети. Формально нейрон представляет собой ма­ тематическую модель процесса, имеющего несколько входов и один выход (рис. 1.17). Вектор входных сигналов x.(i=l,...,n) пре­ образуется нейроном в выходной сигнал с использованием бло­ ка суммирования и блока нелинейного преобразования.

Работа блока суммирования описывается соотношением

 

 

п

(1.3)

 

 

S=J^W^X^,

 

 

/=1

 

где X. -

компонент входного сигнала;

 

п

-

число входов нейрона;

 

S

-

результат суммирования;

 

W. - вес /-Г0 входного признака.

 

Работа блока нелинейного преобразования описывается со­

отношением

 

 

 

y=f(s).

(1.4)

где /

-

нелинейное преобразование (функция активации);

 

у

-

выходной сигнал нейрона.

 

Обычно используются многослойные сети с числом нейронов

10^-101 В задачах классификации компоненты входного сигнала пред­

ставляют собой параметры некоторого объекта, а выходной сиг­ нал - числовой признак принадлежности объекта к тому или ино­ му классу.

Первый этап решения задачи классификации с помощью ИНС состоит в «обучении сети учителем». Этот процесс заключается в минимизации целевой функции ошибки E(w):

где ^ - вектор весов;

v.^ - реальное выходное состояниеу-го нейрона выходного слоя ней­ ронной сети при подаче на ее входы к-го образа (обучающей выборки);

cijj^ - требуемое выходное состояние этого нейрона.

41

Обучение начинается с некоторого начального вектора щ . Вектор весов, обеспечивающий глобальный минимум (1.5), бу­ дем обозначать через wmin • Этот вектор является искомым реше­ нием задачи (1.5).

Для решения задачи классификации нового объекта необхо­ димо ввести в формулы (1.3) и (1.4), т.е. в «обученную ИНС», его параметры х. и вычислить соответствующее значение у, по кото­ рому и можно отнести объект к определенному классу.

Методика применения ИНС при использовании «обучения без учителя» (здесь наиболее известен алгоритм Кохонена) значитель­ но сложнее. Не останавливаясь на ее описании, отметим, что ИНС посвящены многие учебники и монографии (см., например, [10] и [24]*). Имеются многочисленные бесплатные пакеты программ, вполне удовлетворительно реализующие основные нейронно-се- тевые алгоритмы.

По мнению исследователей, ИНС занимают уникальное мес­ то среди методов обработки данных, превосходя их в универсаль­ ности и малой чувствительности к форме данных. Недаром ИНС посвящен известный афоризм: «Если ничего не помогает, попро­ буйте нейронные сети». Однако ИАД на основе ИНС не лишен определенных недостатков:

результаты (т.е. выявленные закономерности), полученные

спомощью ИНС, зачастую с большим трудом поддаются логи­ ческой интерпретации;

ИНС могут обрабатывать только числовые переменные. Кодирование переменных других типов с помощью чисел не все­ гда позволяет получить удовлетворительные результаты;

существует много типов многослойных ИНС. Какая имен­ но ИНС будет хорошо обучаться на заданном конкретном обу­ чающем множестве, априори сказать трудно. Здесь многое зави­ сит от опыта и интуиции исследователя.

Всего лишь несколько лет назад к недостаткам ИНС относи­ ли также трудности решения задачи минимизации (1.5). Дело здесь в том, что при решении такого типа задач существует опасность «попадания» в локальный минимум. Однако развитие эффектив-

*В процессе подготовки учебного пособия к изданию авторам стало известно о выходе в свет учебника: Андрейчиков А.В., Андрейчикова О.Н. Интеллектуальные информационные системы. - М: Финансы и статистика, 2004, в котором авторам удалось совместить математическую строгость и наглядность изложения вопросов интеллектуального анализа данных.

42

пых методов минимизации (нелинейного программирования) в сочетании с высоким быстродействием современных ПК гаран­ тирует нахождение глобального экстремума с большой вероят­ ностью за приемлемое время расчетов.

Системы поиска логических правил в данных. Они основываются на алгоритмах ограпичеппого перебора, предложенных в 1960-х гг. российским ученым М. Бонгардом [10]. Эти алгоритмы вычисля­ ют частоты комбинаций простых логических событий в подгруп­ пах (классах) данных. Примеры простых логических событий:

X - С{, X < С^\ Х> С^; С^ < X < С^и др., где X - какой-либо параметр (поле), С. - константы. Ограничением служит длина комбинации простых логических событий. На основании срав­ нения вычисленных частот в различных подгруппах данных де­ лается заключение о полезности той или иной комбинации для установления ассоциации в данных, для классификации, прогно­ зирования и т.д.

По описанному принципу работает система «WizWhy» аме­ риканской фирмы WizSoft (www.wizsoft.com). Количество пользо­ вателей этой системы достигло 30 000 при стоимости инсталля­ ции 4 тыс. долл. Демонстрационная версия «WizWhy» полнофун­ кциональна и ограничена только числом анализируемых записей - 1000.

Возможности системы «WizWhy» продемонстрируем на при­ мере задачи классификации объектов, характеризуемых двумя числовыми параметрами - Км Z. Предполагалось, что эксперты заранее распределили некоторое число объектов на три класса. Введя эту обучающую выборку в систему «WizWhy», можно по­ лучить определенное число правил следующего вида.

Оригинальный отчет программы

Перевод отчета программы

1 If А:< 0,5 and Z> 2,2 Then Class is 1

Если К< 0,5 и Z > 2,2, тогда

 

объект принадлежит к классу №1

Rule's probability: 0,92

Точность правила - 0,92

The rule exists in 12 records

Правило покрывает 12 объектов

Positive examples {records' serial num­

Номера объектов (записей), под­

bers)^, 5, 6, 7, 8, Я 12,14, 15, 22, 24, 25

чиняющихся правилу: 3, 5, 6, 7, 8,

 

9,12,14,15,

22, 24, 25

Negative examples (records' serial num­

Номера объектов (записей), не

bers): 10

подчиняющихся правилу: 10

43

Всего, как показали расчеты авторов, при решении задач клас­ сификации экономических объектов, таких правил может быть 10-30. При этом могут быть выведены правила, как утверждаю­ щие, так и отрицающие принадлежность объекта к некоторому классу.

Система «WizWhy» в отличие от ИНС не является «черным ящиком» - мы получаем в явном виде правила, по которым мож­ но отнести объект к определенному классу. Все это обусловило популярность «WizWhy» на рынке продуктов Data Mining.

Действительно, система демонстрирует хорошие показатели при решении ряда практических задач и применяется, в частно­ сти, во многих медицинских учреждениях западных стран. Это позволило авторам «WizWhy» противопоставить свою систему неиросетевому подходу и даже утверждать, что со временем она займет монопольное положение на рынке Data Mining.

Однако при попытке авторов применить систему «WizWhy» к решению задач классификации с достаточно сложной структу­ рой данных выяснились ее недостатки. В частности, некоторые правила противоречат друг другу. Для отдельных объектов вы­ даются правила, вообще отрицающие их принадлежность к ка­ кому-либо классу! Заметим, что от перечисленных недостатков методика ИНС свободна*.

Для проверки возможностей методов Data Mining группой российских ученых под руководством В.А. Дюка разработаны простые тесты, имеющие очевидные решения [10]. На рис. 1.18 приведен один из подобных тестов.

В этом тесте предлагается задача разбиения на два класса множества объектов, равномерно распределенных на плоскости в произвольном квадрате. Квадрат разделен на четыре области линиями, проходящими через середины сторон. Каждый класс располагается в двух областях, симметричных относительно од­ ной из диагоналей квадрата. Особенность подобной конфигура­ ции данных заключается в том, что признаки А"1 и А2 по отдель­ ности или интервалы на этих признаках не обладают самостоя­ тельной дискриминирующей способностью.

* Более подробно ознакомиться с работами авторов по сравнению ре­ зультатов применения различных методов Data Mining в задачах классифи­ кации можно на страницах «Поволжского гуманитарного Интернет-журна­ ла» (www.seun.ru/journal.htm).

44

Х2

9

8

7

6

5

4

3

2

1

О

X

X X

X

 

 

о о о о

X

X X

X

 

 

о о о о

X

X X

X

 

 

о о о о

X

X X

X

 

 

о о о о

X

X X

X

 

 

о о о о

о о о о

 

 

X X X

X

оо о о

 

 

X X X

X

о о о о

 

 

X X X

X

о о о о

 

 

X X X

 

X

о о о о

 

 

X X X

 

X

0

1

2

3

4

5

6

7

8

9

Х1

Рис. 1.18. Распределение объектов на плоскости анализируемых признаков

Решение представленной тестовой задачи очевидно. Каждый класс описывается двумя логическими правилами (всего четыре правила):

ЕСЛИ (XI > 4) И (Х2 < 5) ТОГДА Класс 1 - крестики ЕСЛИ (Х1< 5) И (Х2 > 4) ТОГДА Класс 1 - крестики ЕСЛИ (Х1< 5) И (Х2 < 5) ТОГДА Класс 2 - нолики ЕСЛИ (XI > 4) И (Х2 > 4) ТОГДА Класс 2 - нолики

Система «WizWhy» «отказывается» находить какое-либо ло­ гическое правило в тесте, приведенном на рис. 1.18. В то же вре­ мя ИНС при том же самом объеме обучающей выборки (20 из 100) правильно проводит классификацию представленных на рис. 1.18 объектов (при расчетах авторами использовалась функ­ ция newlvq из пакета программ Matlab 5.3.1, с помощью которой можно сконструировать так называемую многослойную ней­ ронную сеть «встречного распространения»). К аналогичным выводам пришли и авторы монографии [10] (см. также http:// datadiver.nw.ru/ Articles/Problems.htm).

Приведенные примеры показывают, насколько осторожно следует относиться к рекламируемым достоинствам программ ИАД даже в том случае, если последние приобретены многими тысячами пользователей.

45

Недавно группой В.А. Дюка была разработана система «Deep Data Diver», использующая новые принципы поиска логических закономерностей в данных (http://datadiver.nw.ru/Articles/ Problems.htm).

«Deep Data Diver» «справилась» с тестом, представленным на рис. 1.18, а также еще с несколькими тестами, которые оказались не по силам системе «WizWhy». Однако делать окончательные выводы о достоинствах «Deep Data Diver» рано. Новая система должна пройти серьезную апробацию многими независимыми исследователями.

В странах Запада широко используется аналитическая обра­ ботка данных для поддержки управления бизнес-процессами. Решения, как правило, принимаются только после детального анализа деятельности компании в том или ином разрезе. Несмотря на то что отечественные ученые внесли и вносят большой вклад в развитие алгоритмов интеллектуальной обработки данных, в нашей стране НАД применяется лишь в немногих компаниях. Слабая информационная культура компаний приводит к тому, что они малопрозрачны не только для потенциальных инвесто­ ров и фискальных органов, но и для собственного руководства.

Управленческие решения, принимаемые на основе интуиции топ-менеджеров, не всегда адекватны сложившейся ситуации, поскольку не опираются на детальный и строгий анализ деятель­ ности предприятия.

Специалисты российской компании «Intersoft Lab» [30] про­ анализировали причины сомнений относительно целесообразно­ сти создания в компании современной аналитической системы, которые называют сами руководители предприятий.

Первая из называемых причин - отсутствие необходимых дан­ ных. Действительно, многие компании не собирают либо не хранят необходимое время данные, которые важны для приня­ тия решений. По данным агентства «РосБизнесКонсалтинг» (www.rbc.ru), в России 55% компаний не ведет собственную кли­ ентскую базу. Ориентация таких фирм на нужды клиентов носит самый приблизительный характер. В результате компании выпол­ няют заказы клиентов на «вольготных» для себя условиях. Объяс­ нение такой ситуации лежит на поверхности - это характерная для нашей страны слабая конкуренция во многих секторах эко­ номики. Но это положение меняется, а с вступлением России в ВТО изменится кардинально.

46

Вторая причина состоит в том, что очень часто данные в под­ разделениях компании собираются в разных форматах и даже в разных системах. Например, нередки случаи, когда параллельно существуют базы данных систем «1С:Предприятие», «MS Access», таблицы «MS Excel». Однако для ИАД необходимо анализиро­ вать все эти данные вместе. Чтобы привести данные к одному формату, можно разработать соответствующий интерфейс. Кар­ динальное же решение состоит во внедрении интегрированной информационной системы с единой базой данных.

Третья причина обусловлена сомнениями (и зачастую небе­ зосновательными!) руководства компании в адекватности данных реальному положению вещей в компании. Часто внимание со­ трудников сосредоточено лишь на сборе данных для фискальных органов. Однако для постановки управленческого учета одних только бухгалтерских данных недостаточно. Руководству необ­ ходимо определить, какие данные необходимы, кто несет ответ­ ственность за непредставление данных, за их достоверность.

Четвертая причина, на которую указали топ-менеджеры ком­ паний, - очень большой, по их мнению, объем данных. Причем так говорят, даже не попробовав провести анализ данных. Ведь прогресс персональных компьютеров впечатляющ. Расчеты, ка­ завшиеся «неподъемными» 3-4 года назад, сегодня становятся вполне реальными. При этом нет необходимости опираться цели­ ком на серверные решения. Весьма объемные расчеты теперь мож­ но реализовать на базе клиентского ПК, не перегружая сервер.

В качестве пятой причины называют дороговизну систем ИАД. Действительно, зарубежные системы такого класса очень дороги. Российские поставщики аналитических технологий пред­ лагают собственные решения, не уступающие (а иногда и превос­ ходящие) зарубежным аналогам по возможностям, но за значи­ тельно меньшие суммы [30, 38].

Некоторые руководители не понимают необходимости ИАД: «А зачем нам это нужно? Все и так понятно». Это, быть может, справедливо для малых предприятий. Но когда объем данных большой (например, прайс-лист компании содержит тысячи по­ зиций), то для того, чтобы владеть ситуацией, менеджеру необ­ ходимы отчеты, созданные системами ИАД.

Убедившись в необходимости применения ИАД, некоторые руководители предприятий прибегают к разработке систем «сво­ ими силами». Однако такой подход очень редко оказывается ус-

47

пешным - ведь в основе ИАД лежит слишком сложный и специ­ фический математический аппарат. Как показывает опыт, гораз­ до выгоднее внедрить систему, которая разрабатывалась специ­ ально для анализа данных. Как вариант это может быть разра­ ботка силами ИТ-подразделения компании аналитических приложений, которые бы учитывали специфику конкретного предприятия, на основе готового аналитического инструмента­ рия. В качестве примера такого инструментария можно привес­ ти аналитическую платформу «Контур» [30].

ВОПРОСЫ и ЗАДАНИЯ ДЛЯ САМОПРОВЕРКИ

1. Охарактеризуйте локальные ИС, применяемые для автомати­ зации управления на предприятиях. В чем состоят недостатки таких ИС?

2.Что означает полнофункциональность ИС?

3.Какие уровни управления существуют на современном пред­ приятии?

4.Какие ИС осуществляют поддержку оперативного, тактичес­ кого, стратегического уровня управления?

5.Какие математические методы применяются при создании СППР?

6.Охарактеризуйте возможности современных интегрированных корпоративных информационных систем.

7.Охарактеризуйте возможности ИС классов MRP, CRP, MRP II, ERP.

8.Какие вопросы содержит тест для определения степени соот­ ветствия систем стандарту ERP?

9.Опишите взаимодействие систем ERP и СПО.

10.Охарактеризуйте основные технологии, используемые для ре­ шения задач поддержки принятия управленческих решений.

П. Опишите модель многомерных кубов, лежащую в основе OLAP-технологии.

12.Используя поисковые серверы в сети Интернет, найдите рос­ сийские фирмы, предоставляющие бесплатные демоверсии программ, реализующих OLAP-технологии.

13.Какие основные типы закономерностей можно выявить с по­ мощью систем интеллектуального анализа данных?

14.С какими методами решения задач ИАД вы познакомились в данной главе?

 

Глава

ПРАКТИЧЕСКОЕ

^

ИСПОЛЬЗОВАНИЕ ИНТЕГРИРОВАННЫХ КОРПОРАТИВНЫХ ИНФОРМАЦИОННЫХ СИСТЕМ

2.1. Анализ рынка экономических информационных управляющих систем стран СНГ

Анализ рынка экономических информационных управляющих систем РФ и стран СНГ затруднен многочисленными рекламны­ ми материалами фирм, зачастую преувеличивающими возмож­ ности своих разработок. Все это следствие жестокой конкурен­ ции на рассматриваемом сегменте рынка ИТ. Кроме того, мно­ гие программные продукты развиваются столь быстро, что ситуация может измениться даже за время подготовки данного учебного пособия к изданию. Вызывает определенные сомнения рекламируемое фирмами количество предприятий, на которых внедрены их продукты. Дело здесь в том, что покупка лицензий вовсе не означает внедрения системы. Практика показывает, что далеко не всегда предприятие, купившее управляющую систему, осуществит полноценное внедрение. Поэтому авторы старались ориентироваться на результаты анализа международных иссле­ довательских и консалтинговых компаний, работающих в обла­ сти информационных технологий и телекоммуникаций:

IDC - ведущая международная компания, работающая в области информационных технологий и телекоммуникаций в 50 странах мира. Использован отчет компании за 2003 г. (http:// www.idc.com/russia/rus/press/erp_04_rus.htm);

компания Market-Visio (эксклюзивный дистрибьютер Gartner на территории Финляндии, стран Балтии и России). Ис­ пользованы результаты исследования «Оценка КИС по сегменту

49