Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информ.систеиы_Лекции.doc
Скачиваний:
115
Добавлен:
07.02.2016
Размер:
1.75 Mб
Скачать

11.2 Извлечение знаний Data mining

Data mining– „обнаружение знаний в БД” или „интеллектуальный анализ данных”. – Все это связано с развитием средств и методов обработки данных. В связи с внедрением компьютерных технологий на людей обрушились колоссальные потоки информационной руды в самых различных областях. Стало ясно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку. Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, откровенно спасовала перед лицом возникших проблем. Главная причина –концепция усреднения по выборке, приводящая к операциям над фиктивными величинами (типа средней температуры больных по больнице). Методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез и грубого разведочного анализа, составляющего основуOLAP.

В основу современной технологии DataMiningположена концепция шаблонов – закономерностей, свойственныхподвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Примеры формулировок задач при использовании методовOLAPиDataMining:

OLAP

Data Mining

Каковы средние показатели травматизма для курящих и нет?

Встречаются ли точные шаблоны в описаниях людей, подверженных повышенному травматизму?

Каковы средние размеры телефонных счетов существующих клиентов в сравнении со счетами бывших клиентов (отказавшихся от услуг телефонной компании)?

Имеются ли характерные портреты клиентов, которые, по всей вероятности, собираются отказаться от услуг телефонной компании?

Какова средняя величина ежедневных покупок по украденной и не украденной кредитной карте?

Существуют ли стереотипные схемы покупок для случаев мошенничества с кредитными карточками?

Важное положение DataMining– нетривиальность разыскиваемых шаблонов. Это означает, найденные шаблоны должны отражать неочевидные, неожиданные регулярности в данных, составляющие так называемые скрытые знания.

СППР – Data Mining – Экспертные системы

К обществу пришло понимание того, что сырые данные содержат глубинный пласт знаний, при грамотной распаковке которого могут быть обнаружены настоящие самородки.

DataMining– это процесс обнаружения в сырых данных:

  • ранее неизвестных;

  • нетривиальных;

  • практически полезных;

  • доступных интерпретаций знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Рисунок 11.1 - Уровни знаний, извлекаемых из данных

Методы DataMiningзаинтересовали в первую очередь коммерческие предприятия, которые развертывают проекты на основе хранилищ данных. Известны сообщения о экономическом эффекте в 10 раз превысившем первоначальные затраты, о проекте в $ 20 млн., который окупился всего за 4 месяца. Другой пример – годовая экономия в $700 тыс. за счет внедренияDataMiningв сети универсамов в Великобритании.

Бизнес – приложения Data Mining:

    1. Розничная торговля. Т.к. собирается подробная информация о каждой отдельной покупке, то вот типичные задачи:

  • Анализпокупательской корзины (анализ сходства) предназначен для выявления товаров, которые покупатели стремятся приобретать вместе. Это необходимо для улучшения рекламы, выработки стратегии создания запасов товаров и способов из раскладки в торговых залах.

  • Исследованиевременных шаблонов помогает торговым предприятиям принимать решения в создании товарных запасов. Оно дает ответы на вопросы типа: «Если сегодня покупатель приобрел видеокамеру, то, через какое время он, вероятнее всего, купит новые батарейки и пленку?»

  • Созданиепрогнозирующих моделей дает возможность торговым предприятиям узнавать характер потребностей различных категорий клиентов с определенным поведением, например, покупающих товары известных дизайнеров или посещающих распродажи. Эти знания нужны для разработки точно направленных, экономичных предприятий по продвижению товаров.

    1. Банковское дело. Для решения следующих задач:

  • выявление мошенничества с кредитными карточками. Путем анализа прошлых транзакций, которые вследствие оказались мошенническими, банк выявляет некоторые стереотипы такого мошенничества.

  • Сегментация клиентов. Разбивая клиентов на различные категории, банки делают свою маркетинговую политику более целенаправленной и результативной, предполагая различные виды услуг разным группам клиентов.

  • Прогнозирование изменений клиентуры. DataMiningпомогает строить банкам прогнозные модели ценности своих клиентов и соответствующим образом обслуживать каждую категорию.

  • Страхование. Так как в течение ряда лет накапливаются обширные объемы данных, тоDataMiningиспользуется:

    • Выявление мошенничества. Страховые компании могут снизить уровень мошенничества, отыскивая определенные стереотипы в заявлениях о выплате страхового возмещения, характеризующих взаимоотношения между юристами, врачами и заявителями.

    • Анализ риска. Путем выявления сочетаний факторов, связанных с оплаченными заявлениями, страховщики могут уменьшить свои потери по обязательствам. Известен случай, когда в США крупная страховая компания обнаружила, что суммы, выплаченные по заявлениям людей, состоящих в браке, вдвое превышают суммы по заявлениям одиноких людей. Компания отреагировала на это новое знание пересмотром своей общей политики предоставления скидок семейным клиентам.

    Выделяют 5 типов закономерностей, которые позволяют выявлять методы DataMining:

      • Ассоциация;

      • Последовательность;

      • Классификация;

      • Кластеризация;

      • Прогнозирование.

    Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Например, исследование, проведенное в супермаркете, может показать, что 65 % купивших кукурузные чипсы берут также и «кока-колу», а при наличии скидки за такой комплект «колу» приобретают в 85 % случаев. Располагая сведениями о такой ассоциации менеджерам легко оценить, насколько действенна предоставляемая скидка.

    Если существует цепочка связанных во времени событий, то говорят о последовательности.

    Лекция 12. Экспертные системы в экономике

    ЭС – компьютерная система, которая вмещает в себя опыт экспертов, который базируется на их знаниях в определенной отрасли. Она может давать интеллектуальные советы, принимать решения на уровне эксперта – профессионала, а также по желанию пользователя пояснять ход решения.

    Характеристика ЭС:

    1. Ограничена определенной и довольно узкой предметной областью;

    2. Умеет принимать решения при неполных и неточных данных;

    3. Умеет объяснять свои действия при решении задач;

    4. Система должна иметь возможность расширения и наращивания;

    5. Должна имитировать деятельность высококвалифицированного специалиста;

    6. При решении задач использует не точные алгоритмы, а эвристики, то есть методы, которые опираются на опыт и знания эксперта.

    Главные отличия систем обработки данных от экспертных систем:

    1. На выходе экспертной системы пользователь получает не таблицу с данными, а рекомендацию в текстовом виде;

    2. В основы ЭС положена технология обработки символьной информации, которая задается в виде правил;

    3. В обобщенном виде системы обработки данных можно сопоставить такую конструкцию:

    Данные + Алгоритм = СОД

    ЭС можно изобразить так:

    Знание + Логический вывод = ЭС;

    1. Архитектура ЭС отличается от архитектуры СОД. Отличия состоят в наличии у ЭС таких блоков:

    1. База знаний;

    2. Пояснений;

    3. Накопление знаний.

    Рисунок 12.1 – Архитектура экспертной системы

    Чтобы спроектировать экспертную систему, специалист, называемый инженером знания очень тесно работает с одним или большим количеством экспертов в изучаемой области. Инженеры знания пробуют узнавать все относительно способа, которым эксперт принимает решения. Знание, полученное инженером знания, затем загружается в компьютерную систему, в базу знаний (рис. 12.1). Эта база знаний содержит правила и заключения, которые используются в принятии решений, - параметры, или факты, необходимые для решения.

    Другие главные фрагменты экспертной системы это –

    • создатель заключения - логический каркас, который автоматически проводит линию рассуждения;

    • интерфейс пользователя - блок, используемый конечным пользователем;

    • подсистема объяснения - чтобы разъяснять доводы, что система движется в направлении решения;

    • подсистема накопления знания - чтобы помочь инженеру знания в регистрации правил заключения и параметров в базе знаний;

    • рабочая область - чтобы использовать компьютер, поскольку решение сделано.

    База знаний– совокупность сведений о предметной области.

    Знания 1 рода – общеизвестные факты, явления, закономерности данной области.

    Знания 2 года – набор эмпирических правил и интуитивных выводов, которыми пользуются специалисты в условиях неопределенности и противоречивости.

    В БЗ преимущественно знания 1 рода.

    Инженер по знаниям записывает значения, поданные экспертами, в БЗ. Все знания в БЗ делятся на интенсиональные или абстрактные, которые представляют собой понятийные (концептуальные) знания про объекты предметной области и связи между ними.

    Виды знаний.

    Знания это – „Основные закономерности предметной области, позволяющие человеку решать конкретные производственные, научные и другие задачи, т.е. факты, понятия, взаимосвязь, оценка, правила, эвристика – фактическиезнания, а также стратегии принятия решений в этой области –стратегическиезнания.

    Знания разделяют также на 2 большие категории – факты и эвристика. Факты– хорошо известные в той или иной области обстоятельства. Такие знания еще называются текстовыми, имея в виду достаточную их освещенность в специальной литературе.Эвристикаоснована на индивидуальном опыте специалиста в предметной области, накопленном в результате многолетней практике. Сюда относятся такие знания, как „способы удаления бесполезных гипотез”, „способы использования нечеткой информации”, „способы разрешения противоречий”.

    Интенсиональные знания– это знания о связях между атрибутами (признаками) объектов данной предметной области. Они оперируют абстрактными объектами, событиями и отношениями.

    Экстенсиональные знания– данные об объектах, количественная характеристика, значения параметров в пространстве и времени.

    Знания делят также на глубинныеиповерхностные.

    В глубинныхзнаниях отражается понимание структуры предметной области, назначение и взаимосвязь отдельных понятий. (в фундаментальной науке – это законы и теоретические основания).

    Поверхностные знанияобычно касаются внешних эмпирических ассоциаций с каким-либо феноменом предметной области. Например, для разговора по телефону требуются лишь поверхностные знания о …

    Большинство экспертных систем основано на применении поверхностных знаний. Это, однако, нередко не мешает достигать вполне удовлетворительных результатов. Но опора на глубинные представления помогает создавать более мощные, гибкие и интеллектуальные адаптированные системы. Например, медицина. Здесь молодой врач действует по простым схемам: „если кашель, то пить таблетки от кашля” и т.д. Опытный врач, основываясь на глубинных знаниях, способен порождать разнообразные способы лечения одной и той же болезни в зависимости от индивидуальных особенностей пациента.

    Глубинные знанияявляются результатом обобщения первичных понятий предметной области в некоторые абстрактные структуры. Степень глубины и уровень обобщенности знаний непосредственно связаны с опытом экспертов и могут служить показателем их профессионального мастерства.

    Жесткие знанияпозволяют получать однозначные четкие рекомендации при заданных начальных условиях.

    Мягкие знаниядопускают множественные „размытые” решения и различные варианты рекомендаций.

    Модули ЭС могут быть использованы внутри СОД и СППР.

    Модели преставления знаний:

    • Логическая модель;

    • Продукционная модель;

    • Фреймовая модель;

    • Модель семантической сети.

    Самая распространенная модель знаний – модель продукции.

    Продукционная модель: если <условие> то <вывод или действие>

    Примеры:

    1. Пример фрагмента правил продукции ЭС, которая функционирует на фондовой бирже для начинающих брокеров.

    1. ЕСЛИ < процентная ставка = падает > ТО < уровень цен на бирже = растет >

    2. ЕСЛИ < процентная ставка = растет > ТО < уровень цен на бирже = падает >

    3. ЕСЛИ < валютный курс доллара = падает > ТО < % ставки = растут >

    4. ЕСЛИ < валютный курс доллара = растет> ТО < % ставки = падают >

    Пусть пользователь для определения поведения на бирже обратился с таким вопросом: «валютный курс доллара падает по отношению к валютам других стран». Система выдаст ответ:

    «Если валютный курс доллара падает, то процентные ставки растут и уровень цен на бирже падает».

    1. Если <животное = птица> то <умеет = летать> КУ = 90%;

    3)Если <боль = в груди и отдает в левую руку> то <диагноз = инфаркт миокарда> КУ = 90%.

    Блок решенийнеобходим для поиска и построения логических выводов, которое выдает пользователю ЭС. Действия этого блока похожи на рассуждения человека-эсперта и предлагают его гипотетическое решение. Этот блок выполняет функции управления процессом поиска решений, то есть он определяет способ и последовательность использования различных правил и процедур. Количество правил в ЭС колеблется от 500 до нескольких тысяч.

    Блок поясненийслужит для выдачи по запросу пользователя последовательности логических выводов и рассуждений, которыми оперировала система в процессе поиска решений. Наличие такого блока в ЭС дает возможность использовать ее не только для принятия решений, но и как обучающую систему.

    Оценка ЭС пользователей в значительной степени зависит от качества пояснений, которую система дает в качестве ответов на те вопросы пользователя, которые вызывают сомнения. Все вопросы пользователя можно разделить на такие группы:

    1. Связанные с процессом решения, как и почему? С какой целью, и с чего следует?

    2. Относительно значений терминов, которые приняты в ЭС при организации диалога с пользователем;

    3. Относительно последствий, которые выплывают их данного пользователем ответа на вопрос, поставленный системой (что будет, если).

    Пояснения записываются в БЗ по правилу.

    Если <условие> то <вывод или действие> потому что <обоснование>.

    Блок общенияс пользователем или интерфейсом пользователя необходим для организации диалога система-пользователь.

    Блок накопления знанийдает возможность экспертам загружать базу знаний и корректировать ее. Все больший интерес приобретает процесс автоматизированного получения знаний через процесс обучения ЭС. Правда, этот процесс достаточно проблематичен.

    Достоинства:

    • В классе проблем: диагностика дефектов, терапия, геологоразведка;

    • Они могут решать задачи лучше человека;

    • Дают многим организациям возможность лучше управлять;

    • Могут работать с сомнительной и менее точной информацией;

    • Могут использовать тренировочные инструментальные средства, чтобы улучшить опыт человека; их экспертиза недорогая;

    • Могут быть изменены, чтобы отразить изменения в окружении, например политику, правила, рабочие процедуры.

    Ограничения и недостатки:

    • Работают только в узких областях;

    • Не имеют „здравого смысла ”, не могут рассмотреть проблему на нескольких уровнях, с разных точек зрения. Не могут глубоко знать логику правил или достоверность правил, не знают тогда стоит нарушить правила;

    • Не могут сами учиться;

    • Есть проблемы производительности во многих системах;

    • Могут быть дорогими и рискованными. Собирание человеческого опыта, его кодирование, сохранение в БЗ для использования в экспертных системах требуют очень много времени, а часто и мастерства, необходимого для этого, не хватает;

    • Успешные экспертные системы могут привести к реальным изменениям в организации и технологиях, чему могут быть не готовы пользователи

    Несмотря на ограничения, многие компьютерные корпорации разработали и разрабатывают ЭС:

    1. Компания DuPontимеет > 600 ЭС в действии и получает ежегодные сбережения налогов, которые оцениваются в сотни млн.

    2. ЭС кредитного разрешения, которая используется American Express ( the Credit Authorizer’s Assistant – ассистент того, кто дает разрешение на кредит). Эта система оценивает риски более 23 млн. держателей кредитных карточек. Она следит шаг за шагом за процессом мышления одного из своих опытных аудиторов кредита, но время решения сокращено на 25%. American Express получила на основе этой системы до 60 % сокращения затрат от фальсифицированных операций. Ожидаемые преимущества от уменьшения риска, уменьшения стоимости и усовершенствования статей дохода оценивается в $27 млн. в год.

    3. Корпорация Австралии LendLease– одна из крупнейших, построила ЭС, чтобы оценить реальное время разработки и конструирования больших проектов. Эти оценки потом используются для более точных оценок строительных затрат на ранних стадиях.

    4. British Petroleum разработала, внедрила много ЭС. Возможно, наилучшая из известных систем – система-советник по проектированию распределительных систем газ/нефть. Использование ее обеспечило экономию затрат в несколько млн. фунтов стерлингов в год.

    5. Много японских компаний сделали реальные инвестиции в ЭС со значительным выигрышем.

    6. ЭС: Geogracom 5W – перспективные направления развития транспортной системы региона

    Модули ЭС могут быть использованы внутри СОД и СППР.