Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Российская открытая академия транспорта МИИТ

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

СОВРЕМЕННЫЕ ТЕХНОЛОГИИ АНАЛИЗА - копия - копия.doc

Скачиваний:

Добавлен:

27.11.2019

Размер:

625 Кб

Скачать

☆

1 / 161 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 > Следующая >>>

СОВРЕМЕННЫЕ ТЕХНОЛОГИИ АНАЛИЗА

DATA MINING

Корпоративная база данных любого современного предприятия обычно содержит набор таблиц, хранящих записи о тех или иных фактах либо объектах (например, о товарах, их продажах, клиентах, счетах). Как правило, каждая запись в подобной таблице описывает какой-то конкретный объект или факт. Например, запись в таблице продаж отражает тот факт, что такой-то товар продан такому-то клиенту тогда-то таким-то менеджером, и по большому счету ничего, кроме этих сведений, не содержит. Однако совокупность большого количества таких записей, накопленных за несколько лет, может стать источником дополнительной, гораздо более ценной информации, которую нельзя получить на основе одной конкретной записи, а именно — сведений о закономерностях, тенденциях или взаимозависимостях между какими-либо данными. Примерами подобной информации являются сведения о том, какая категория клиентов чаше всего вовремя не отдает предоставленный кредит и насколько велик риск невозврата, как зависят продажи определенного товара от дня недели, времени суток или времени года, какие категории покупателей чаще всего приобретают тот или иной товар, какая часть покупателей одного конкретного товара приобретает другой конкретный товар и т.п.

Подобного рода информация обычно используется при прогнозировании, стратегическом планировании, анализе рисков, и ценность ее для предприятия очень высока. Видимо, поэтому процесс ее поиска и получил название Data Mining.

Data mining — это процесс автоматического выделения действительной, эффективной, ранее неизвестной и совершенно понятной информации из больших баз данных и использование ее для принятия ключевых бизнес-решений. Цель этого процесса — представить данные в виде, четко отражающем бизнес-процессы, а также построить модель, при помощи которой можно прогнозировать процессы, критичные для планирования бизнеса (например, динамику распределения рисков и вероятность финансовых махинаций либо зависимость их от каких-то характеристик потребителя).

Вот несколько из множества определений Data Mining:

Data Mining — это процесс выделения из данных неявной и неструктурированной информации и представления ее в виде, пригодном для реализации.

Data Mining — это процесс анализа, выделения и представления детализированных данных неявной конструктивной информации для решения проблем бизнеса (NCR).

Data mining — это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур с целью достижения преимуществ в бизнесе (SAS Institute).

Data mining — это процесс, цель которого — обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов (Gartner Group).

Data mining — это процесс обнаружения в сырых данных ранее не известных нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности (G. Piatetsky-Shapiro, GTE Labs).

Data mining — это не один, а совокупность большого числа различных методов обнаружения знаний. Выбор метода часто зависит от типа имеющихся данных и от характера получаемой информации. Некоторые методы перечислены ниже:

объединение (association, иногда используют термин affinity, означающий сходство, структурную близость) — выделение структур, повторяющихся во временной последовательности. Обнаруживает правила, по которым присутствие одного набора элементов коррелирует с другим. Этот метод часто применяется для анализа рыночной корзины пакетов продуктов, при разработке каталогов, перекрестном маркетинге. Цель — найти закономерности среди большого числа транзакций. Эта информация может использоваться для модификации расположения полок и последовательности товаров в торговом зале.

(Классический пример из американской жизни: в одном из универсамов обнаруокияи, что по субботам молодые отцы, купив памперсы и исполнив таким образом свою миссию, покупают пиво. Расположив полку с пивом рядом с полкой памперсов, универсам в четыре раза увеличил продажу пива по субботам).

Анализ временных рядов (sequence-based analysis, другое название — sequential association) позволяет найти временные закономерности между транзакциями. Например, можно ответить на вопрос, покупки каких товаров предшествуют покупке данного вида продукции. Используется при анализе целевых рынков, управлении гибкостью цен, управлении циклом работы с заказчиком (Customer Lifecycle Management);

кластеризация (clustering) — группировка записей, имеющих одинаковые характеристики, например, по близости значений полей. Используется для сегментации рынка и сегментации заказчиков. Могут использоваться статистические методы либо нейросети. Кластеризация часто рассматривается как первый необходимый шаг для дальнейшего анализа данных;

классификация (classification) — отнесение записи к одному из заранее определенных классов. Используется, например, при оценке рисков при выдаче кредита;

оценивание (estimation);
нечеткая логика (fuzzy logic);

статистические методы, позволяющие находить кривую, наиболее близко расположенную к набору точек данных;
генетические алгоритмы (genetic algorithms) (см. PC Week/RE, № 19/99, с. 19);

фрактальные преобразования (fractal-based transforms);

нейронные сети (neural networks) — данные пропускаются через слои узлов, «обученных» распознаванию тех или иных структур (см. PC Week/RE, № 13/99, с. 26). Используются для анализа предпочтений и целевых рынков, удержания заказчиков, а также для обнаружения мошенников.

К Data Mining можно добавить еще визуализацию данных — построение графического образа из данных, использование цвета. Это помогает при общем анализе данных увидеть аномалии, структуры, тренды. Частично к Data Mining примыкают деревья решений и параллельные базы данных.

Преимущества

Традиционная математическая статистика, долгое время остававшаяся основным инструментом анализа данных, равно как и средства оперативной аналитической обработки данных (online analytical processing, OLAP), не всегда могут успешно применяться для решения таких задач. Обычно статистические методы и OLAP используются для проверки заранее сформулированных гипотез. Однако нередко именно формулировка гипотезы оказывается самой сложной задачей при реализации бизнес-анализа для последующего принятия решений, поскольку далеко не все закономерности в данных очевидны с первого взгляда.

В основу современной технологии Data Mining положена концепция шаблонов, отражающих закономерности, свойственные подвыборкам данных. Поиск шаблонов производится методами, не использующими никаких априорных предположений об этих подвыборках. Если при статистическом анализе или при применении OLAP обычно формулируются вопросы типа «Каково среднее число неоплаченных счетов заказчиками данной услуги?», то применение Data Mining, как правило, подразумевает ответы на вопросы типа «Существует ли типичная категория клиентов, не оплачивающих счета?». При этом именно ответ на второй вопрос нередко обеспечивает более нетривиальный подход к маркетинговой политике и к организации работы с клиентами.

Особенности

Важная особенность Data Mining — нестандартность и неочевидность разыскиваемых шаблонов. Иными словами, средства Data Mining отличаются от инструментов статистической обработки данных и средств OLAP тем, что вместо проверки заранее предполагаемых пользователями взаимозависимостей они на основании имеющихся данных способны находить такие взаимозависимости самостоятельно и строить гипотезы об их характере.

Согласно В. А. Дюку¹, выделяют пять стандартных типов закономерностей, выявляемых методами Data Mining:

ассоциация — высокая вероятность связи событий друг с другом (например, один товар часто приобретается вместе с другим);
последовательность — высокая вероятность цепочки связанных во времени событий (например, в течение определенного срока после приобретения одного товара будет с высокой степенью вероятности приобретен другой);
классификация — имеются признаки, характеризующие группу, к которой принадлежит то или иное событие или объект (обычно при этом на основании анализа уже классифицированных событий формулируются некие правила);
кластеризация — закономерность, сходная с классификацией и отличающаяся от нее тем, что сами группы при этом не заданы — они выявляются автоматически в процессе обработки данных;

-временные закономерности — наличие шаблонов в динамике поведения тех или иных данных (типичный пример — сезонные колебания спроса на те или иные товары либо услуги), используемых для прогнозирования.

Применение

Сфера применения Data Mining ничем не ограничена, она везде, где имеются какие-либо данные. Но в первую очередь методы Data Mining сегодня заинтересовали банки, страховые компании и коммерческие предприятия, развертывающие проекты на основе информационных хранилищ данных. Опыт многих таких предприятий показывает, что отдача от использования Data Mining может достигать 1000%. Например, известны сообщения об экономическом эффекте, в 10—70 раз превысившем первоначальные затраты от 350 до 750 тыс. дол. Известны сведения о проекте в 20 млн дол., который окупился всего за 4 месяца. Другой пример — годовая экономия 700 тыс. дол. за счет внедрения Data Mining в сети универсамов в Великобритании.

Data Mining представляет большую ценность для руководителей и аналитиков в их повседневной деятельности. Деловые люди осознали, что с помощью методов Data Mining они могут получить ощутимые преимущества в конкурентной борьбе.

1 / 161 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.20255 Мб10СМОЛЯНИНОВ РУКА-МОЗГ.docx
#
01.07.2025783 Кб5СНиП приложения 21-29.doc
#
01.04.2025665 Кб16Собранное.docx
#
07.11.2019130 Кб33совесть как нравственная основа личности.rtf
#
01.07.2025284 Кб1современные СВТ.docx
#
27.11.2019625 Кб35СОВРЕМЕННЫЕ ТЕХНОЛОГИИ АНАЛИЗА - копия - копия.doc
#
01.05.202587 Кб3СОДЕРЖАНИЕ БАНКА ТЕСТОВЫХ ЗАДАНИЙ НТПС ч 1.doc
#
01.07.20251 Мб3Содержание и текст КД Часть 2 2015 печать.docx
#
01.07.2025856 Кб3Содержание и текст КД часть 6 2015 печать.docx
#
01.07.202535 Кб1СОДЕРЖАНИЕ.docx
#
24.11.201847 Кб31Сознание.doc