Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Dokument_Microsoft_Office_Word_Ispravlennyy.docx
Скачиваний:
32
Добавлен:
21.09.2019
Размер:
425.46 Кб
Скачать

2. Технология разработки данных

В этом разделе рассматриваются концепции разработки данных (data mining) и то, как эта технология может применяться для реализации потенциальных возможностей хранилищ данных. Особое внимание уделяется характеристикам основных, операций, методов и инструментов разработки данных. Кроме того,рассматривается связь между технологией разработки данных и организацией хранилищ данных.

Простое хранение информации в хранилище данных не дает тех преимуществ, которые организация хотела бы получить. Для реализации потенциала хранилища данных необходимо извлечь знания, скрытые внутри хранилища. Однако, с ростом объема и усложнением структуры помещенных в хранилище данных, бизнес-аналитикам становится чрезвычайно трудно, если вообще возможно, выявлять тен­денции и связи, существующие между элементами данных, используя лишь простые инструменты создания запросов и отчетов. Технология разработки данных является одним из наилучших способов извлечения осмысленных тенденций и закономерностей из огромного количества данных. Эта технология помогает отыскать внутри хранилища данных такую информацию, которая не может быть обнаружена ни с по­мощью запросов, ни посредством создания отчетов.

2.1 Основные понятия технологии разработки данных

Существует несколько определений понятия "разработка данных" — начиная с наиболее широкого определения, относящего к данной категории любые инструмен­ты, предоставляющие пользователям непосредственный доступ к очень большим объемам данных, и заканчивая наиболее специализированными определениями, выде­ляющими только те инструменты и приложения, которые осуществляют статистиче­ский анализ данных. В этом разделе мы воспользуемся достаточно конкретным опре­делением понятия разработки данных, предложенным Симоудисом (Simoudis, I996).

Разработка данных - процесс извлечения из больших баз данных достоверной, предварительно неизвестной, комплексной и значимой информации и использование ее для принятия ответственных бизнес-решений.

Разработка данных связана с анализом данных и использованием программных технологий поиска скрытых и неожиданных закономерностей и взаимосвязей в существующих наборах данных. Основная задача разработки данных заключается в обнаружении именно скрытой и неожиданной информации, поскольку не имеет смысла вести поиск закономерностей и связей, которые и так интуитивно понятны. Закономерности и связи идентифицируются путем обнаружения существующих фундаментальных правил и свойств данных,

Для проведения связанного с разработкой данных анализа обычно используются те данные и методы, которые способны дать наиболее точный и надежный результат, что обычно требует обработки большого объема данных. Процесс анализа начинается с разработки оптимального представления структуры выборки данных, по ходу кото­рой приобретаются исходные знания. Полученные знания затем пополняются за счет использования расширенного набора данных, при условии, что более крупный набор данных имеет ту же структуру, что и полученная ранее выборка денных.

Значительную отдачу от разработки данных получат те компании, которые вло­жат существенные инвестиции в создание хранилища данных. Хотя разработка дан­ных все еще остается сравнительно новой технологией, она уже используется во мно­гих отраслях промышленности. В таблице 4 перечислены примеры приложений, в которых используется технология разработки данных и которые предназначены для применения в таких областях, как розничная торговля, маркетинг, банковская сфе­ра, страхование и медицина.

Таблица 4. Примеры приложений технологии разработки данных

Розничная торговля и маркетинг

Обнаружение закономерностей в покупках, сделанных клиентами

Поиск ассоциативных связей среди демографических характеристик клиентов

Прогнозирование реакции на кампанию рассылки почтовых материалов

Анализ потребительской корзины

Банковская сфера

Обнаружение закономерностей в мошенническом использовании кредитных карточек

Поиск постоянных клиентов

Прогнозирование клиентов, которые, по-видимому, изменят свою принадлежность к кредитной карточной системе

Определение средних трат по кредитный карточкам для разных групп клиентов

Страхование

Определение тех клиентов, которые купят новые страховые полисы

Медицина

Определение характеристик поведения пациентов с целью планирования их приемов Поиск успешных терапевтических процедур при различных заболеваниях

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]