Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
шпоры по СТОЭИ.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
222.72 Кб
Скачать

34. Методы DataMining. Визуальные инструменты DataMining.

К методам и алгоритмам Data Mining относятся следующие: искусственные нейронные сети, деревья решений, символьные правила, методы ближайшего соседа и k-ближайшего соседа, метод опорных векторов, байесовские сети, линейная регрессия, корреляционно-регрессионный анализ; иерархические методы кластерного анализа; метод ограниченного перебора, эволюционное программирование и генетические алгоритмы, разнообразные методы визуализации данных и множество других методов.

Искусственные нейронные сети - относятся к классу нелинейных адаптивных систем с архитектурой, условно имитирующей нервную ткань, состоящую из нейронов. Нейронные сети широко применяются для решения задач классификации. Построенную сеть сначала нужно «обучить» на примерах, для которых известны значения исходных данных и результаты.

Деревья решений - способ представления правил в иерархической, последовательной структуре.

Метод ближайшего соседа - для каждого такого объекта выбрать ближайшего соседа, кластер которого определен, и если расстояние до этого соседа меньше порога – отнести его в тот же кластер, иначе можно создать новый. Далее рассматривается результат и при необходимости увеличивается порог.

Метод k-ближайшего соседа - заданное фиксированное число k кластеров наблюдения сопоставляются кластерам так, что средние в кластере (для всех переменных) максимально возможно отличаются друг от друга.

Линейная регрессия - используемая в статистике регрессионная модель зависимости одной (объясняемой, зависимой) переменной y от одной или нескольких других переменных (факторов, регрессоров, независимых переменных) x с линейной функцией зависимости.

Визуализация (Visualization, Graph Mining) – создание графического образа анализируемых данных. Для решения задачи визуализации используются графические методы, показывающие наличие закономерностей в данных.

Существует множество визуальных инструментов Data Mininng:

· Для деревьев решений – это визуализатор дерева решений, список правил, таблица сопряженности.

· Для нейронных сетей - в зависимости от инструмента это может быть топология сети, график изменения величины ошибки, демонстрирующий процесс обучения.

· Для карт Кохонена: карты входов, выходов, другие специфические карты.

· Для линейной регрессии - линия регрессии.

· Для кластеризации: дендрограммы, диаграммы рассеивания.

35. Проблемы и вопросы DataMining. Области применения.

Недостатки технологии Data Mining:

· средняя и высокая квалификация пользователей;

Различные инструменты Data Mining имеют различную степень "дружелюбности" интерфейса и требуют определенной квалификации пользователя. Поэтому программное обеспечение должно соответствовать уровню подготовки пользователя.

· извлечение полезных сведений невозможно без хорошего понимания сути данных;

Необходим тщательный выбор модели и интерпретация зависимостей или шаблонов, которые обнаружены. Поэтому работа с такими средствами требует тесного сотрудничества между экспертом в предметной области и специалистом по инструментам Data Mining.

· сложность подготовки данных;

Успешный анализ требует качественной предобработки данных. По утверждению аналитиков и пользователей баз данных, процесс предобработки может занять до 80% всего Data Mining-процесса.

·большой процент ложных, недостоверных или бессмысленных результатов;

С помощью Data Mining можно отыскивать действительно очень ценную информацию, которая вскоре даст большие дивиденды в виде финансовой и конкурентной выгоды.

Однако Data Mining достаточно часто делает множество ложных и не имеющих смысла открытий. Многие специалисты утверждают, что Data Mining-средства могут выдавать огромное количество статистически недостоверных результатов. Чтобы этого избежать, необходима проверка адекватности полученных моделей на тестовых данных.

· высокая стоимость;

Качественная Data Mining-программа может стоить достаточно дорого для компании. Вариантом служит приобретение уже готового решения с предварительной проверкой его использ-я, например на демо-версии с небольшой выборкой данных.

Области, где применения технологии Data Mining имеют следующие особ-ти: требуют реш-й, основанных на знаниях; имеют изменяющуюся окруж. среду; имеют доступные, достаточные и значимые данные; обеспечивают высокие дивиденды от правильных решений.

Сфера применения Data Mining ничем не ограничена — она везде, где имеются какие-либо данные. Среди областей применения выделяются:

• Database marketers - Рыночная сегментация, идентификация целевых групп, построение профиля клиента

• Банковское дело - Анализ кредитных рисков, привлечение и удержание клиентов, управление ресурсами

• Кредитные компании - Детекция подлогов, формир-е "типичного поведения" обладателя кредитки, анализ достоверности клиентских счетов , cross-selling программы

• Страховые компании - Привлечение и удержание клиентов, прогноз-е финансовых показателей

• Розничная торговля - Анализ деятельности торговых точек, построение профиля покупателя, управление ресурсами

•Биржевые трейдеры - Выработка оптим. торговой стратегии, контроль рисков

• Телекоммуникация и энергетика - Привлечение клиентов, ценовая политика, анализ отказов, предсказание пиковых нагрузок, прогнозир-е поступления средств

• Налоговые службы и аудиторы - Детекция подлогов, прогнозирование поступлений в бюджет

• Фармацевтические компании - Предсказание результатов будущего тестирования препаратов, программы испытания

•Медицина - Диагностика, выбор лечебных воздействий, прогнозирование исхода хирургического вмешательства

• Управление производством - Контроль качества, материально-техническое обеспечение, оптимизация технологического процесса

Ученые и инженеры - Построение эмпирических моделей, основанных на анализе данных, решение научно-технических задач.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]