Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
шпоры по СТОЭИ.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
222.72 Кб
Скачать

38. Особенности проектов Data Mining, типовая структура аналитических систем.

В большинстве случаев DataMining проекты не оправдывают ожидания клиентов потому, что они относятся к ним как к стандартным проектам. Однако DataMining проект – это вообще не проект, а научное исследование, целью которого является не получение результата с гарантированным качеством (что невозможно в принципе), а лучшей модели из возможных в данной ситуации. Исходя из этого можно выделить следующие особенности DataMining проектов:

- границы проекта точно описать невозможно, анализ – это периодически повторяющийся процесс

-результат зависит от качества данных, которое всегда является проблемой

- аналитик предполагает, что закономерности существуют, но найти их можно только в результате исследования

- требования к ПО (ориентация на аналитика, гибкость, очистка данных, моделирование, интеграция)

- критически важными для процесса являются возможности развития и адаптации моделей

39. Основные этапы процесса Data Mining, общая схема анализа данных.

Процесс Data Mining является своего рода исследованием. Как любое исследование, этот процесс состоит из определенных этапов, включающих элементы сравнения, типизации, классификации, обобщения, абстрагирования, повторения. Процесс Data Mining неразрывно связан с процессом принятия решений. Процесс Data Mining строит модель, а в процессе принятия решений эта модель эксплуатируется.

Рассмотрим традиционный процесс Data Mining. Он включает следующие этапы:

• анализ предметной области;

• постановка задачи;

• подготовка данных;

• построение моделей;

• проверка и оценка моделей;

• выбор модели;

• применение модели;

• коррекция и обновление модели.

Подробный анализ данных необходим для выявления подлежащих удалению видов ошибок и несоответствий. Здесь можно использовать как ручную проверку данных или их шаблонов, так и специальные программы для получения метаданных о свойствах данных и определения проблем качества. Это полностью технический процесс, который специалисты компании проводят самостоятельно при помощи, в основном, собственных разработок. Спектр применяемых алгоритмов очень широк - от методов нечеткой кластеризации и деревьев решений до нейронных сетей и методов извлечения нечетких лингвистических правил. Общую же схему анализа данных можно представить следующим образом:

- сбор и подготовка данных к анализу

- оценка основных свойств реализаций

- анализ данных

40.Методы эффективной работы с большими данными для DataMining.

Методы Data Mining можно разделить на следующие группы:

· Статистические, основанные на использовании усредненного накопленного опыта, который отражен в ретроспективных данных;

1. Дескриптивный анализ и описание исходных данных.

2. Анализ связей (корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ).

3. Многомерный статистический анализ (компонентный анализ, дискриминантный анализ, многомерный регрессионный анализ, канонические корреляции и др.).

4. Анализ временных рядов (динамические модели и прогнозирование).

· Кибернетические, включающие множество разнородных математических подходов.

1)искусственные нейронные сети (распознавание, кластеризация, прогноз);

2)эволюционное программирование (в т.ч. алгоритмы метода группового 3)учета аргументов);

4)генетические алгоритмы (оптимизация);

5)ассоциативная память (поиск аналогов, прототипов);

6)нечеткая логика;

7)деревья решений;

8)системы обработки экспертных знаний.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]