Обобщенная схема процесса консолидации

Место консолидации в общем процессе анализа данных может быть представлено в виде структурной схемы (рис. 1).

Рис. 1. Процесс консолидации данных

Конечно же, консолидация данных является сложной многоступенчатой процедурой и важнейшей составляющей аналитического процесса, обеспечивающей высокий уровень аналитических решений.

Вероятностный вывод

В силу того, что Байесовская сеть — это полная модель для переменных и их отношений, она может быть использована для того, чтобы давать ответы на вероятностные вопросы. Например, сеть можно использовать чтобы получить новое знание о состоянии подмножества переменных наблюдая за другими переменными (переменные — свидетельства). Это процесс вычисления апостериорного распределения переменных по переменным-свидетельствам называют вероятностным выводом. Это следствие дает нам универсальную оценку для приложений, где нужно выбрать значения подмножества переменных, которое минимизирует функцию потерь, например вероятность ошибочного решения. Байесовская сеть может также считаться механизмом для автоматического построения расширения Теоремы Байеса для более сложных задач.

Для проведения вероятностного вывода в Байесовских сетях используются следующие алгоритмы.

Точные:

вывод методом грубой силы путём маргинализации полного совместного распределения;
алгоритмы устранения переменных и символьные вычисления,
кластеризация,
алгоритмы пропагации (передача) сообщений между узлами сети,

Приближенные на основе метода Монте-Карло:

алгоритмы формирования выборок с исключением,
метод оценки выборок с учетом правдоподобия,
алгоритм МСМС (Markov chain Monte Carlo) и др.

Достоинства байесовских сетей как средства извлечения данных:

поскольку в модели определяются зависимости между всеми переменными, легко обрабатываются ситуации, когда значения некоторых переменных неизвестны;
построенные байесовские сети просто интерпретируются и позволяют на этапе прогностического моделирования легко производить анализ по сценарию "что если…";
подход позволяет естественным образом совмещать закономерности, выведенные из данных, и фоновые знания, полученные в явном виде, например, от экспертов;
использование байесовских сетей позволяет избежать проблемы переподгонки (overfitting), то есть избыточного усложнения модели, чем страдают многие методы (например, деревья решений и индукция правил) при слишком буквальном следовании распределению зашумленных данных.

Несмотря на свою простоту, скорость и интерпретируемость результатов, наивно-байесовский алгоритм имеет недостатки:

перемножать условные вероятности корректно только тогда, когда все входные переменные действительно статистически независимы; допущение этой независимости и обуславливает уточнение "наивно-" в названии алгоритма, хотя, по приведенным в [Brand 98/2] примерам он показывает неплохие практические результаты даже при несоблюдении условия статистической независимости; корректно данная ситуация обрабатывается только более сложными методами, основанными на обучении байесовских сетей [Heckerman 95, Heckerman 97];
невозможна непосредственная обработка непрерывных переменных – их требуется разбивать на множество интервалов, чтобы атрибуты были дискретными; такое разбиение в ряде случаев приводит к потере значимых закономерностей [Brand 98/2];
наивно-байесовский подход учитывает только индивидуальное влияние входных переменных на результат классификации, не принимая во внимание комбинированного влияния пар или троек значений разных атрибутов [Brand 98/2], что было бы полезно с точки зрения прогностической точности, но значительно увеличило бы количество проверяемых комбинаций.

Сфера использования

Байесовские сети доверия - используются в тех областях, которые характеризуются наследованной неопределённостью. Эта неопределённость может возникать вследствие:

неполного понимания предметной области;

неполных знаний;

когда задача характеризуется случайностью.

Байесовские сети используются для моделирования в биоинформатике (генетические сети, структура белков), медицине, классификации документов, обработке изображений, обработке данных, машинном обучении и системах поддержки принятия решений.

<<< < Предыдущая 7 8 9 10 11 12 13 14 15 16 17 1819 / 4819 20 21 22 23 24 25 26 27 28 29 30 31 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
24.09.201983.37 Кб4ОБЩЕСТВО КАК ОБЪЕКТ ПОЗНАНИЯ.docx
#
01.05.2025159.74 Кб0общие билеты.doc
#
01.03.2025159.74 Кб0общие билеты.doc
#
01.03.20252.66 Mб1Общий конспект по Технологии анализа и обработ...docx
#
01.03.20252.68 Mб0Общий конспект по Технологии анализа и обработ...docx
#
01.03.20253.78 Mб1Общий конспект по Технологии анализа и обработ...docx
#
01.03.20252.63 Mб0Общий конспект по Технологии анализа и обработ...docx
#
29.02.2016641.56 Кб48Общий курс транспорта.pdf
#
01.04.2025121.86 Кб0Общий тест по курсу OS - 11.doc
#
01.03.202546.58 Кб0ОБЪЕКТИВНАЯ СТОРОНА ПРЕСТУПЛЕНИЯ.docx
#
24.11.201956.17 Кб6Объем и состав выборки.docx

Обобщенная схема процесса консолидации

Вероятностный вывод