Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
1079.pdf
Скачиваний:
59
Добавлен:
07.01.2021
Размер:
854.54 Кб
Скачать

1.3. Введение в разработку данных и машинное обучение

Вопросы для рассмотрения: Машинное обучение и разработка данных: основные задачи и методы, история возникновения. Обзор различных подходов машинного обучения.

Рекомендуемая литература: 2.

Перечень дополнительных ресурсов: 4, 5, перечень ресурсов сети Интернет.

Наименование вида самостоятельной работы: изучение литературы и выполнение тестовых заданий.

Машинное обучение – обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться.

Различают два типа обучения:

Обучение по прецедентам, или индуктивное обучение, основано на выявлении общих закономерностей по частным эмпирическим данным.

Дедуктивное обучение предполагает формализацию знаний экспертов и их перенос в компьютер в виде базы знаний. Дедуктивное обучение принято относить к области экспертных систем.

Машинное обучение находится на стыке математической статистики, методов оптимизации и классических математических дисциплин, но имеет также и собственную специфику, связанную с проблемами вычислительной эффективности и переобучения.

Типология стандартных типовых задач машинного обучения и разработки данных:

1)Обучение с учителем.

2)Обучение без учителя.

3)Частичное обучение.

4)Трансдуктивное обучение.

5)Обучение с подкреплением.

6)Динамическое обучение.

7)Активное обучение.

8)Метаобучение.

Методы машинного обучения:

– Нейронные сети. Нейронные сети имитируют структуру головного мозга: каждый искусственный нейрон соединяется с несколькими другими нейронами. Нейросети имеют многослойную

структуру: нейроны на одном слое передают данные нескольким нейронам на следующем и т. д. В конечном счете данные достигают выходного слоя, где сеть выдает предположение о том, как решить задачу, классифицировать объект и т. п. Нейросети применяются в целом ряде отраслей. В здравоохранении их используют при анализе медицинских снимков с целью ускорения диагностических процедур

ипоиска лекарств. В телекоммуникационной отрасли и медиаиндустрии нейросети можно применять для машинного перевода, распознавания мошенничеств и предоставления услуг виртуальных ассистентов. В финансовой отрасли их используют для распознавания мошенничеств, управления портфелями и анализа риска. В розничной торговле — для избавления от очередей в кассу и для персонализации обслуживания покупателей.

Дерево решений. Алгоритм дерева решений классифицирует объекты, отвечая на «вопросы» об их атрибутах, расположенные в узловых точках. В зависимости от ответа выбирается одна из ветвей,

итак до тех пор, пока не будет достигнут «лист» — окончательный ответ. Среди применений дерева решений — платформы управления знаниями для клиентского обслуживания, прогнозного назначения цен и планирования выпуска продукции.

«Случайный лес». Это универсальный, быстро обучаемый механизм для обнаружения связей внутри набора данных. В пример можно привести нежелательные массовые рассылки, создающие проблемы не только пользователям, но и провайдерам Интернета, которым из-за спама приходится иметь дело с повышенной нагрузкой на серверы. Для борьбы с проблемой были разработаны автоматизированные методы фильтрации спама, которые с помощью ансамбля решающих деревьев быстро и эффективно определяют нежелательные письма. Среди других применений — диагностика заболеваний путем анализа медицинской карты пациента, распознавание банковских мошенничеств, прогнозирование числа звонков в колл-центрах и прогнозирование вероятности прибыли и убытка при покупке определенных акций.

Кластеризация Кластеризация — это группирование элементов данных, имеющих сходные характеристики, с помощью статистических алгоритмов. Это метод обучения без учителя, который можно использовать для решения задач классификации. Кластеризация также действенна, когда в сложных наборах данных нужно обнаружить группы, которые трудно заметить без

специальных средств. Примеры — от группирования похожих документов в базе данных до обнаружения по криминальным новостям территорий с повышенным уровнем преступности.

Примеры: сегментирование покупательской аудитории в зависимости от характеристик для уточнения адресации маркетинговых кампаний; рекомендации новостей конкретным читателям; помощь в работе правоохранительным органам.

– Поиск ассоциативных правил. Поиск ассоциативных правил - это метод обучения без учителя, позволяющий находить отношения между переменными. Используется в движках выдачи рекомендаций

— именно этот метод применяется во многих интернет-магазинах для составления фразы «Вместе с этим товаром обычно покупают...».

Конкретный пример — повышение продаж в магазине деликатесов. Изучив покупательское поведение путем поиска ассоциативных правил, можно предлагать специальную упаковку и наборы для праздников и других особых случаев. Ассоциативные правила позволяют выяснить, когда и при каких обстоятельствах покупатели приобретают те или иные сочетания товаров. Используя сведения о прошлых покупках и времени их совершения, можно составить программу скидок и сформировать индивидуальные предложения с расчетом на повышение продаж.

1.4. Поиск ассоциативных правил и частых множеств признаков

Вопросы для рассмотрения: Задача анализа данных о покупках и её роль в разработке данных. Частые (замкнутые) множества признаков (ЧМП). Ассоциативные правила (АП). Меры «интересности» АП: поддержка н достоверность. Алгоритм Априори. Связь ЧЗМП с решетками формальных понятий. Импликации в АФП как ассоциативные правша.

Рекомендуемая литература: 1, 2.

Перечень дополнительных ресурсов: 1, 4, перечень ресурсов сети Интернет.

Наименование вида самостоятельной работы: изучение ли-

тературы, подготовка к лабораторным работам, выполнение контрольной работы и тестовых заданий.

Обучение ассоциативным правилам или поиск ассоциативных правил – это метод обучения машин на базе правил обнаружения ин-

тересующих нас связей между переменными в большой базе данных. Метод предлагается для установления сильных правил, обнаруженных в базе данных с помощью некоторых мер интересности[1]. Этот основанный на правилах подход генерирует также новые правила по мере анализа дополнительных данных. Конечной целью, исходя из достаточно большого набора данных, помочь машине имитировать выделение признаков человеческим и создать возможность нахождения абстрактных ассоциаций из новых неклассифицированных данных.

Полезные концепции ассоциативных правил:

Поддержка — это показатель, насколько часто набор объектов обнаруживается в базе данных.

Доверие — это показатель, насколько часто правило оказывается верным.

Лифт правило, его значение принимается во внимание как доверие правила, так и общие данные

Уверенность правила.

От ассоциативных правил обычно требуется выполнение определённой пользователем минимальной поддержки и определённого пользователем минимального доверия. Генерация ассоциативного правила обычно разделяется на два шага:

Минимальный порог поддержки используется для поиска всех частых наборов объектов в базе данных.

Ограничение минимального доверия применяется к этим наборам для формирования правила.

Задача поиска частых множеств признаков (frequent itemsets mining) является одной из центральных тем в DataMining. Первоначально необходимость поиска частых множества признаков возникла при выявлении часто покупаемых вместе товаров в базах данных транзакций. Неформально ее можно описать так: дана большая база данных транзакций (покупок); необходимо найти все часто покупаемые наборы товаров, число покупок которых превышает заданный пользователем порог.

Среди частых множеств признаков выделяют так называемые частые замкнутые множества признаков, которые полезны для их более компактного представления. Такое представление осуществляется без потерь информации о поддержке собственных частых подмножеств данных частых замкнутых множеств признаков.

Отметим два важных для практической реализации свойства

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]