Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
vopros1-5.docx
Скачиваний:
37
Добавлен:
24.09.2019
Размер:
44.41 Кб
Скачать

Технология машинного обучения как основа современной лингвистической технологии. Технология автоматического извлечения данных и ее разновидности

Машинное обучение — обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться. Различают два типа обучения. Обучение по прецедентам, или индуктивное обучение, основано на выявлении закономерностей в эмпирических данных. Дедуктивное обучение предполагает формализацию знаний экспертов и их перенос в компьютер в виде базы знаний. Дедуктивное обучение принято относить к области экспертных систем, поэтому термины машинное обучение и обучение по прецедентам можно считать синонимами.

Машинное обучение находится на стыке математической статистики, методов оптимизации и дискретной математики, но имеет также и собственную специфику, связанную с проблемами вычислительной эффективности и переобучения. Многие методы индуктивного обучения разрабатывались как альтернатива классическим статистическим подходам. Многие методы тесно связаны с извлечением информации, интеллектуальным анализом данных (Data Mining).

Способы машинного обучения

Так как раздел машинного обучения, с одной стороны, образовался в результате разделения науки о нейросетях на методы обучения сетей и виды топологий архитектуры сетей, а с другой, вобрал в себя методы математической статистики, то указанные ниже способы машинного обучения исходят из нейросетей. То есть базовые виды нейросетей, такие как перцептрон имногослойный перцептрон (а также их модификации) могут обучаться как с учителем, без учителя, с подкреплением, и активно. Но некоторые нейросети и большинство статистических методов можно отнести только к одному из способов обучения. Поэтому если нужно классифицировать методы машинного обучения в зависимости от способа обучения, то, касательно нейросетей, не корректно их относить к определенному виду, а правильнее классифицировать алгоритмы обучения нейронных сетей.

  • Обучение с учителем — для каждого прецедента задаётся пара «ситуация, требуемое решение»:

  1. Метод коррекции ошибки

  2. Метод обратного распространения ошибки

  • Обучение без учителя — для каждого прецедента задаётся только «ситуация», требуется сгруппировать объекты в кластеры, используя данные о попарном сходстве объектов, и/или понизить размерность данных:

  1. Альфа-система подкрепления

  2. Гамма-система подкрепления

  3. Метод ближайших соседей

  • Обучение с подкреплением — для каждого прецедента имеется пара «ситуация, принятое решение»:

  1. Генетический алгоритм.

  • Активное обучение — отличается тем, что обучаемый алгоритм имеет возможность самостоятельно назначать следующую исследуемую ситуацию, на которой станет известен верный ответ:

  • Обучение с частичным привлечением учителя (semi-supervised learning) — для части прецедентов задается пара «ситуация, требуемое решение», а для части — только «ситуация»

  • Трансдуктивное обучение (transduction) — обучение с частичным привлечением учителя, когда прогноз предполагается делать только для прецедентов из тестовой выборки

  • Многозадачное обучение (multi-task learning) — одновременное обучение группе взаимосвязанных задач, для каждой из которых задаются свои пары «ситуация, требуемое решение»

  • Многовариантное обучение (multiple-instance learning) — обучение, когда прецеденты могут быть объединены в группы, в каждой из которых для всех прецедентов имеется «ситуация», но только для одного из них (причем, неизвестно какого) имеется пара «ситуация, требуемое решение»

Классические задачи решаемые с помощью машинного обучения

  • Классификация как правило, выполняется с помощью обучения с учителем на этапе собственно обучения.

  • Кластеризация как правило, выполняется с помощью обучения без учителя

  • Регрессия как правило, выполняется с помощью обучения с учителем на этапе тестирования, является частным случаемзадач прогнозирования.

  • Понижение размерности данных и их визуализация выполняется с помощью обучения без учителя

  • Восстановление плотности распределения вероятности по набору данных

  • Одноклассовая классификация и выявление новизны

  • Построение ранговых зависимостей

Типы входных данных при обучении

  • Признаковое описание объектов — наиболее распространённый случай.

  • Описание взаимоотношений между объектами, чаще всего отношения попарного сходства, выражаемые при помощи матрицы расстояний, ядер либо графа данных

  • Временной ряд или сигнал.

  • Изображение или видеоряд.

Кореференция – соотнесенность (компьютер и ЭВМ – кооферентные понятия)

Автоматическое извлечение данных – это процедура получения из массива какой-либо информации каких-либо данных.

Биоинформатика (NLP – изучение структуры ДНК с целью нахождения рака; автоматическое построение тезаурусов по медицинской тематике).

  1. Автоматическое извлечение мнений занимается определением отношения автора текста к описываемой в тексте проблеме, явлению или событию.

Анализ субъективности; используется термин в общей теории искусственного интеллекта; сентимент – анализ, термин из области обработки естественного языка NLP; opinion mining – термин из области информационного поиска.

Области применения: 1) информационный поиск 2) технология detection 3) борьба со спамом 4) анализ качества продукции

5) government intelligence (службы, близкие к разведке).

2. Кластеризация документов – это процесс обнаружения естественных групп в коллекции документов/автоматическое разбиение элементов некоторого множества из группы в зависимости от их схожести. Такие группы называются кластерами. Применяется для анализа данных, извлечения и поиска информации и для группировки и распознавания объектов.

Типы кластеризации:

  • Восходящая/нисходящая кластеризации (hierarcical / partitional)

    • Исключающая, перекрывающая и нечеткая кластеризации (exclusive / overlapping)

    • Полная и частичная кластеризации (complete / partial clustering)

Восходящая/нисходящая кластеризация

    • Иерархическая кластеризация (восходящая) - допускаем наличие подкластеров, осуществляется в несколько приемов, в результате образуется в иерархическое дерево (дендрограмму).

    • Нисходящая (плоская) кластеризация - предполагает разделение на кластеры сразу, причем один объект относится только к одному кластеру.

Исключающая, перекрывающая и нечеткая кластеризации

    • Исключающая – каждый объект может быть отнесен только к одному кластеру

    • Перекрывающая - используется, если объект принадлежит к нескольким группам или находится между двумя кластерами.

    • Нечеткая или вероятностные кластеризации являются частными случаями перекрывающей кластеризации. Тогда каждый объект относится к кластеру с определенным весом или вероятностью. Например, вес от 0 до1, где 0 – абсолютно не принадлежит, 1 – полностью принадлежит.

Полная и частичная кластеризации (complete/ partial)

    • Метод полной кластеризации - каждый объект обязательно относится к кластеру

    • Частичная кластеризация –некоторые объекты не принадлежат к четко определенным группам, поскольку могут являться выбросами, шумами и т.п.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]