Добавил:
Developer Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции / Лекция №11 29.11.pptx
Скачиваний:
12
Добавлен:
16.12.2023
Размер:
7.11 Mб
Скачать

Дизайн И. Гайдель 2007

Искусственный интеллект, машинное и глубокое обучение

Глубокое обучение

Глубокое обучение — особый раздел машинного обучения, новый подход к поиску представления данных, делающий упор на изучении последовательных слоев (или уровней) все более значимых представлений.

Под «глубиной» в глубоком обучении не подразумевается более детальное понимание, достигаемое этим подходом; идея заключается в создании многослойного представления. Поэтому подходящими названиями для этой области машинного обучения могли бы также служить многослойное обучение или

иерархическое обучение.

Число слоев, на которые делится модель данных, называют глубиной модели. Современное глубокое обучение часто вовлекает в процесс десятки и даже сотни последовательных слоев представления — все они автоматически определяются на основе обучающих данных.

Другие подходы машинного обучения ориентированы на изучение всего одного-двух слоев; по этой причине их еще иногда называют поверхностным обучением.

Дизайн И. Гайдель 2007

Искусственный интеллект, машинное и глубокое обучение

Глубокое обучение

В глубоком обучении такие многослойные представления рассматриваются (почти всегда) с использованием нейронных сетей — моделей, структурированных в виде слоев, наложенных друг на друга.

Как выглядят представления, получаемые алгоритмом глубокого обучения? Рассмотрим сеть, имеющую несколько слоев и преобразующую изображение цифры, пытаясь ее распознать.

Дизайн И. Гайдель 2007

Искусственный интеллект, машинное и глубокое обучение

Глубокое обучение

Как показано на слайде, сеть поэтапно преобразует образ цифры в представление, все больше отличающееся от исходного изображения и несущее все больше полезной информации.

Глубокую сеть можно рассматривать как многоэтапную операцию очистки, во время которой информация проходит через последовательность фильтров и выходит из нее в очищенном (пригодном для решения поставленной задачи) виде.

С технической точки зрения глубокое обучение — это многоступенчатый способ получения представления данных. Идея проста, но, оказывается, очень простые механизмы в определенном масштабе могут выглядеть непонятными и таинственными.

Дизайн И. Гайдель 2007

Искусственный интеллект, машинное и глубокое обучение

Принцип действия глубокого обучения

То, что именно слой делает со своими входными данными, определяется его весами, которые фактически являются набором чисел. Выражаясь техническим языком, преобразование, реализуемое слоем, параметризуется весами (слайд). (Веса также иногда называют параметрами слоя.)

В данном контексте обучение — это поиск набора значений весов всех слоев в сети, при котором сеть будет правильно отображать образцы входных данных в соответствующие им результаты.

Но есть проблема - глубокая нейронная сеть может иметь десятки миллионов параметров. Поиск правильного значения для каждого из них может оказаться сложнейшей задачей, особенно если изменение значения одного параметра влияет на поведение всех остальных!

Дизайн И. Гайдель 2007

Искусственный интеллект, машинное и глубокое обучение

Принцип действия глубокого обучения

Чтобы чем-то управлять, сначала нужно получить возможность наблюдать за этим. Чтобы управлять результатом работы нейронной сети, нужно измерить, насколько он далек от ожидаемого. Эту задачу решает функция потерь сети, называемая также целевой функцией или функцией стоимости. Функция потерь принимает предсказание, выданное сетью, и истинное значение (которое сеть должна была вернуть) и вычисляет оценку расстояния между ними, отражающую, насколько хорошо сеть справилась с данным конкретным примером (слайд).

Дизайн И. Гайдель 2007

Искусственный интеллект, машинное и глубокое обучение

Принцип действия глубокого обучения

Основная хитрость глубокого обучения заключается в использовании этой оценки для корректировки значения весов с целью уменьшения потерь в текущем примере (слайд). Данная корректировка является задачей оптимизатора, который реализует так называемый

алгоритм обратного распространения ошибки — центральный алгоритм глубокого обучения.

Первоначально весам сети присваиваются случайные значения, то есть фактически сеть реализует последовательность случайных преобразований. Естественно, получаемый ею результат далек от идеала, и оценка потерь при этом очень высока. Но с каждым примером, обрабатываемым сетью, веса корректируются в нужном направлении и оценка потерь уменьшается.

Это цикл обучения, который повторяется достаточное количество раз (обычно десятки итераций с тысячами примеров) и порождает весовые значения, минимизирующие функцию потерь. Сеть с минимальными потерями, возвращающая результаты, близкие к истинным, называется обученной сетью.

Дизайн И. Гайдель 2007

Искусственный интеллект, машинное и глубокое обучение

Глубокое обучение

Несмотря на то что глубокое обучение является давним разделом машинного обучения, фактическое его развитие началось только в начале 2010-х.

За это время глубокое обучение достигло в традиционно сложных областях машинного обучения таких прорывов, как:

классификация изображений на уровне человека;

распознавание речи на уровне человека;

распознавание рукописного текста на уровне человека;

улучшение качества машинного перевода с одного языка на другой;

улучшение качества машинного чтения текста вслух;

появление цифровых помощников, таких какGoogle Assistant и Amazon Alexa;

управление автомобилем на уровне человека;

повышение точности целевой рекламы, используемой компаниями Google, Baidu и Bing;

повышение релевантности поиска в интернете;

появление возможности отвечать на вопросы, заданные вслух;

• игра в ГО сильнее человека.

Дизайн И. Гайдель 2007

Искусственный интеллект, машинное и глубокое обучение

Краткая история машинного обучения

Вероятностное моделирование — применение принципов статистики к анализу данных. Это одна из самых ранних форм машинного обучения, которая до сих пор находит широкое использование. Одним из наиболее известных алгоритмов в данной категории является наивный байесовский алгоритм.

Наи́вный ба́йесовский классифика́тор — простой вероятностный классификатор, основанный на применении теоремы Байеса со строгими (наивными) предположениями

онезависимости входных данных.

Взависимости от точной природы вероятностной модели, наивные байесовские классификаторы могут обучаться очень эффективно. Несмотря на наивный вид и, несомненно, очень упрощенные условия, наивные байесовские классификаторы часто работают намного лучше нейронных сетей во многих сложных жизненных ситуациях.

Достоинством наивного байесовского классификатора является малое количество данных, необходимых для обучения, оценки параметров и классификации.

С байесовским алгоритмом тесно связана модель логистической регрессии. Модель логистической регрессии — это алгоритм классификации. Так же как наивный байесовский алгоритм, модель логистической регрессии была разработана задолго до появления компьютеров, но до сих пор остается востребованной благодаря своей простоте и универсальной природе. Часто это первое, что пытается сделать исследователь со своим набором данных, чтобы получить представление о классификации.

Дизайн И. Гайдель 2007

Искусственный интеллект, машинное и глубокое обучение

Краткая история машинного обучения

Ядерные методы — применение принципов статистики к анализу. Ядерные методы — это группа алгоритмов классификации, из которых наибольшую известность получил метод опорных векторов (Support Vector Machine, SVM).

Метод опорных векторов — это алгоритм классификации, предназначенный для поиска хороших «решающих границ», разделяющих два класса (см.слайд). Он выполняется в два этапа.

1.Данные отображаются в новое пространство более высокой размерности, где граница может быть представлена как гиперплоскость (если данные были двумерными, как на слайде, гиперплоскость вырождается в линию).

2.Хорошая решающая граница (разделяющая гиперплоскость) вычисляется путем максимизации расстояния от гиперплоскости до ближайших точек каждого класса. Этот этап называют максимизацией

зазора. Он позволяет обобщить классификацию новых образцов, не принадлежащих обучающему набору данных.

Дизайн И. Гайдель 2007

Искусственный интеллект, машинное и глубокое обучение

Краткая история машинного обучения

Методика отображения данных в пространство более высокой размерности, где задача классификации становится проще, может хорошо выглядеть на бумаге, но на практике часто оказывается трудноразрешимой.

Вот тут и приходит на помощь изящная процедура kernel trick (ключевая идея, по которой ядерные методы получили свое название). Суть ее заключается в следующем: чтобы найти хорошие решающие гиперплоскости в новом пространстве, явно определять координаты точек в этом пространстве не требуется; достаточно вычислить расстояния между парами точек — эффективно это можно сделать с помощью функции ядра.

Функция ядра — это незатратная вычислительная операция, отображающая любые две точки из исходного пространства и вычисляющая расстояние между ними в целевом пространстве представления, полностью минуя явное вычисление нового представления.

На момент разработки метод опорных векторов демонстрировал лучшую производительность на простых задачах классификации и был одним из немногих методов машинного обучения, обладающих обширной теоретической базой и поддающихся серьезному математическому анализу, что сделало его понятным и легко интерпретируемым. Благодаря этому SVM приобрел чрезвычайную популярность на долгие годы. Однако он оказался трудноприменимым к большим наборам данных и не давал хороших результатов для таких задач, как классификация изображений.

Соседние файлы в папке Лекции