- •Линейные пространства векторов. Скалярное произведение. Понятие базиса и линейной независимости элементов линейного пространства. Преобразования базиса.
- •Определение матрицы. Операции с матрицами (умножение на скаляр, сложение, умножение матриц, транспонирование матриц). Обратная матрица и методы ее получения. Функции от матриц.
- •Производные. Необходимое и достаточное условие дифференцируемости функции. Частные производные. Полный дифференциал. Производная и дифференциал сложной функции.
- •Градиент функции. Производные по направлению. Необходимые и достаточные условия экстремума функции многих переменных. Условные экстремумы. Метод множителей Лагранжа.
- •Задачи аппроксимации функций (интерполяция, экстраполяция, приближение в среднем). Способы построения интерполяционного полинома. Аппроксимации на основе ортогональных базисов. Понятие сплайна.
- •Численные методы оптимизации: методы Ньютона и секущей, методы покоординатного и градиентного спуска. Улучшение сходимости градиентных методов.
- •Численные методы оптимизации, основанные на случайных числах. Метод Монте-Карло, линейный случайный поиск, метод оптимизации отжигом.
- •Прямые и итерационные методы решения систем линейных алгебраических уравнений. Методы для систем с матрицами специального вида (ленточные, треугольные, положительно-определенные).
- •Линейные пространства функций (примеры). Скалярное произведение и норма. Операторы над линейными пространствами функций. Функционалы. Собственные числа и функции оператора в пространстве l2.
- •Определение вероятности. Вероятностная модель и вероятностное пространство. Вероятность случайного события и методы ее статистического оценивания по выборке.
- •Модель случайной величины. Закон, функция, плотность распределения. Квантили и моменты распределений, методы их статистического оценивания по выборке.
- •Вероятностные и толерантные интервалы: сходства и различия. Понятия точечного и интервального оценивания. Доверительные интервалы. Несмещенные и эффективные оценки.
- •Параметрическое оценивание распределений случайной величины. Метод моментов. Метод наибольшего правдоподобия и его численная реализация. Способы проверки качества параметрического оценивания.
- •Статистические гипотезы и статистические критерии. Односторонние и двусторонние критерии. Критерии согласия. Параметрические критерии. Ошибки первого и второго рода. Мощность критерия.
- •Модель многомерной случайной величины. Совместные и условные распределения. Условные моменты распределений и их оценивание по выборке. Многомерное распределение Гаусса и его свойства.
- •Случайные процессы и временные ряды. Понятие стационарности. Ковариационная (корреляционная функция). Теорема Карунена-Лоэва. Спектральная плотность случайных процессов.
- •Алгоритмы на графах. Алгоритмы обхода (поиска на) графах. Обнаружение кратчайшего пути и минимального цикла в графе. Построение остовного дерева.
- •Основные понятия машинного обучения. Отличие машинного обучения от статистики. Методы на обучении с учителем. Методы на обучении без учителя. Метрики качества алгоритмов машинного обучения.
- •Цикл обучения. Понятия обучающей и тестовой выборки. Отложенная выборка. Кросс-валидация. Понятия недообучения и переобучения. Дилемма смещения и разброса. Размерность Вапника-Червоненкиса.
- •Понятия классификации и кластеризации. Метрические, иерархические, вероятностные методы классификации и кластеризации. Dbscan и kNn. Оценка качества классификации и кластеризации.
- •Понятие искусственной нейронной сети. Типы нейронных сетей. Понятие стохастического градиента для обучения нейронной сети. Многослойный перцептрон. Сверточные нейронные сети.
- •Методы снижения размерности данных. Метод главных компонент. Метод канонических корреляций. Методы факторного анализа. Нелинейные методы снижения размерности.
- •Принцип повышения размерности пространства. Метод опорных векторов. Понятие и свойства ядра. Метод Kernel-Trick.
- •Построение списка решений и дерева решений. Редукция деревьев решений. Понятие бэггинга и бустинга для деревьев решений. Случайный лес и способы его построения.
- •Обучение с подкреплением. Модели агентов и отклика среды. Задачи, решаемые обучением с подкреплением.
- •Ассоциативный анализ и задача о "покупательской корзине". Алгоритмы аprior и fp-Growth.
- •Способы представления знаний. Модели графов знаний. Полнота графов знаний. Методы прямого и обратного вывода по графам знаний. Онтологическая модель и средства ее реализации.
- •Экспертные методы в принятии решений. Принятие решений при многих критериях. Множество Парето. Экспертные системы поддержки принятия решений.
- •Методы машинного обучения для анализа текстовой информации. Понятие эмбеддинга. Методы построения и использования эмбеддингов при работе с текстом.
- •Генеративные методы машинного обучения. Генеративно-состязательные сети. Вариационные автокодировщики. Байесовские сети. Принципы работы, оценка качества.
Генеративные методы машинного обучения. Генеративно-состязательные сети. Вариационные автокодировщики. Байесовские сети. Принципы работы, оценка качества.
Генеративные методы машинного обучения. Генеративные методы машинного обучения включают моделирование базового распределения данных и генерацию новых выборок из этого распределения. Двумя популярными генеративными методами являются генеративно-состязательные сети (GAN) и вариационные автоэнкодеры (VAEs), оба из которых имеют различные алгоритмы и принципы работы.
Генератоивно-состязательные сети (GAN). GAN состоят из двух нейронных сетей: генератора и дискриминатора. Генератор генерирует синтетические образцы, а дискриминатор различает реальные и сгенерированные образцы. Задача состоит в том, чтобы обучить обе сети одновременно, причем генератор должен научиться генерировать реалистичные образцы, которые могут обмануть дискриминатор.
Сеть-генератор принимает
на вход вектор случайного шума
и сопоставляет его со сгенерированным
образцом
с помощью функции
,
где
представляет собой параметры генератора.
Целью генератора является изучение
базового распределения обучающих данных
для генерации реалистичных образцов.
Сеть дискриминатора,
обозначаемая как
,
принимает на вход либо реальный образец
,
либо сгенерированный образец
и выдает вероятностную оценку, указывающую
на то, является ли данный образец реальным
или поддельным. Дискриминатор обучается
таким образом, чтобы максимизировать
вероятность правильной классификации
реальных и сгенерированных образцов.
Процесс обучения заключается
в итерационной оптимизации обеих сетей.
Генератор пытается минимизировать
,
обманывая дискриминатор, чтобы тот
классифицировал сгенерированные образцы
как реальные. В то же время дискриминатор
стремится максимизировать
для реальных образцов и
для сгенерированных образцов.
Алгоритм GAN можно резюмировать следующим образом:
Инициализируйте сети генератора и дискриминатора случайными весами.
Обучите дискриминатор, предоставив ему реальные выборки из обучающих данных и сгенерированные выборки из генератора, пометив их как реальные или поддельные.
Обучите генератор, генерируя выборки и пропуская их через дискриминатор. Генератор предназначен для генерации выборок, которые дискриминатор классифицирует как реальные.
Повторите шаги 2 и 3, чтобы улучшить обе сети одновременно до достижения конвергенции.
Вариационные автокодировщики (VAEs). VAE – это генеративные модели, которые сочетают в себе элементы автоэнкодеров и вероятностного моделирования. Они нацелены на изучение сжатого представления входных данных, называемого скрытым пространством, которое может быть использовано для генерации новых выборок.
Сеть кодировщика, обозначаемая
,
сопоставляет входные данные
с латентным представлением
.
Она учится кодировать входные данные
в вектор среднего значения
и вектор стандартного отклонения
,
которые затем используются для выборки
из гауссова распределения.
Сеть декодера, обозначаемая
как
,
принимает латентное представление
и восстанавливает исходные входные
данные
.
Декодер стремится генерировать выборки,
похожие на обучающие данные, путем
обучения условному распределению
.
Латентное пространство –
это низкоразмерное представление
входных данных. В процессе обучения
используется трюк перепараметризации
для выборки
путем добавления случайного шума
к среднему и стандартному отклонению,
полученному от кодера.
Алгоритм VAE можно резюмировать следующим образом:
Закодируйте входные данные в скрытое пространство меньшего размера с помощью сети кодировщиков.
Сделайте выборку из скрытого пространства для генерации скрытого вектора.
Декодируйте скрытый вектор с помощью сети декодеров для генерации восстановленного выходного сигнала.
Оптимизируйте модель, минимизируя потери при восстановлении и максимизируя член регуляризации, что побуждает скрытое пространство следовать предыдущему распределению (обычно гауссову распределению).
Байесовские сети. Байесовские сети – это вероятностные графические модели, которые представляют зависимости между переменными с использованием направленного ациклического графа. Они могут быть использованы для генеративного моделирования путем задания условных распределений вероятностей между переменными.
Узлы графа представляют переменные, а направленные ребра указывают на вероятностные зависимости. Каждому узлу соответствует условное распределение вероятности с учетом его родителей в графе.
Вывод в байесовских сетях заключается в вычислении апостериорных вероятностей на основе наблюдаемых данных. Это может быть сделано с помощью различных методов, таких как точные алгоритмы вычисления, например, Variable Elimination (VE), или приближенные методы, такие как выборка Марковской цепи Монте-Карло (MCMC).
Алгоритм байесовских сетей можно резюмировать следующим образом:
Определение структуры графика, представляющего переменные и их зависимости.
Присвоение условных распределений вероятностей каждой переменной на основе ее родительских значений на графике.
Выполнение вывода для вычисления вероятностей ненаблюдаемых переменных с учетом наблюдаемых переменных.
Оценка качества. Ниже приведены некоторые общие метрики оценки, которые помогают оценить разнообразие и качество сгенерированных выборок по сравнению с реальным распределением данных.
Оценка качества порождающе-состязательных сетей (GAN):
1. Начальный балл (IS). IS измеряет качество и разнообразие сгенерированных выборок путем оценки того, насколько хорошо они могут быть классифицированы с использованием начальной модели, обученной на реальных данных. Он объединяет среднюю вероятность класса и энтропию предсказанных вероятностей класса.
где
– условное распределение классов для
сгенерированной выборки
;
– предельное распределение классов по
всем сгенерированным выборкам;
– дивергенция Кульбака-Лейблера.
2. Начальное расстояние Фреше (FID). FID вычисляет расстояние между представлениями признаков реальных и сгенерированных выборок с использованием начальной модели. Он обеспечивает меру сходства между двумя распределениями и обычно используется в задачах генерации изображений.
где
и
– средние векторы признаков реальных
и сгенерированных выборок;
и
– ковариационные матрицы реальных и
сгенерированных выборок.
3. Расстояние Вассерштейна измеряет разницу между истинным распределением данных и сгенерированным распределением. Оно определяет, сколько "массы" необходимо перенести из одного распределения, чтобы преобразовать его в другое.
где и – истинное и сгенерированное распределения;
– множество всех совместных распределений
с маргинальными значениями
и
;
– функция стоимости, измеряющая расхождение между и .
Оценка качества вариационных автокодировщиков (VAEs):
1. Потери при реконструкции определяют, насколько хорошо VAE может восстановить входные данные из латентного пространства. Обычно они рассчитываются с помощью средней квадратичной ошибки или бинарной кросс-энтропии между реконструированным выходом и исходным входом.
где
– условное распределение входных данных
с учетом латентного вектора
.
2. Логарифмическая функция правдоподобия оценивает, насколько хорошо VAE отражает распределение обучающих данных. Более высокое значение функции правдоподобия указывает на лучшую производительность.
где – маргинальное распределение входных данных.
Оценка качества байесовских сетей сосредоточена на оценке их способности улавливать сложные зависимости между переменными и делать точные прогнозы.
1. Точность измеряет, насколько хорошо предсказания байесовской сети соответствуют истинным данным. При этом сравниваются предсказанные вероятности различных исходов с фактическими.
2. Способность байесовской сети улавливать сложные зависимости между переменными оценивается путем сравнения ее прогнозов с наблюдаемыми данными и оценки того, насколько хорошо она моделирует совместное распределение переменных.
