Слайд 3 (Иван):

Линейная регрессия — это один из самых распространённых методов машинного обучения, который используется для предсказания числовых значений на основе набора данных.

В машинном обучении линейная регрессия применяется для решения различных задач, таких как прогнозирование цен на акции, определение вероятности заболевания, оценка стоимости недвижимости и т. д.

Суть метода заключается в том, что строится модель, которая описывает зависимость между одной или несколькими независимыми переменными (факторами) и зависимой переменной (результатом). Модель представляет собой уравнение прямой линии, где коэффициенты при независимых переменных определяют их вклад в результат.

Для построения модели необходимо иметь набор данных, содержащий значения факторов и результата. Затем с помощью метода наименьших квадратов подбираются коэффициенты уравнения таким образом, чтобы минимизировать разницу между предсказанными и фактическими значениями результата.

После построения модели её можно использовать для прогнозирования новых значений результата на основе известных значений факторов. Это позволяет делать выводы о возможных значениях результата при изменении факторов или о влиянии изменения факторов на результат.

Линейная регрессия является простым и эффективным методом машинного обучения. Она может быть использована для решения широкого спектра задач, связанных с предсказанием числовых значений. Однако она имеет некоторые ограничения, такие как невозможность учёта нелинейных зависимостей между факторами и результатом. В таких случаях могут потребоваться более сложные методы машинного обучения, такие как нелинейная регрессия или нейронные сети.

Слайд 4 (Иван):

Логистическая регрессия — это метод машинного обучения, который используется для задач классификации. Он позволяет предсказывать вероятность принадлежности объекта к определённому классу на основе набора признаков.

В машинном обучении логистическая регрессия применяется для решения различных задач, таких как определение вероятности заболевания, прогнозирование оттока клиентов, распознавание спама и т. д.

Суть метода заключается в том, что строится модель, которая описывает зависимость между одной или несколькими независимыми переменными (факторами) и зависимой переменной (результатом), принимающей значения 0 или 1. Модель представляет собой уравнение сигмоидальной функции, где коэффициенты при независимых переменных определяют их вклад в результат.

Для построения модели необходимо иметь набор данных, содержащий значения факторов и результата. Затем с помощью метода максимального правдоподобия подбираются коэффициенты уравнения таким образом, чтобы максимизировать вероятность правильного предсказания результата для всех объектов из обучающей выборки.

После построения модели её можно использовать для прогнозирования новых значений результата на основе известных значений факторов. Это позволяет делать выводы о вероятности принадлежности нового объекта к определённому классу.

Логистическая регрессия является простым и эффективным методом машинного обучения. Она может быть использована для решения широкого спектра задач, связанных с классификацией

объектов. Однако она имеет некоторые ограничения, такие как невозможность учёта нелинейных зависимостей между факторами и результатом. В таких случаях могут потребоваться более сложные методы машинного обучения, такие как деревья решений или нейронные сети.

Слайд 5 (Максим):

Деревья решений — это один из методов машинного обучения, который используется для задач классификации и регрессии. Он позволяет предсказывать принадлежность объекта к определённому классу или значение числовой переменной на основе набора признаков.

В машинном обучении деревья решений применяются для решения различных задач, таких как определение вероятности заболевания, прогнозирование оттока клиентов, распознавание спама и т. д.

Суть метода заключается в том, что строится модель, которая представляет собой иерархическую структуру, состоящую из узлов (решений) и листьев (результатов). В каждом узле модели принимается решение о том, какой признак использовать для разделения данных на две или более групп. В листьях модели предсказывается результат для каждой группы данных.

Для построения модели необходимо иметь набор данных, содержащий значения признаков и результата. Затем с помощью алгоритма обучения дерева решений подбираются параметры модели таким образом, чтобы минимизировать ошибку предсказания результата для всех объектов из обучающей выборки.

После построения модели её можно использовать для прогнозирования новых значений результата на основе известных значений признаков. Это позволяет делать выводы о принадлежности нового объекта к определённому классу или о значении числовой переменной для него.

Деревья решений являются простым и эффективным методом машинного обучения. Они могут быть использованы для решения широкого спектра задач, связанных с классификацией и регрессией объектов. Однако они имеют некоторые ограничения, такие как переобучение и невозможность учёта нелинейных зависимостей между признаками и результатом. В таких случаях могут потребоваться более сложные методы машинного обучения, такие как ансамбли деревьев решений или нейронные сети.

Слайд 6 (Максим):

Нейронные сети — это один из самых популярных и мощных методов машинного обучения, который используется для решения сложных задач, таких как распознавание изображений, обработка естественного языка, прогнозирование временных рядов и многие другие.

В машинном обучении нейронные сети применяются для задач классификации, регрессии, кластеризации и других. Они представляют собой математические модели, которые имитируют работу биологических нейронов в мозге человека. Нейронные сети состоят из слоёв нейронов, каждый из которых выполняет определённые вычисления. Входные данные проходят через слои нейронов и преобразуются в выходные данные.

Для построения нейронной сети необходимо иметь набор данных, содержащий значения признаков и результата. Затем с помощью алгоритма обучения нейронных сетей подбираются параметры модели таким образом, чтобы минимизировать ошибку предсказания результата для всех объектов из обучающей выборки.

После построения модели её можно использовать для прогнозирования новых значений результата на основе известных значений признаков. Это позволяет делать выводы о

принадлежности нового объекта к определённому классу или о значении числовой переменной для него.

Нейронные сети являются сложным и мощным методом машинного обучения. Они могут быть использованы для решения широкого спектра задач, связанных с классификацией, регрессией, кластеризацией и другими. Однако они требуют большого количества данных для обучения и могут быть сложными в интерпретации результатов.

Слайд 7 (Артем):

Кластеризация — это метод машинного обучения, который используется для группировки объектов или данных в кластеры на основе их сходства. Кластеризация позволяет выявить скрытые структуры и закономерности в данных, которые могут быть полезны для понимания и анализа информации.

В машинном обучении кластеризация применяется для решения различных задач, таких как сегментация клиентов, анализ социальных сетей, классификация изображений и т. д.

Суть метода заключается в том, что строится модель, которая описывает распределение объектов по кластерам. Модель может быть основана на различных алгоритмах, таких как k-средних, иерархическая кластеризация и другие.

Для построения модели необходимо иметь набор данных, содержащий значения признаков объектов. Затем с помощью алгоритма кластеризации подбираются параметры модели таким образом, чтобы минимизировать расстояние между объектами внутри кластеров и максимизировать расстояние между кластерами.

После построения модели её можно использовать для прогнозирования принадлежности новых объектов к определённым кластерам на основе известных значений признаков. Это позволяет делать выводы о сходстве новых объектов с уже известными и о возможных свойствах новых объектов.

Кластеризация является мощным методом машинного обучения. Она может быть использована для решения широкого спектра задач, связанных с анализом данных и выявлением закономерностей. Однако она имеет некоторые ограничения, такие как зависимость от выбора параметров модели и невозможность учёта нелинейных зависимостей между признаками объектов. В таких случаях могут потребоваться более сложные методы машинного обучения, такие как нейронные сети или деревья решений.

Слайд 8 (Артем):

Метод отбора признаков — это процесс выбора наиболее значимых и информативных признаков из исходного набора данных для использования в модели машинного обучения. Этот метод является важным этапом предварительной обработки данных, который может существенно повлиять на точность и эффективность модели.

В машинном обучении метод отбора признаков используется для решения различных задач, таких как классификация, регрессия, кластеризация и другие. Он позволяет уменьшить размерность данных, устранить шум и избыточность, а также улучшить интерпретируемость модели.

Существует несколько методов отбора признаков, которые можно разделить на две категории:

Фильтрация: методы, основанные на статистических характеристиках признаков, таких как дисперсия, корреляция и энтропия. Эти методы оценивают каждый признак отдельно и выбирают те, которые имеют наибольшую значимость или информативность. Примеры методов фильтрации включают анализ главных компонент (PCA), метод корреляции и метод взаимной информации.

Обёртывание: методы, использующие модель машинного обучения для оценки важности признаков. Эти методы обучают модель с использованием всех признаков и затем анализируют её веса или коэффициенты для определения наиболее важных признаков. Примеры методов обёртывания включают рекурсивное устранение признаков (RFE), градиентный бустинг и случайный лес.

Выбор метода отбора признаков зависит от конкретной задачи, доступных данных и предпочтений исследователя. Методы фильтрации могут быть более быстрыми и простыми, но они могут не учитывать взаимодействие между признаками. Методы обёртывания могут быть более точными, но они требуют больше времени и ресурсов для обучения модели.