Скачиваний:
1
Добавлен:
07.06.2026
Размер:
1.13 Mб
Скачать

МИНИСТЕРСТВО ЦИФРОВОГО РАЗВИТИЯ,

СВЯЗИ И МАССОВЫХ КОММУНИКАЦИЙ РОССИЙСКОЙ ФЕДЕРАЦИИ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ

«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТЕЛЕКОММУНИКАЦИЙ ИМ. ПРОФ. М.А. БОНЧ-БРУЕВИЧА»

(СПбГУТ)

Факультет Информационных технологий и программной инженерии

Кафедра Систем обработки данных

Направление: 09.03.02 Информационные системы и технологии

Профиль: Прикладные информационные системы и технологии

Лабораторная работа №8

«Тонкая настройка LLM модели нейронной сети»

по дисциплине

«Интеллектуальные системы и технологии»

Выполнил:

студент группы ИСТ-223

Хакова Ю.М. «____» _________2026 г.

Принял:

ассистент кафедры ИУС

Пелих Д.А. «____» _________2026 г.

Цель работы:

Освоить методы тонкой настройки языковых моделей для адаптации под специфические задачи. В рамках лабораторной работы предстоит подготовить датасет, совместимый с выбранной моделью. Датасет можно получить из открытых источников, либо создать самому с помощью синтетических данных нейронной сети LLM. Затем проводится настройка гиперпараметров обучения, модификация архитектуры модели и запуск процесса дообучения. Результатом работы должна стать нейронная сеть, способная генерировать адекватные ответы на запросы по теме данных, на которых она была дообучена.

Ход работы

1 Среда разработки и настройка окружения

Для выполнения лабораторной работы использовалась облачная среда Google Colab с поддержкой графического ускорителя (GPU), что позволило существенно ускорить процесс обучения модели.

На рисунке 1 представлено окно выбора конфигурации среды выполнения, где в качестве аппаратного ускорителя выбран графический процессор T4.

Рисунок 1 – Настройка среды выполнения в Google Colab с использованием GPU

2 Подготовка обучающего датасета

На следующем этапе был сформирован датасет, содержащий пары «вопрос–ответ». Данные были загружены из JSON-файла и преобразованы в формат, пригодный для обучения модели.

На рисунке 2 представлен код преобразования исходного датасета в формат, используемый библиотекой Unsloth.

Рисунок 2 — Преобразование обучающего датасета в формат JSONL

Далее датасет был загружен с использованием библиотеки HuggingFace Datasets.

Рисунок 3 — Загрузка и инициализация обучающего датасета

После загрузки данных был применён шаблон чата (chat template), который преобразует данные в формат, понятный языковой модели.

Рисунок 4 — Применение шаблона чата к обучающему датасету

3 Процесс обучения модели

После подготовки данных был запущен процесс обучения модели с использованием Trainer API.

На рисунке 5 представлены промежуточные значения функции потерь (loss), которые отражают качество обучения модели.

Рисунок 5 — Динамика изменения функции потерь в процессе обучения модели

На завершающем этапе обучения были получены итоговые значения метрик, включая общее время обучения и среднюю ошибку.

Рисунок 6 — Итоговые результаты обучения модели

4 Анализ процесса обучения

Как видно из представленных данных (рисунки 5–6), значение функции потерь постепенно уменьшается, что свидетельствует о корректной работе алгоритма обучения и успешной адаптации модели к обучающему датасету.

Несмотря на небольшие колебания значений, общая тенденция указывает на сходимость модели.

5 Тестирование модели

После завершения обучения была проведена проверка модели с использованием механизма генерации текста.

Модель успешно генерирует ответы на вопросы по теме межславянского языка, что подтверждает эффективность проведённого обучения.

Рисунок 7 — Результат генерации ответа моделью

6 Проблемы и ограничения

В ходе выполнения работы были выявлены следующие ограничения:

  • ограниченные ресурсы Google Colab;

  • нестабильность соединения;

  • длительное время сохранения модели.

В связи с этим часть операций выполнялась в упрощённом режиме.

7 Анализ результатов

Анализ показал:

  • модель успешно обучена;

  • ответы соответствуют теме;

  • структура ответа корректна.

Недостатки:

  • возможны упрощённые формулировки;

  • иногда наблюдается повторение слов.

Заключение

В ходе выполнения лабораторной работы была успешно реализована тонкая настройка языковой модели на специализированном датасете по теме межславянского языка.

В процессе работы были изучены принципы функционирования языковых моделей, методы подготовки обучающих данных, а также особенности процесса дообучения моделей с использованием современных инструментов машинного обучения.

Полученные результаты демонстрируют, что fine-tuning позволяет эффективно адаптировать языковые модели под конкретные задачи, обеспечивая генерацию корректных и тематически релевантных ответов.

Практическая значимость работы заключается в возможности применения подобных моделей при разработке интеллектуальных систем, чат-ботов и образовательных приложений.

В дальнейшем возможно улучшение качества модели за счёт увеличения объёма обучающего датасета, настройки гиперпараметров и использования более мощных вычислительных ресурсов.