ЛР / ЛР9_Хакова_ЮМ_ИСТ-223
.docxМИНИСТЕРСТВО ЦИФРОВОГО РАЗВИТИЯ,
СВЯЗИ И МАССОВЫХ КОММУНИКАЦИЙ РОССИЙСКОЙ ФЕДЕРАЦИИ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ
«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТЕЛЕКОММУНИКАЦИЙ ИМ. ПРОФ. М.А. БОНЧ-БРУЕВИЧА»
(СПбГУТ)
Факультет Информационных технологий и программной инженерии
Кафедра Систем обработки данных
Направление: 09.03.02 Информационные системы и технологии
Профиль: Прикладные информационные системы и технологии
Лабораторная работа №8
«Тонкая настройка LLM модели нейронной сети»
по дисциплине
«Интеллектуальные системы и технологии»
Выполнил:
студент группы ИСТ-223
Хакова Ю.М. «____» _________2026 г.
Принял:
ассистент кафедры ИУС
Пелих Д.А. «____» _________2026 г.
Цель работы:
Освоить методы тонкой настройки языковых моделей для адаптации под специфические задачи. В рамках лабораторной работы предстоит подготовить датасет, совместимый с выбранной моделью. Датасет можно получить из открытых источников, либо создать самому с помощью синтетических данных нейронной сети LLM. Затем проводится настройка гиперпараметров обучения, модификация архитектуры модели и запуск процесса дообучения. Результатом работы должна стать нейронная сеть, способная генерировать адекватные ответы на запросы по теме данных, на которых она была дообучена.
Ход работы
1 Среда разработки и настройка окружения
Для выполнения лабораторной работы использовалась облачная среда Google Colab с поддержкой графического ускорителя (GPU), что позволило существенно ускорить процесс обучения модели.
На рисунке 1 представлено окно выбора конфигурации среды выполнения, где в качестве аппаратного ускорителя выбран графический процессор T4.
Рисунок 1 – Настройка среды выполнения в Google Colab с использованием GPU
2 Подготовка обучающего датасета
На следующем этапе был сформирован датасет, содержащий пары «вопрос–ответ». Данные были загружены из JSON-файла и преобразованы в формат, пригодный для обучения модели.
На рисунке 2 представлен код преобразования исходного датасета в формат, используемый библиотекой Unsloth.
Рисунок 2 — Преобразование обучающего датасета в формат JSONL
Далее датасет был загружен с использованием библиотеки HuggingFace Datasets.
Рисунок 3 — Загрузка и инициализация обучающего датасета
После загрузки данных был применён шаблон чата (chat template), который преобразует данные в формат, понятный языковой модели.
Рисунок 4 — Применение шаблона чата к обучающему датасету
3 Процесс обучения модели
После подготовки данных был запущен процесс обучения модели с использованием Trainer API.
На рисунке 5 представлены промежуточные значения функции потерь (loss), которые отражают качество обучения модели.
Рисунок 5 — Динамика изменения функции потерь в процессе обучения модели
На завершающем этапе обучения были получены итоговые значения метрик, включая общее время обучения и среднюю ошибку.
Рисунок 6 — Итоговые результаты обучения модели
4 Анализ процесса обучения
Как видно из представленных данных (рисунки 5–6), значение функции потерь постепенно уменьшается, что свидетельствует о корректной работе алгоритма обучения и успешной адаптации модели к обучающему датасету.
Несмотря на небольшие колебания значений, общая тенденция указывает на сходимость модели.
5 Тестирование модели
После завершения обучения была проведена проверка модели с использованием механизма генерации текста.
Модель успешно генерирует ответы на вопросы по теме межславянского языка, что подтверждает эффективность проведённого обучения.
Рисунок 7 — Результат генерации ответа моделью
6 Проблемы и ограничения
В ходе выполнения работы были выявлены следующие ограничения:
ограниченные ресурсы Google Colab;
нестабильность соединения;
длительное время сохранения модели.
В связи с этим часть операций выполнялась в упрощённом режиме.
7 Анализ результатов
Анализ показал:
модель успешно обучена;
ответы соответствуют теме;
структура ответа корректна.
Недостатки:
возможны упрощённые формулировки;
иногда наблюдается повторение слов.
Заключение
В ходе выполнения лабораторной работы была успешно реализована тонкая настройка языковой модели на специализированном датасете по теме межславянского языка.
В процессе работы были изучены принципы функционирования языковых моделей, методы подготовки обучающих данных, а также особенности процесса дообучения моделей с использованием современных инструментов машинного обучения.
Полученные результаты демонстрируют, что fine-tuning позволяет эффективно адаптировать языковые модели под конкретные задачи, обеспечивая генерацию корректных и тематически релевантных ответов.
Практическая значимость работы заключается в возможности применения подобных моделей при разработке интеллектуальных систем, чат-ботов и образовательных приложений.
В дальнейшем возможно улучшение качества модели за счёт увеличения объёма обучающего датасета, настройки гиперпараметров и использования более мощных вычислительных ресурсов.
