Добавил:

j_k Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича

Предмет:

Интеллектуальные информационные системы и технологии

Файл:

ЛР / ЛР9_Хакова_ЮМ_ИСТ-223

.docx

Скачиваний:

Добавлен:

07.06.2026

Размер:

1.13 Mб

Скачать

☆

МИНИСТЕРСТВО ЦИФРОВОГО РАЗВИТИЯ,

СВЯЗИ И МАССОВЫХ КОММУНИКАЦИЙ РОССИЙСКОЙ ФЕДЕРАЦИИ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ

«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТЕЛЕКОММУНИКАЦИЙ ИМ. ПРОФ. М.А. БОНЧ-БРУЕВИЧА»

(СПбГУТ)

Факультет Информационных технологий и программной инженерии

Кафедра Систем обработки данных

Направление: 09.03.02 Информационные системы и технологии

Профиль: Прикладные информационные системы и технологии

Лабораторная работа №8

«Тонкая настройка LLM модели нейронной сети»

по дисциплине

«Интеллектуальные системы и технологии»

Выполнил:

студент группы ИСТ-223

Хакова Ю.М. «____» _________2026 г.

Принял:

ассистент кафедры ИУС

Пелих Д.А. «____» _________2026 г.

Цель работы:

Освоить методы тонкой настройки языковых моделей для адаптации под специфические задачи. В рамках лабораторной работы предстоит подготовить датасет, совместимый с выбранной моделью. Датасет можно получить из открытых источников, либо создать самому с помощью синтетических данных нейронной сети LLM. Затем проводится настройка гиперпараметров обучения, модификация архитектуры модели и запуск процесса дообучения. Результатом работы должна стать нейронная сеть, способная генерировать адекватные ответы на запросы по теме данных, на которых она была дообучена.

Ход работы

1 Среда разработки и настройка окружения

Для выполнения лабораторной работы использовалась облачная среда Google Colab с поддержкой графического ускорителя (GPU), что позволило существенно ускорить процесс обучения модели.

На рисунке 1 представлено окно выбора конфигурации среды выполнения, где в качестве аппаратного ускорителя выбран графический процессор T4.

Рисунок 1 – Настройка среды выполнения в Google Colab с использованием GPU

2 Подготовка обучающего датасета

На следующем этапе был сформирован датасет, содержащий пары «вопрос–ответ». Данные были загружены из JSON-файла и преобразованы в формат, пригодный для обучения модели.

На рисунке 2 представлен код преобразования исходного датасета в формат, используемый библиотекой Unsloth.

Рисунок 2 — Преобразование обучающего датасета в формат JSONL

Далее датасет был загружен с использованием библиотеки HuggingFace Datasets.

Рисунок 3 — Загрузка и инициализация обучающего датасета

После загрузки данных был применён шаблон чата (chat template), который преобразует данные в формат, понятный языковой модели.

Рисунок 4 — Применение шаблона чата к обучающему датасету

3 Процесс обучения модели

После подготовки данных был запущен процесс обучения модели с использованием Trainer API.

На рисунке 5 представлены промежуточные значения функции потерь (loss), которые отражают качество обучения модели.

Рисунок 5 — Динамика изменения функции потерь в процессе обучения модели

На завершающем этапе обучения были получены итоговые значения метрик, включая общее время обучения и среднюю ошибку.

Рисунок 6 — Итоговые результаты обучения модели

4 Анализ процесса обучения

Как видно из представленных данных (рисунки 5–6), значение функции потерь постепенно уменьшается, что свидетельствует о корректной работе алгоритма обучения и успешной адаптации модели к обучающему датасету.

Несмотря на небольшие колебания значений, общая тенденция указывает на сходимость модели.

5 Тестирование модели

После завершения обучения была проведена проверка модели с использованием механизма генерации текста.

Модель успешно генерирует ответы на вопросы по теме межславянского языка, что подтверждает эффективность проведённого обучения.

Рисунок 7 — Результат генерации ответа моделью

6 Проблемы и ограничения

В ходе выполнения работы были выявлены следующие ограничения:

ограниченные ресурсы Google Colab;
нестабильность соединения;
длительное время сохранения модели.

В связи с этим часть операций выполнялась в упрощённом режиме.

7 Анализ результатов

Анализ показал:

модель успешно обучена;
ответы соответствуют теме;
структура ответа корректна.

Недостатки:

возможны упрощённые формулировки;
иногда наблюдается повторение слов.

Заключение

В ходе выполнения лабораторной работы была успешно реализована тонкая настройка языковой модели на специализированном датасете по теме межславянского языка.

В процессе работы были изучены принципы функционирования языковых моделей, методы подготовки обучающих данных, а также особенности процесса дообучения моделей с использованием современных инструментов машинного обучения.

Полученные результаты демонстрируют, что fine-tuning позволяет эффективно адаптировать языковые модели под конкретные задачи, обеспечивая генерацию корректных и тематически релевантных ответов.

Практическая значимость работы заключается в возможности применения подобных моделей при разработке интеллектуальных систем, чат-ботов и образовательных приложений.

В дальнейшем возможно улучшение качества модели за счёт увеличения объёма обучающего датасета, настройки гиперпараметров и использования более мощных вычислительных ресурсов.

Соседние файлы в папке ЛР

#
07.06.20262.34 Mб1ЛР4_Хакова_ЮМ_ИСТ-223.docx
#
07.06.20265.81 Mб1ЛР5_Хакова_ЮМ_ИСТ-223.docx
#
07.06.20261.9 Mб1ЛР6_Хакова_ЮМ_ИСТ-223.docx
#
07.06.2026719.79 Кб1ЛР7_Хакова_ЮМ_ИСТ-223.docx
#
07.06.2026897.84 Кб1ЛР8_Хакова_ЮМ_ИСТ-223.docx
#
07.06.20261.13 Mб1ЛР9_Хакова_ЮМ_ИСТ-223.docx