Скачиваний:
1
Добавлен:
29.04.2025
Размер:
274.43 Кб
Скачать

10

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

Федеральное государственное автономное образовательное учреждение высшего образования

«САНКТ-ПЕТЕРБУРГСКИЙ УНИВЕРСИТЕТ АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ»

(ГУАП)

КАФЕДРА № 41

ОТЧЕТ ЗАЩИЩЕН С ОЦЕНКОЙ

ПРЕПОДАВАТЕЛЬ

к.т.н., доцент

А.В. Яковлев

должность, уч. степень, звание

подпись, дата

инициалы, фамилия

ОТЧЕТ О ПРАКТИЧЕСКОЙ РАБОТЕ № 3

ИСПОЛЬЗОВАНИЕ СИСТЕМНОГО ПОДХОДА И МАТЕМАТИЧЕСКИХ МЕТОДОВ В ФОРМАЛИЗАЦИИ РЕШЕНИЯ ПРИКЛАДНЫХ ЗАДАЧ В ОБЛАСТИ ИНФОРМАЦИОННЫХ ПРОЦЕССОВ И СИСТЕМ

по курсу:

ИНФОРМАТИЗАЦИЯ И АНАЛИЗ ИНФОРМАЦИОННЫХ РЕСУРСОВ ОБЩЕСТВА

РАБОТУ ВЫПОЛНИЛ(А)

СТУДЕНТ(КА) ГР. №

4117

А.В. Иванова

подпись, дата

инициалы, фамилия

Санкт-Петербург, 2025 г.

A.V. Ivanova *

student

* St. Petersburg state University of aerospace instrumentation

THE PROCEDURE FOR USING THE FASTTEXT LIBRARY FOR WORD VECTORIZATION AND ANALYSIS OF THEIR SEMANTIC PROXIMITY

Abstract

The current topic of using the FastText tool for vectorization of words and analysis of their semantic proximity is described. The concepts of vectorization and semantic analysis processes, the main approaches used are analyzed. Various software tools that allow solving the problems of vectorization of words and semantic analysis of text are considered.

Keywords: word embedding, semantic analysis, text data analysis, FastText, natural language processing.

А.В. Иванова*

студент

*Санкт-Петербургский государственный университет аэрокосмического приборостроения

Порядок применения библиотеки FastText для векторизации слов и анализа их семантической близости

Аннотация

Описана актуальная тема применения инструмента FastText для векторизации слов и анализа их семантической близости. Разобраны понятия процессов векторизации и семантического анализа, основные использующиеся подходы. Рассмотрены различные программные средства, позволяющие решать задачи векторизации слов и семантического анализа текста.

Ключевые слова: векторизация слов, семантический анализ, анализ текстовых данных, FastText, обработка естественного языка.

Введение

В настоящее время семантический анализ текстовых данных является горячей точкой исследований во многих областях, таких как компьютерные науки и статистические науки (Zhang et al., 2023). Тот факт, что естественный язык плохо формализуется, вносит множество сложностей в решение проблемы определения семантического сходства текста и отдельных слов в нем(Смирнов, 2017). Традиционные подходы, основанные на простом сравнении текстовых строк, оказываются недостаточными, так как не учитывают многозначность слов, синонимию и контекст их использования. Для более точного анализа требуется представление слов в числовой форме, отражающей их смысловое содержание.

Подход, при котором дискретные величины переводятся в непрерывные векторы,

в английской литературе носит название embedding, но в русском языке он не имеет единого, устоявшегося названия, поэтому в рамках настоящей статьи будет использоваться термин векторизация(Михайлин, 2020). Векторизация слов — это процесс преобразования текстовых данных в многомерные числовые векторы, которые сохраняют информацию о семантических связях между словами. Такой метод позволяет сравнивать слова на основе их распределения в языковом корпусе, выявляя скрытые закономерности и смысловые отношения.

FastText, разработанный исследовательской группой Facebook AI Research, является одной из наиболее мощных и гибких моделей векторизации. В отличие от других методов, он учитывает морфологическую структуру слов, что особенно важно для языков со сложной грамматикой. FastText позволяет не только анализировать слова из обученного словаря, но и генерировать вектора для ранее не встречавшихся слов, используя разбиение на подслова. Это делает его незаменимым инструментом для обработки естественного языка в разнообразных задачах, от автоматической классификации текстов до машинного перевода.