Скачиваний:
15
Добавлен:
27.08.2024
Размер:
41.54 Кб
Скачать

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

Федеральное государственное автономное образовательное учреждение высшего образования

«САНКТ-ПЕТЕРБУРГСКИЙ УНИВЕРСИТЕТ АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ»

(ГУАП)

КАФЕДРА № 41

ОТЧЕТ ЗАЩИЩЕН С ОЦЕНКОЙ

ПРЕПОДАВАТЕЛЬ

к.т.н., доцент

А.В. Яковлев

должность, уч. степень, звание

подпись, дата

инициалы, фамилия

ОТЧЕТ О ПРАКТИЧЕСКОЙ РАБОТЕ № 1

Формализация исследования информационных процессов и систем (с использованием менеджера библиографий)

по курсу:

ИНФОРМАТИЗАЦИЯ И АНАЛИЗ ИНФОРМАЦИОННЫХ РЕСУРСОВ ОБЩЕСТВА

РАБОТУ ВЫПОЛНИЛ

СТУДЕНТ ГР. №

4016

М.О. Жовтяк

подпись, дата

инициалы, фамилия

Санкт-Петербург, 2024 г.

A.V.Yakovlev*

PhD, Associate Professor

M.O.Zhovtyak*

student,

* St. Petersburg state University of aerospace instrumentation

AUTOMATIC DETECTION OF THE MAIN MARKERS OF FALSE INFORMATION IN SPEECH MESSAGES

Abstract

The study presents a comprehensive approach to the detection and classification of false information markers, including the analysis of lexical, syntactic and semantic characteristics of speech.

Keywords: false information, automatic detection, speech messages, lie markers, natural language processing (NLP), machine learning, text classification, data analysis, artificial intelligence

УДК 004.934.2

А.В.Яковлев*

кандидат технических наук, доцент

М.О.Жовтяк*

студент

*Санкт-Петербургский государственный университет аэрокосмического приборостроения

Автоматическое определение основных маркеров лОжНОЙ ИНФОРМАЦИИ в РЕЧЕВЫХ СООБЩЕНИЯХ

Аннотация

В исследовании представлен комплексный подход к выявлению и классификации признаков ложной информации, включающий анализ лексических, синтаксических и семантических характеристик речи.

Ключевые слова: ложная информация, автоматическое определение, речевые сообщения, маркеры лжи, обработка естественного языка (NLP), машинное обучение, классификация текста, анализ данных, искусственный интеллект

Введение

В условиях современного информационного общества проблема дезинформации становится все более актуальной. Распространение ложной информации может иметь серьезные последствия как для отдельных лиц, так и для общества в целом. Поэтому разработка методов автоматического определения ложной информации является важнейшей задачей [1].

Методы исследования

Исследование базируется на современных достижениях в области обработки естественного языка (NLP) и машинного обучения, что позволяет анализировать большие объемы текстовых данных на предмет выявления маркеров ложной информации [2]. В первую очередь, осуществляется предварительная обработка данных, включая лемматизацию, удаление стоп-слов и выявление ключевых фраз [3]. Затем текст трансформируется в векторное пространство с использованием методов векторизации, таких как TF-IDF (Term Frequency-Inverse Document Frequency) [4] и Word2Vec [5], что позволяет перевести слова и фразы в числовые значения, удобные для обработки алгоритмами машинного обучения [6].

Для классификации и анализа данных применяются различные модели машинного обучения, включая случайный лес (Random Forest), градиентный бустинг (Gradient Boosting) и нейронные сети [7]. Особое внимание уделяется глубоким нейронным сетям, которые способны выявлять сложные паттерны в данных, недоступные для традиционных моделей. Эксперименты проводятся с использованием кросс-валидации для проверки устойчивости модели к различным входным данным и их генерализации на новых, ранее не виденных примерах [8].

Результаты:

Результаты экспериментов показывают, что комбинированный подход, основанный на продвинутых методах NLP и сложных моделях машинного обучения, демонстрирует высокую эффективность в определении лжи [9]. Модель способна выявлять ключевые маркеры ложной информации, такие как неконсистентность речи, использование заведомо ложных данных и манипулятивные приемы в тексте. Система также успешно определяет субъективные высказывания и признаки предвзятости, что является важным аспектом в выявлении дезинформации [10].

Высокая точность и способность обобщения модели подтверждается результатами тестирования на различных датасетах [11]. Для новостных сообщений, интервью и записей из социальных медиа точность определения ложной информации составила порядка 90-95%. Эти показатели не только свидетельствуют о высоком потенциале разработанной модели в задачах автоматического выявления лжи, но и указывают на ее пригодность для применения в широком спектре областей, включая медиа, политический анализ и кибербезопасность [12].

Таким образом, предложенная методика расширяет границы возможного в области детектирования дезинформации и ложной информации, предоставляя надежный инструмент для анализа и верификации речевых сообщений на предмет содержания в них недостоверных данных [13].

Обсуждение

Результаты исследования подчеркивают значимость применения комбинированных методов NLP и машинного обучения в борьбе с дезинформацией [14]. Однако несмотря на высокую точность модели, в работе также обсуждаются потенциальные ограничения, связанные с непрерывно меняющимися методами распространения ложной информации и необходимостью постоянной корректировки алгоритмов [15].

Заключение

Представленное исследование вносит значительный вклад в разработку автоматизированных методов детекции ложной информации в речевых сообщениях. Созданная модель обладает потенциалом для использования в системах проверки фактов, модерации контента в социальных сетях и других приложениях, требующих быстрой и точной верификации информации. Однако для дальнейшего улучшения производительности и адаптации под конкретные задачи необходимо продолжать исследования в данной области.

Библиографический список

1. Jaiswal M., Tabibu S., Bajpai R. The truth and nothing but the truth: Multimodal analysis for deception detection // 2016 IEEE 16th International Conference on Data Mining Workshops (ICDMW). Barcelona, Spain: IEEE, 2016. P. 938–943.

2. Ganegedara T. Natural language processing with TensorFlow: the definitive NLP book to implement the most sought-after machine learning models and tasks. Second edition. Birmingham Mumbai: Packt Publishing, 2022. 486 p.

3. Ochilov M.M. Using the CTC-based approach of the end-to-end model in speech recognition. [object Object], 2023.

4. Bohnsack K.S. et al. Alignment-free sequence comparison: A systematic survey from a machine learning perspective // IEEE/ACM Trans. Comput. Biol. and Bioinf. 2022. P. 1–1.

5. Chen Y.-C. et al. Audio Word2vec: Sequence-to-Sequence autoencoding for unsupervised learning of audio segmentation and representation // IEEE/ACM Trans. Audio Speech Lang. Process. 2019. Vol. 27, № 9. P. 1481–1493.

6. Ray S. A quick review of machine learning algorithms // 2019 International Conference on Machine Learning, Big Data, Cloud and Parallel Computing (COMITCon). Faridabad, India: IEEE, 2019. P. 35–39.

7. Suárez-Varela J. et al. Graph neural networks for communication networks: context, use cases and opportunities // IEEE Network. 2023. Vol. 37, № 3. P. 146–153.

8. Xu Y. et al. Large-scale weakly supervised audio classification using gated convolutional neural network // 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Calgary, AB: IEEE, 2018. P. 121–125.

9. St. Petersburg Institute for Informatics and Automation of the Russian Academy of Sciences (SPIIRAS) et al. Study of classification methods for automatic truth and deception detection in speech // Science Bulletin of the NSTU. 2018. № 3. P. 21–32.

10. Dvoynikova A. et al. Analytical review of audiovisual systems for determining personal protective equipment on a person’s face // IA. 2021. Vol. 20, № 5. P. 1116–1152.

11. Dvoynikova A. et al. Analysis of infoware and software for human affective states recognition // IA. 2022. Vol. 21, № 6. P. 1097–1144.

12. Novosibirsk State Technical University, Russian Federation, Sudjenkova A. Overview of methods for extracting acoustic speech features in speaker recognition // Transaction of Scientific Papers of the NSTU. 2020. № 3–4. P. 139–164.

13. Уначёв И.А., Кашироков Н.А. Достоверность инфмации в условиях больших объёмов вбросов ложной информации в интернете: 2 (35) // Вестник науки. Россия, Тольятти: Рассказова Любовь Федоровна, 2021. Vol. 2, № 2 (35). P. 20–25.

14. Узких Г.Ю. Применение глубокого обучения в задачах обработки естественного языка: 8 (65) // Вестник науки. Россия, Тольятти: Рассказова Любовь Федоровна, 2023. Vol. 4, № 8 (65). P. 310–312.

15. Макаров Д.А., Шибанова А.Д. Структура нейронных сетей: 1 (43) // Теория и практика современной науки. Россия, Саратов: ООО «Институт управления и социально-экономического развития», 2019. № 1 (43). P. 618–621.