
ИАИРО.ПР1.4016.Жовтяк
.docx
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное автономное образовательное учреждение высшего образования
«САНКТ-ПЕТЕРБУРГСКИЙ УНИВЕРСИТЕТ АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ»
(ГУАП)
КАФЕДРА № 41
ОТЧЕТ ЗАЩИЩЕН С ОЦЕНКОЙ
ПРЕПОДАВАТЕЛЬ
к.т.н., доцент |
|
|
|
А.В. Яковлев |
должность, уч. степень, звание |
|
подпись, дата |
|
инициалы, фамилия |
ОТЧЕТ О ПРАКТИЧЕСКОЙ РАБОТЕ № 1 |
Формализация исследования информационных процессов и систем (с использованием менеджера библиографий) |
по курсу:ИНФОРМАТИЗАЦИЯ И АНАЛИЗ ИНФОРМАЦИОННЫХ РЕСУРСОВ ОБЩЕСТВА |
РАБОТУ ВЫПОЛНИЛ
СТУДЕНТ ГР. № |
4016 |
|
|
|
М.О. Жовтяк |
|
|
|
подпись, дата |
|
инициалы, фамилия |
Санкт-Петербург, 2024 г.
A.V.Yakovlev*
PhD, Associate Professor
M.O.Zhovtyak*
student,
* St. Petersburg state University of aerospace instrumentation
AUTOMATIC DETECTION OF THE MAIN MARKERS OF FALSE INFORMATION IN SPEECH MESSAGES
Abstract
The study presents a comprehensive approach to the detection and classification of false information markers, including the analysis of lexical, syntactic and semantic characteristics of speech.
Keywords: false information, automatic detection, speech messages, lie markers, natural language processing (NLP), machine learning, text classification, data analysis, artificial intelligence
УДК 004.934.2
А.В.Яковлев*
кандидат технических наук, доцент
М.О.Жовтяк*
студент
*Санкт-Петербургский государственный университет аэрокосмического приборостроения
Автоматическое определение основных маркеров лОжНОЙ ИНФОРМАЦИИ в РЕЧЕВЫХ СООБЩЕНИЯХ
Аннотация
В исследовании представлен комплексный подход к выявлению и классификации признаков ложной информации, включающий анализ лексических, синтаксических и семантических характеристик речи.
Ключевые слова: ложная информация, автоматическое определение, речевые сообщения, маркеры лжи, обработка естественного языка (NLP), машинное обучение, классификация текста, анализ данных, искусственный интеллект
Введение
В условиях современного информационного общества проблема дезинформации становится все более актуальной. Распространение ложной информации может иметь серьезные последствия как для отдельных лиц, так и для общества в целом. Поэтому разработка методов автоматического определения ложной информации является важнейшей задачей [1].
Методы исследования
Исследование базируется на современных достижениях в области обработки естественного языка (NLP) и машинного обучения, что позволяет анализировать большие объемы текстовых данных на предмет выявления маркеров ложной информации [2]. В первую очередь, осуществляется предварительная обработка данных, включая лемматизацию, удаление стоп-слов и выявление ключевых фраз [3]. Затем текст трансформируется в векторное пространство с использованием методов векторизации, таких как TF-IDF (Term Frequency-Inverse Document Frequency) [4] и Word2Vec [5], что позволяет перевести слова и фразы в числовые значения, удобные для обработки алгоритмами машинного обучения [6].
Для классификации и анализа данных применяются различные модели машинного обучения, включая случайный лес (Random Forest), градиентный бустинг (Gradient Boosting) и нейронные сети [7]. Особое внимание уделяется глубоким нейронным сетям, которые способны выявлять сложные паттерны в данных, недоступные для традиционных моделей. Эксперименты проводятся с использованием кросс-валидации для проверки устойчивости модели к различным входным данным и их генерализации на новых, ранее не виденных примерах [8].
Результаты:
Результаты экспериментов показывают, что комбинированный подход, основанный на продвинутых методах NLP и сложных моделях машинного обучения, демонстрирует высокую эффективность в определении лжи [9]. Модель способна выявлять ключевые маркеры ложной информации, такие как неконсистентность речи, использование заведомо ложных данных и манипулятивные приемы в тексте. Система также успешно определяет субъективные высказывания и признаки предвзятости, что является важным аспектом в выявлении дезинформации [10].
Высокая точность и способность обобщения модели подтверждается результатами тестирования на различных датасетах [11]. Для новостных сообщений, интервью и записей из социальных медиа точность определения ложной информации составила порядка 90-95%. Эти показатели не только свидетельствуют о высоком потенциале разработанной модели в задачах автоматического выявления лжи, но и указывают на ее пригодность для применения в широком спектре областей, включая медиа, политический анализ и кибербезопасность [12].
Таким образом, предложенная методика расширяет границы возможного в области детектирования дезинформации и ложной информации, предоставляя надежный инструмент для анализа и верификации речевых сообщений на предмет содержания в них недостоверных данных [13].
Обсуждение
Результаты исследования подчеркивают значимость применения комбинированных методов NLP и машинного обучения в борьбе с дезинформацией [14]. Однако несмотря на высокую точность модели, в работе также обсуждаются потенциальные ограничения, связанные с непрерывно меняющимися методами распространения ложной информации и необходимостью постоянной корректировки алгоритмов [15].
Заключение
Представленное исследование вносит значительный вклад в разработку автоматизированных методов детекции ложной информации в речевых сообщениях. Созданная модель обладает потенциалом для использования в системах проверки фактов, модерации контента в социальных сетях и других приложениях, требующих быстрой и точной верификации информации. Однако для дальнейшего улучшения производительности и адаптации под конкретные задачи необходимо продолжать исследования в данной области.
Библиографический список
1. Jaiswal M., Tabibu S., Bajpai R. The truth and nothing but the truth: Multimodal analysis for deception detection // 2016 IEEE 16th International Conference on Data Mining Workshops (ICDMW). Barcelona, Spain: IEEE, 2016. P. 938–943.
2. Ganegedara T. Natural language processing with TensorFlow: the definitive NLP book to implement the most sought-after machine learning models and tasks. Second edition. Birmingham Mumbai: Packt Publishing, 2022. 486 p.
3. Ochilov M.M. Using the CTC-based approach of the end-to-end model in speech recognition. [object Object], 2023.
4. Bohnsack K.S. et al. Alignment-free sequence comparison: A systematic survey from a machine learning perspective // IEEE/ACM Trans. Comput. Biol. and Bioinf. 2022. P. 1–1.
5. Chen Y.-C. et al. Audio Word2vec: Sequence-to-Sequence autoencoding for unsupervised learning of audio segmentation and representation // IEEE/ACM Trans. Audio Speech Lang. Process. 2019. Vol. 27, № 9. P. 1481–1493.
6. Ray S. A quick review of machine learning algorithms // 2019 International Conference on Machine Learning, Big Data, Cloud and Parallel Computing (COMITCon). Faridabad, India: IEEE, 2019. P. 35–39.
7. Suárez-Varela J. et al. Graph neural networks for communication networks: context, use cases and opportunities // IEEE Network. 2023. Vol. 37, № 3. P. 146–153.
8. Xu Y. et al. Large-scale weakly supervised audio classification using gated convolutional neural network // 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Calgary, AB: IEEE, 2018. P. 121–125.
9. St. Petersburg Institute for Informatics and Automation of the Russian Academy of Sciences (SPIIRAS) et al. Study of classification methods for automatic truth and deception detection in speech // Science Bulletin of the NSTU. 2018. № 3. P. 21–32.
10. Dvoynikova A. et al. Analytical review of audiovisual systems for determining personal protective equipment on a person’s face // IA. 2021. Vol. 20, № 5. P. 1116–1152.
11. Dvoynikova A. et al. Analysis of infoware and software for human affective states recognition // IA. 2022. Vol. 21, № 6. P. 1097–1144.
12. Novosibirsk State Technical University, Russian Federation, Sudjenkova A. Overview of methods for extracting acoustic speech features in speaker recognition // Transaction of Scientific Papers of the NSTU. 2020. № 3–4. P. 139–164.
13. Уначёв И.А., Кашироков Н.А. Достоверность инфмации в условиях больших объёмов вбросов ложной информации в интернете: 2 (35) // Вестник науки. Россия, Тольятти: Рассказова Любовь Федоровна, 2021. Vol. 2, № 2 (35). P. 20–25.
14. Узких Г.Ю. Применение глубокого обучения в задачах обработки естественного языка: 8 (65) // Вестник науки. Россия, Тольятти: Рассказова Любовь Федоровна, 2023. Vol. 4, № 8 (65). P. 310–312.
15. Макаров Д.А., Шибанова А.Д. Структура нейронных сетей: 1 (43) // Теория и практика современной науки. Россия, Саратов: ООО «Институт управления и социально-экономического развития», 2019. № 1 (43). P. 618–621.