пз Магальник (Романчева)
.docx
ФЕДЕРАЛЬНОЕ
АГЕНСТВО ВОЗДУШНОГО ТРАНСПОРТА
(РОСАВИАЦИЯ)
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ
«МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ ГРАЖДАНСКОЙ АВИАЦИИ» (МГТУ ГА)
Кафедра вычислительных машин, комплексов, сетей и систем.
Лабораторная работа защищена с оценкой ____________________
____________________
(подпись преподавателя, дата)
Практическое занятие
по дисциплине «Системы искусственного интеллекта».
Тема: «Обработка естественного языка (NLP).»
Выполнила студентка группы ИС221
Магальник Екатерина Борисовна
Руководитель: Романчева Нина Ивановна
МОСКВА – 2024
Листинг:
import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt import plotly.graph_objects as go import texthero as hero fake_news_data = pd.read_csv("Fake.csv") true_news_data = pd.read_csv("True.csv") true_news_data['class'] = 0 fake_news_data['class'] = 1 news_data = pd.concat([true_news_data, fake_news_data]) news_data = news_data.sample(frac=1.0).reset_index(drop=True) colors = ['gold', 'mediumturquoise'] labels = ['REAL', 'FAKE'] values = news_data['class'].value_counts()/news_data['class'].shape[0] fig = go.Figure(data=[go.Pie(labels=labels, values=values, hole=.3)]) fig.update_traces(hoverinfo='label+percent',textinfo='percent', textfont_size=20,marker=dict(colors=colors, line=dict (color='#000000', width=2))) fig.update_layout(title_text="Target Balance", title_font_color="white", legend_title_font_color="yellow", paper_bgcolor="black", plot_bgcolor='black', font_color="white",) fig.show() news_data['class'].value_counts() news_data.subject.groupby(news_data['class'].value_counts()) news_data['text'] = hero.lowercase (news_data['text']) news_data['text'] = hero.remove_digits(news_data['text']) news_data['text'] = hero.remove_punctuation (news_data['text']) news_data['text'] = hero.remove_diacritics (news_data['text']) news_data['text'] = hero.remove_brackets (news_data['text']) news_data['text'] = hero.remove_angle_brackets(news_data['text']) news_data['text'] = hero.remove_curly_brackets(news_data['text' ]) news_data['text'] = hero.remove_routs(news_data['text']) news_data['text'] = hero.remove_round_brackets(news_data['text'] ) news_data['text'] = hero. remove_square_brackets (news_data['text']) news_data['text'] = hero.remove_stopwords(news_data['text']) news_data['text'] = hero.remove_whitespace (news_data['text']) news_data['text'] = news_data['text'].apply(lambda x: ''.join([word for word in x.split() if len(word) > 2 and word.isalpha() and word != 'reuters']))
Результат работы программы:
