Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Васильев Ю. - Python для data science (Библиотека программиста) - 2023.pdf
Скачиваний:
6
Добавлен:
07.04.2024
Размер:
7.21 Mб
Скачать

Выводы      87

Это означает, что точность модели — 81%. Если поэкспериментировать с параметром random_state в функции train_test_split(), можно получить немного другое значение, поскольку обучающая и тестовая выборки формируются из исходного набора случайным образом.

Создание прогнозов на новых данных

Теперь, когда мы обучили и протестировали модель, она готова к анализу новых, немаркированных данных. Это даст нам более полное представление о том, насколько хорошо работает модель. Добавим в нее несколько новых отзывов:

new_reviews = ['Old version of python useless', 'Very good effort, but not five stars', 'Clear and concise']

X_new = vectorizer.transform(new_reviews) print(classifier.predict(X_new))

На первом шаге создадим список новых отзывов, затем преобразуем текст каждого из них в числовые векторы признаков. И наконец, спрогнозируем классы тональности для новых образцов, которые возвращаются в виде списка:

[0, 1, 1]

Помните: 0 означает отрицательный отзыв, а 1 — положительный. Как видим, модель сработала для этих отзывов. Она показала, что первый — отрицательный, а два других — положительные.

Выводы

В этой главе вы познакомились с некоторыми из наиболее популярных сторонних библиотек Python для анализа данных и машинного обучения. Мы начали с изучения библиотеки NumPy и ее объектов многомерных массивов, а затем рассмотрели библиотеку pandas и ее структуры данных Series

иDataFrame. Вы научились создавать массивы NumPy, объекты pandas Series

иобъекты pandas DataFrame из встроенных структур Python (например, списков) и из источников данных, хранящихся в стандартных форматах, таких как JSON. Мы также исследовали, как получать доступ к данным в этих объектах и управлять ими. Наконец, мы использовали scikit-learn, популярную библиотеку машинного обучения на Python, для построения прогностической модели классификации.