main

.py

Скачиваний:

Добавлен:

03.02.2025

Размер:

2.72 Кб

Скачать

☆

import pandas as pd
import matplotlib.pyplot as plt

# Загрузка данных
data = pd.read_csv('Titanic.csv')

# Установка PassengerId как индекса
data_with_index = pd.read_csv('Titanic.csv', index_col='PassengerId')

# Удаление строк с пропущенными значениями
data.dropna(inplace=True)

# Сводная информация о dataset
print(data.info())

# Описательная статистика
print(data.describe())

# Построение гистограммы для возраста
plt.hist(data['Age'], color='red', bins=30)
plt.xlabel('Возраст')
plt.ylabel('Частота')
plt.title('Гистограмма возраста пассажиров')
plt.show()

# Описательные статистики для столбца Fare
print(data['Fare'].describe())

# Названия столбцов в виде списка
column_names = list(data.columns)
print(column_names)

# Переименование столбца Pclass в Class
data.rename(columns={'Pclass': 'Class'}, inplace=True)

# Выбор женщин
female = data[data['Sex'] == 'female']

# Выбор выживших мужчин младше 32 лет
Ymale = data[(data['Sex'] == 'male') & (data['Age'] < 32) & (data['Survived'] == 1)]

# Выбор пассажиров 1 или 2 класса
first_second_class = data[(data['Class'] == 1) | (data['Class'] == 2)]

# Выбор выживших пассажиров 1 или 2 класса
survived_first_second_class = data[(data['Survived'] == 1) & ((data['Class'] == 1) | (data['Class'] == 2))]

# Добавление столбца Female
data['Female'] = data['Sex'].apply(lambda x: 1 if x == 'female' else 0)

# Уникальные значения в столбце Embarked
unique_embarked = data['Embarked'].unique()
print(unique_embarked)

# Группировка по Survived
# Приведение столбца 'Age' к числовому типу, чтобы избежать ошибок
data['Age'] = pd.to_numeric(data['Age'], errors='coerce')
survivor_means = data.groupby('Survived')['Age'].mean()
print(survivor_means)

# Группировка по Sex с выводом средних и медианных значений Age
age_gender_group = data.groupby('Sex')['Age'].agg(['mean', 'median']).reset_index()
print(age_gender_group)

# Приведение названий столбцов к нижнему регистру
data.columns = [col.lower() for col in data.columns]

# Сохранение итогового датафрейма в файл
data.to_csv('Titanic-new.csv', index=False)

Соседние файлы в предмете Программирование на Python

#
03.02.20252.72 Кб1main.py
#
03.02.2025271 б1s5e1.py
#
03.02.202596 б1s5e2.py
#
03.02.2025155 б1s5e3.py
#
03.02.2025238 б1s5e4.py
#
03.02.2025245 б1s5e5.py