
Добавил:
ACarla
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз:
Предмет:
Файл:main
.py import pandas as pd
import matplotlib.pyplot as plt
# Загрузка данных
data = pd.read_csv('Titanic.csv')
# Установка PassengerId как индекса
data_with_index = pd.read_csv('Titanic.csv', index_col='PassengerId')
# Удаление строк с пропущенными значениями
data.dropna(inplace=True)
# Сводная информация о dataset
print(data.info())
# Описательная статистика
print(data.describe())
# Построение гистограммы для возраста
plt.hist(data['Age'], color='red', bins=30)
plt.xlabel('Возраст')
plt.ylabel('Частота')
plt.title('Гистограмма возраста пассажиров')
plt.show()
# Описательные статистики для столбца Fare
print(data['Fare'].describe())
# Названия столбцов в виде списка
column_names = list(data.columns)
print(column_names)
# Переименование столбца Pclass в Class
data.rename(columns={'Pclass': 'Class'}, inplace=True)
# Выбор женщин
female = data[data['Sex'] == 'female']
# Выбор выживших мужчин младше 32 лет
Ymale = data[(data['Sex'] == 'male') & (data['Age'] < 32) & (data['Survived'] == 1)]
# Выбор пассажиров 1 или 2 класса
first_second_class = data[(data['Class'] == 1) | (data['Class'] == 2)]
# Выбор выживших пассажиров 1 или 2 класса
survived_first_second_class = data[(data['Survived'] == 1) & ((data['Class'] == 1) | (data['Class'] == 2))]
# Добавление столбца Female
data['Female'] = data['Sex'].apply(lambda x: 1 if x == 'female' else 0)
# Уникальные значения в столбце Embarked
unique_embarked = data['Embarked'].unique()
print(unique_embarked)
# Группировка по Survived
# Приведение столбца 'Age' к числовому типу, чтобы избежать ошибок
data['Age'] = pd.to_numeric(data['Age'], errors='coerce')
survivor_means = data.groupby('Survived')['Age'].mean()
print(survivor_means)
# Группировка по Sex с выводом средних и медианных значений Age
age_gender_group = data.groupby('Sex')['Age'].agg(['mean', 'median']).reset_index()
print(age_gender_group)
# Приведение названий столбцов к нижнему регистру
data.columns = [col.lower() for col in data.columns]
# Сохранение итогового датафрейма в файл
data.to_csv('Titanic-new.csv', index=False)
import matplotlib.pyplot as plt
# Загрузка данных
data = pd.read_csv('Titanic.csv')
# Установка PassengerId как индекса
data_with_index = pd.read_csv('Titanic.csv', index_col='PassengerId')
# Удаление строк с пропущенными значениями
data.dropna(inplace=True)
# Сводная информация о dataset
print(data.info())
# Описательная статистика
print(data.describe())
# Построение гистограммы для возраста
plt.hist(data['Age'], color='red', bins=30)
plt.xlabel('Возраст')
plt.ylabel('Частота')
plt.title('Гистограмма возраста пассажиров')
plt.show()
# Описательные статистики для столбца Fare
print(data['Fare'].describe())
# Названия столбцов в виде списка
column_names = list(data.columns)
print(column_names)
# Переименование столбца Pclass в Class
data.rename(columns={'Pclass': 'Class'}, inplace=True)
# Выбор женщин
female = data[data['Sex'] == 'female']
# Выбор выживших мужчин младше 32 лет
Ymale = data[(data['Sex'] == 'male') & (data['Age'] < 32) & (data['Survived'] == 1)]
# Выбор пассажиров 1 или 2 класса
first_second_class = data[(data['Class'] == 1) | (data['Class'] == 2)]
# Выбор выживших пассажиров 1 или 2 класса
survived_first_second_class = data[(data['Survived'] == 1) & ((data['Class'] == 1) | (data['Class'] == 2))]
# Добавление столбца Female
data['Female'] = data['Sex'].apply(lambda x: 1 if x == 'female' else 0)
# Уникальные значения в столбце Embarked
unique_embarked = data['Embarked'].unique()
print(unique_embarked)
# Группировка по Survived
# Приведение столбца 'Age' к числовому типу, чтобы избежать ошибок
data['Age'] = pd.to_numeric(data['Age'], errors='coerce')
survivor_means = data.groupby('Survived')['Age'].mean()
print(survivor_means)
# Группировка по Sex с выводом средних и медианных значений Age
age_gender_group = data.groupby('Sex')['Age'].agg(['mean', 'median']).reset_index()
print(age_gender_group)
# Приведение названий столбцов к нижнему регистру
data.columns = [col.lower() for col in data.columns]
# Сохранение итогового датафрейма в файл
data.to_csv('Titanic-new.csv', index=False)