pandas-Titanic 泰坦尼克数据集

下载

kaggle 官网下载地址:
https://www.kaggle.com/c/titanic/data

gitee下载:
https://gitee.com/65242847/pic/blob/master/csv/titanic_train.csv

字段说明

PassengerId 用户编号

记录乘客的Id编号。经过了解后:

并没有查到其构成具有特别的实际意义(如身份证的构成每一位都是有实际意义的);
仅作为唯一标识来定位到某一乘客身上(唯一值同总数据量一样);
因此认为不具有分析的价值,过后也会将它进行删除处理。

Survived 是否存活(label)

描述乘客是否存活

  • 0 - 用户未能存活;
  • 1- 用户存活;

Pclass(用户阶级)

描述用户所属的等级,总共分为三等,用1、2、3来描述,其中:

  • 1 - 1st class,高等用户;
  • 2 - 2nd class,中等用户;
  • 3 - 3rd class,低等用户;

Name(名字)

描述乘客的全名。例如上例中的 Rugg, Miss. Emily 中:

  • Rugg :first name,即名;
  • Miss. :title,即称谓;
  • Emily :last name,即姓

提示:在登记乘客姓名时全都是用这种方法进行记录的;

Sex(性别)

描述乘客的性别,其中:

  • male - 男性;
  • female - 女性;

Age(年龄)

描述乘客的年龄,其中有部分缺失值,需要用一些手段将她们补全,具体的方法方在下面数据清洗中;

SibSp 和 Parch

  • SibSp:描述了泰坦尼克号上与乘客同行的兄弟姐妹(Siblings)和配偶(Spouse)数目;
  • Parch:描述了泰坦尼克号上与乘客同行的家长(Parents)和孩子(Children)数目;

Ticket(船票号)

描述乘客登船所使用的船票编号。虽然它没有编码上的规律,不存在缺失值,但是唯一值可以看到,同之前唯一定位的乘客编号不同,也就是说可能会有人重复使用船票的情况,具体处理会在数据清洗中介绍,我会找到资料支撑和这一想法;

Fare(乘客费用)

描述乘客上传所花费的费用;

Cabin(船舱)

描述用户所住的船舱编号。由两部分组成,仓位号和房间编号,如C88中,C和88分别对应C仓位和88号房间。本字段缺失值较多,具体处理方法会在后面的数据清洗部分进行介绍。

Embarked(港口)

描述乘客上船时的港口,包含三种类型:

  • C:Cherbourg;
  • Q:Queenstown;
  • S:Southampton;

参考:
https://zhuanlan.zhihu.com/p/109323061


原文出处:https://malaoshi.top/show_1IX5Jzs0zcmi.html