下载
kaggle 官网下载地址:
https://www.kaggle.com/c/titanic/data
gitee下载:
https://gitee.com/65242847/pic/blob/master/csv/titanic_train.csv
字段说明
PassengerId 用户编号
记录乘客的Id编号。经过了解后:
并没有查到其构成具有特别的实际意义(如身份证的构成每一位都是有实际意义的);
仅作为唯一标识来定位到某一乘客身上(唯一值同总数据量一样);
因此认为不具有分析的价值,过后也会将它进行删除处理。
Survived 是否存活(label)
描述乘客是否存活
- 0 - 用户未能存活;
- 1- 用户存活;
Pclass(用户阶级)
描述用户所属的等级,总共分为三等,用1、2、3来描述,其中:
- 1 - 1st class,高等用户;
- 2 - 2nd class,中等用户;
- 3 - 3rd class,低等用户;
Name(名字)
描述乘客的全名。例如上例中的 Rugg, Miss. Emily 中:
- Rugg :first name,即名;
- Miss. :title,即称谓;
- Emily :last name,即姓
提示:在登记乘客姓名时全都是用这种方法进行记录的;
Sex(性别)
描述乘客的性别,其中:
- male - 男性;
- female - 女性;
Age(年龄)
描述乘客的年龄,其中有部分缺失值,需要用一些手段将她们补全,具体的方法方在下面数据清洗中;
SibSp 和 Parch
- SibSp:描述了泰坦尼克号上与乘客同行的兄弟姐妹(Siblings)和配偶(Spouse)数目;
- Parch:描述了泰坦尼克号上与乘客同行的家长(Parents)和孩子(Children)数目;
Ticket(船票号)
描述乘客登船所使用的船票编号。虽然它没有编码上的规律,不存在缺失值,但是唯一值可以看到,同之前唯一定位的乘客编号不同,也就是说可能会有人重复使用船票的情况,具体处理会在数据清洗中介绍,我会找到资料支撑和这一想法;
Fare(乘客费用)
描述乘客上传所花费的费用;
Cabin(船舱)
描述用户所住的船舱编号。由两部分组成,仓位号和房间编号,如C88中,C和88分别对应C仓位和88号房间。本字段缺失值较多,具体处理方法会在后面的数据清洗部分进行介绍。
Embarked(港口)
描述乘客上船时的港口,包含三种类型:
- C:Cherbourg;
- Q:Queenstown;
- S:Southampton;