介绍
Scikit-learn(以前称为scikits.learn,也称为sklearn)是针对Python 编程语言的免费软件机器学习库。
它具有各种分类,回归和聚类算法,包括支持向量机,随机森林,梯度提升,k均值和DBSCAN,并且旨在与Python数值科学库NumPy和SciPy联合使用。
中文网址:
https://scikit-learn.org.cn/
常用方法
sklearn拥有可以用于监督和无监督学习的方法,一般来说监督学习使用的更多。sklearn中的大部分函数可以归为估计器(Estimator)和转化器(Transformer)两类。
估计器(Estimator)
也就是模型,它用于对数据的预测或回归。基本上估计器都会有以下几个方法:
fit(x,y) :训练模型,需要传入训练数据、标签,训练的时间和参数、数据集大小以及数据本身的特点有关
score(x,y):训练模型后,通过给方法对模型的正确率进行评分(范围0-1),需要传入测试数据、标签。
predict(x):用于对数据的预测,它接受输入,并输出预测标签,输出的格式为numpy数组。我们通常使用这个方法返回测试的结果,再将这个结果用于评估模型。
转化器(Transformer)
用于对数据的处理,例如标准化、降维以及特征选择等等。同与估计器的使用方法类似:
fit(x,y):该方法接受输入和标签,计算出数据变换的方式。
transform(x):根据已经计算出的变换方式,返回对输入数据x变换后的结果(不改变x)
fit_transform(x,y):该方法在计算出数据变换方式之后对输入x就地转换。