sklearn(Scikit-learn)介绍

介绍

Scikit-learn(以前称为scikits.learn,也称为sklearn)是针对Python 编程语言的免费软件机器学习库。

它具有各种分类,回归和聚类算法,包括支持向量机,随机森林,梯度提升,k均值和DBSCAN,并且旨在与Python数值科学库NumPy和SciPy联合使用。

中文网址:
https://scikit-learn.org.cn/

常用方法

sklearn拥有可以用于监督和无监督学习的方法,一般来说监督学习使用的更多。sklearn中的大部分函数可以归为估计器(Estimator)和转化器(Transformer)两类。

估计器(Estimator)

也就是模型,它用于对数据的预测或回归。基本上估计器都会有以下几个方法:

  • fit(x,y) :训练模型,需要传入训练数据、标签,训练的时间和参数、数据集大小以及数据本身的特点有关

  • score(x,y):训练模型后,通过给方法对模型的正确率进行评分(范围0-1),需要传入测试数据、标签。

  • predict(x):用于对数据的预测,它接受输入,并输出预测标签,输出的格式为numpy数组。我们通常使用这个方法返回测试的结果,再将这个结果用于评估模型。

转化器(Transformer)

用于对数据的处理,例如标准化、降维以及特征选择等等。同与估计器的使用方法类似:

  • fit(x,y):该方法接受输入和标签,计算出数据变换的方式。

  • transform(x):根据已经计算出的变换方式,返回对输入数据x变换后的结果(不改变x)

  • fit_transform(x,y):该方法在计算出数据变换方式之后对输入x就地转换。

参考:
https://baike.baidu.com/item/Scikit-learn/3006276


原文出处:http://malaoshi.top/show_1IX4l8TrNLn5.html