Scikit-Learn机器学习入门

现在最常用的数据分析的编程语言为R和Python。每种语言都有自己的特点,Python因为Scikit-Learn库赢得了优势。Scikit-Learn有完整的文档,并实现很多机器学习算法,而每种算法使用的接口几乎相同,可以非常快的测试其它学习算法。

Pandas一般和Scikit-Learn配合使用,它是基于Numpy构建的含有更高级数据结构和工具的数据统计工具,可以把它当成excel。

加载数据

首先把数据加载到内存。下载UCI数据集:

数据标准化

在开始应用学习算法之前,应首先对数据执行标准化,这是为了确保特征值的范围在0-1。对数据进行预处理:

分类

ExtraTreesClassifier(基于树):

LogisticRegression:

机器学习算法

Logistic regression

通常用来解决分类问题(binary),但是也支持多个分类。这个算法会给出属于某一分类的概率:

Screen Shot 2016-02-19 at 16.48.07

朴素贝叶斯-Naive Bayes

这也是广为人知的机器学习算法,用来学习数据分布的密度,在多分类问题中可以提供高质量的预测结果。

Screen Shot 2016-02-19 at 16.53.38

KNN算法(K-Nearest Neighbours)

它通常用在更复杂分类算法的一部分,它在回归问题中可以提供很好的结果。

Screen Shot 2016-02-19 at 16.58.05

决策树-Decision Trees

能很好的处理回归和分类问题。

Screen Shot 2016-02-19 at 17.01.29

支持向量机-Support Vector Machines

Screen Shot 2016-02-19 at 17.04.26

Scikit-Learn还提供了一堆更复杂的算法,包括clustering,Bagging 和 Boosting。

最难的部分是为算法选择合适的参数,更多内容,查看Scikit-Learn文档

相关文章

《Scikit-Learn机器学习入门》有2个想法

发表评论

电子邮件地址不会被公开。 必填项已用*标注