书籍简介
Mastering Machine Learning With scikit-learn
ISBN 978-1-78398-836-5
作者 Gavin Hackeling
《Mastering Machine Learning With scikit-learn》一书介绍了机器学习领域的主要算法,利用python的机器学习算法库Scikit-learn给出具体的使用实例。该书侧重点在于机器学习算法的工程实践,对于算法主要使用直观和定性的方法进行阐述。整体阅读较为容易。
数据处理
使用Scikit-learn可以很方便的将向量数据划分为测试集和训练集。
通常需要使用Pandas读取数据。例如对于包含一系列数据的csv文件,可以使用下面的方式读取。
还可以使用matplotlib进行作图。
线性回归
使用线性回归、多项式回归对数据点进行曲线拟合。线性回归存在的典型问题是容易过拟合,解决方案通常使用岭回归(Ridge regression)和LASSO(Least Absolute Shrinkage and Selection Operator)方法,向损失函数中增加惩罚项。
使用Scikit-learn调用回归器十分简单,只需通过如下方式即可使用回归器完成模型构建。
典型的线性回归包括:
特征提取
为了进行回归/分类操作,首先需要将文本、图像数据转换为特征向量。
对于文本数据,可以使用的特征如下:
对于CountVectorizer,通常需要剔除stop word,然后进行词干提取(Stemming)和词形还原(lemmatization)。