【2】监督学习--1--分类

June 14, 2017 sklearn 阅读量：次

一、基本概念

输入:一组有标签的训练数据(也称观察和评估)，标签表明了这些数据(观察)的所署类别。
输出:分类模型根据这些训练数据，训练自己的模型参数，学习出一个适合这组数据的分类器，当有新数据(非训练数据)需要进行类别判断，就可以将这组新数据作为输入送给学好的分类器进行判断。

1.分类学习-评价

训练集(training set):顾名思义用来训练模型的已标注数据，用来建立模型，发现规律。
测试集(testing set):也是已标注数据，通常做法是将标注隐藏，输送给训练好的模型，通过结果与真实标注进行对比，评估模型的学习能力。训练集/测试集的划分方法:根据已有标注数据，随机选出一部分数据 (70%)数据作为训练数据，余下的作为测试数据，此外还有交叉验证法，自助法用来评估分类模型

2.分类学习-评价标准

精确率:精确率是针对我们预测结果而言的，(以二分类为例)它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了，一种就是把正类预测为正类(TP)，另一种就是把负类预测为正类(FP)，也就是

P = (TP)/(TP+FP)

召回率:是针对我们原来的样本而言的，它表示的是样本中的正例有多少被预测正确了。那也有两种可能，一种是把原来的正类预测成正类(TP)，另一种就是把原来的正类预测为负类(FN)，也就是

R = TP/(TP+RN)

假设我们手上有60个正样本，40个负样本，我们要找出所有的正样本，分类算法查找出50个，其中只有40个是真正的正样本，

TP: 将正类预测为正 类数 40;FN: 将正类预测为负类数 20;
FP: 将负类预测为正类数 10; TN: 将负类预测为负类数 30
准确率(accuracy)=预测对的/所有 = (TP+TN)/(TP+FN+FP+TN) = 70% 
精确率(precision)=?
召回率(recall)=?

Sklearn vs. 分类

与聚类算法被统一封装在sklearn.cluster 模块不同，sklearn库中的分类算法并未被统一封装在一个子模块中，因此对分类算法的import 方式各有不同。

Sklearn提供的分类函数包括:

k近邻(knn)
朴素贝叶斯(naivebayes)，
支持向量机(svm)，
决策树 (decision tree)
神经网络模型(Neural networks)等
这其中有线性分类器，也有非线性分类器

分类算法的应用

金融:贷款是否批准进行评估
医疗诊断:判断一个肿瘤是恶性还是良性
欺诈检测:判断一笔银行的交易是否涉嫌欺诈
网页分类:判断网页的所属类别，财经或者是娱乐?

5.案例分析

##人体运动状态预测-实例分析

5.1 背景介绍

可穿戴式设备的流行，让我们可以更便利地使用传感器获取人体的各项数据，甚至生理数据。
当传感器采集到大量数据后，我们就可以通过对数据进行分析和建模，通过各项特征的数值进行用户状态的判断，根据用户所处的状态提供给用户更加精准、便利的服务

5.2 数据介绍

我们现在收集了来自 A,B,C,D,E 5位用户的可穿戴设备上的传感器数据，每位用户的数据集包含一个特征文件(a.feature)和一个标签文件 (a.label)。
特征文件中每一行对应一个时刻的所有传感器数值，标签文件中每行记录了和特征文件中对应时刻的标记过的用户姿态，两个文件的行数相同，相同行之间互相对应。

特征文件的各项特征具体如下表所示

1	2	3-15	16-28	29-41
时间戳	心率	传感器1	传感器2	传感器3

在传感器1对应的13列数据特征中，包含:1项温度数据、3项一型三轴加速度数据、3项二型三轴加速度数据、3项三轴陀螺仪数据和3项三轴磁场数据

3	4-6	7-9	10-12	13-15
温度	一型三轴加速度	二型三轴加速度	三轴陀螺仪	三轴磁场

人体的温度数据可以反映当前活动的剧烈程度，一般在静止状态时，体温趋于稳定在36.5度上下;当温度高于37度时，可能是进行短时间的剧烈运动，比如跑步和骑行。

在数据中有两个型号的加速度传感器，可以通过互相印证的方式，保证数据的完整性和准确性。通过加速度传感器对应的三个数值，可以知道空间中x、y、 z三个轴上对应的加速度，而空间上的加速度和用户的姿态有密切的关系，比如用户向上起跳时，z轴上的加速度会激增。

陀螺仪是角运动检测的常用仪器，可以判断出用户佩戴传感器时的身体角度是水平、倾斜还是垂直。直观地，通过这些数值都是推断姿态的重要指标。

磁场传感器可以检测用户周围的磁场强度和数值大小，这些数据可以帮助我们理解用户所处的环境。比如在一个办公场所，用户座位附近的磁场是大体上固定的，当磁场发生改变时，我们可以推断用户的位置和场景发生了变化。

标签文件内容如图所示，每一行代表与特征文件中对应行的用户姿态类别。总共有0-24共25种身体姿态，如，无活动状态，坐态、跑态等。标签文件作为训练集的标准参考准则，可以进行特征的监督学习。

5.3任务介绍

假设现在出现了一个新用户，但我们只有传感器采集的数据，那么该如何得到这个新用户的姿态呢? 又或者对同一用户如果传感器采集了新的数据，怎么样根据新的数据判断当前用户处于什么样的姿态呢?

在明确这是一个分类问题的情况下，我们可以选定某种分类模型(或者说是算法)，通过使用训练数据进行模型学习，然后对每个测试样本给出对应的分类结果。

机器学习的分类算法众多，在接下来的学习中我们将会详细介绍经典的分类算法，如K近邻、决策树和朴素贝叶斯的原理和实现。

三、基本分类模型

见下一博文

四、更多概念

Logistic regression ( 逻辑回归 ) ，尽管它的名字是回归，是一个用于分类的线性模型而不是用于回归。 Logistic Regression 在文献中也被称为 logit 回归，maximum-entropy classification ( MaxEnt ) ( 最大熵分类 ) 或 log-linear classifier ( 对数线性分类器 ) 。在这个模型中，描述单个试验的结果的概率使用 logistic function ( 逻辑函数 ) 进行建模。

可以从 LogisticRegression 类中访问 scikit-learn 中 logistic regression ( 逻辑回归 ) 的实现。该实现可以拟合 binary ( 二进制 ) ，One-vs- Rest ( 一对一休息 ) 或 multinomial logistic regression ( 多项逻辑回归 ) 与可选的 L2 或 L1 regularization ( 正则化 ) 。

作为优化问题，binary class L2 penalized logistic regression ( 二进制类 L2 惩罚逻辑回归 ) 使以下 cost function ( 成本函数 ) 最小化：

$$ \min \limits_{w，c}\ \frac{1}{2}w^{T}w + C \sum_{i=1}^{n} log(exp(-y_{i}(X_{i}^{T}w +c ))+1) $$

类似地， L1 regularized logistic regression ( L1 正则化逻辑回归 ) 解决了以下优化问题:

$$ \min \limits_{w，c}\ ||w||_{1} + C \sum_{i=1}^{n} log(exp(-y_{i}(X_{i}^{T}w +c ))+1) $$

在 Logistic 回归类中实现的 solver ( 求解器 ) 是 “liblinear”, “newton-cg”, “lbfgs” and “sag”：

solver ( 求解器 ) “liblinear” 使用 coordinate descent ( 坐标下降 ) (CD) 算法，并依赖于与 scikit-learn 一起提供的优秀 C ++ LIBLINEAR library 。然而，在 liblinear 中实现的 CD 算法不能学习一个真正的 multinomial (multiclass) 多项（多类）模型;相反，优化问题以 “one-vs-rest” 的方式分解，因此对所有类进行单独的二进制分类。这发生在 hood 下，所以使用此求解器的 LogisticRegression 实例表现为 multiclass classifiers ( 多类分类器 ) 。对于 L1 惩罚，sklearn.svm.l1_min_c 允许计算 C 的下限，以获得非 “null” （所有特征权重为零）模型。

“lbfgs”, “sag” 和 “newton-cg” 求解器仅支持 L2 penalization ( L2 惩罚 ) ，并且发现某些高维度数据的收敛速度更快。这些求解器将多类设置为“多项式”可以学习一个真正的 multinomial logistic regression model ( 多项式逻辑回归模型 ) [5] ，这意味着它的概率估计应该比默认的 “one-vs-rest” 设置更好地校准。 “lbfgs”，“sag” 和 “newton-cg” 求解器不能优化 L1-penalized ( L1 惩罚 ) 模型，因此 “multinomial” 设置不会学习 sparse models ( 稀疏模型 ) 。

求解器 “sag” 使用 Stochastic Average Gradient descent ( 随机平均梯度下降 ) [6]。当样本数量和特征数量都很大时，它比其他大型数据集的求解器更快。

简而言之，可以选择具有以下规则的 solver ( 求解器 ) ：

Case	Solver
Multinomial loss or large dataset	“lbfgs”, “sag” or “newton-cg”
Small dataset or L1 penalty	“liblinear”
Very Large dataset	“sag”

参考资料

北京理工大学礼欣 www.python123.org
- http://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
http://cwiki.apachecn.org/pages/viewpage.action?pageId=10814293

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn