核岭回归
由上一讲提到的表示定理可知,任何带有L2正则项的线性模型都能被核化。那么如何把回归模型核化呢?而且回想之前讲岭回归(带有L2正则项的线性回归)时,曾经说过该模型可以得到一个闭合的解析解,那么使用了核方法以后的模型是否能同样有解析解?
首先,将原始岭回归的问题写出 \[ \min_{\bf w}\hspace{2ex}\frac{\lambda}{N}{\bf w^\mathsf{T}w} + \frac{1}{N}\sum_{n=1}^N(y_n - {\bf w^\mathsf{T}z}_n)^2 \] 要使该问题的最优解\({\bf w}_\ast\)可以写作若干个\({\bf z}_n\)的线性组合,即\({\bf w}_\ast = \sum_{n=1}^N \beta_n{\bf z}_n\)。类似于之前KLR的推导,可以把\({\bf w}_\ast\)的表达式代回到原始问题,进而求解最优的\(\boldsymbol{\beta}\)。因此原问题可以化为 \[ \min_{\boldsymbol{\beta}}\hspace{2ex}\frac{\lambda}{N}\sum_{n=1}^N\sum_{m=1}^N\beta_n\beta_mK({\bf x}_n, {\bf x}_m) + \frac{1}{N}\sum_{n=1}^N\left(y_n - \sum_{m=1}^N\beta_mK({\bf x}_n, {\bf x}_m)\right)^2 \] 同样的,第一项可以看做是使用核矩阵\(\rm K\)对\(\boldsymbol{\beta}\)做正则化,第二项是对\(N\)维经核变化过的样本做线性回归,权重为\(\boldsymbol{\beta}\)。经过矩阵/向量化,该问题可以进一步化简为 \[ \min_\boldsymbol{\beta}\hspace{2ex}\frac{\lambda}{N}\boldsymbol{\beta}^\mathsf{T}{\rm K}\boldsymbol{\beta} + \frac{1}{N}(\boldsymbol{\beta}^\mathsf{T}{\rm K^\mathsf{T}K}\boldsymbol{\beta} - 2\boldsymbol{\beta}^\mathsf{T}{\rm K}^\mathsf{T}{\bf y} + {\bf y^\mathsf{T}y}) \] 将上式对\(\boldsymbol{\beta}\)取梯度,同时注意\(\rm K\)是对称矩阵(Mercer定理),可知\({\rm K = K^\mathsf{T} = K^\mathsf{T}I}\)。因此 \[ \nabla E_{\rm aug}(\boldsymbol{\beta}) = \frac{2}{N}(\lambda {\rm K^\mathsf{T}I}\boldsymbol{\beta} + {\rm K^\mathsf{T}K}{\boldsymbol{\beta}} - {\rm K^\mathsf{T}}{\bf y}) = \frac{2}{N}{\rm K^\mathsf{T}((\lambda{\rm I+K})\boldsymbol{\beta} - {\bf y})} \] 可知最后也可以得到\(\boldsymbol{\beta}\)的解析解为\(\boldsymbol{\beta} = (\lambda {\rm I +K})^{-1}{\bf y}\),返回的\(g({\bf x}) = \sum_{n=1}^N \beta_nK({\bf x}_n, \bf x)\)。由于\(\rm K\)是半正定矩阵且\(\lambda >0\),因此\(\lambda {\rm I + K}\)总是可逆的。求解该问题的时间复杂度为\(O(N^3)\)。相比而言,线性岭回归得到的结果\({\bf w}={\rm (\lambda I + X^\mathsf{T}X)^{-1}X^\mathsf{T}}{\bf y}\)更受限(如果不做多项式变换,只能得到线性模型),但是训练时间复杂度\(O(d^3 +d^2N)\),预测时间复杂度\(O(d)\),在\(N >\!> d\)时效率更高。核岭回归尽管得到的模型更灵活,但是训练时间复杂度\(O(N^3)\),预测时间复杂度\(O(N)\),不适合处理大的数据集。这再次说明我们通常要在模型的灵活性和计算效率之间进行权衡
支持向量回归的原始问题
前面说到,线性回归(及其带正则化的变种)也可以用来解决分类问题。使用了核方法的核岭回归也可以解决同样的问题,此时这个模型被称为最小二乘支持向量机(Least-Squares SVM, LSSVM)。高斯LSSVM和软间隔高斯核SVM的对比可见下图
可见两者的边界差别不是很大,但是对LSSVM,几乎所有点都是支持向量,而对软间隔SVM,只有少数点是支持向量。支持向量越多,预测的时间就越长,效率就越低。那么有没有办法得到这样一种模型:它既可以解决回归问题,又可以像标准SVM那样有稀疏的\(\boldsymbol{\beta}\)呢?
首先考虑一个“管道回归”问题(tube regression):之前讲线性回归的时候,对模型误差的判定非常严苛:对某个点\(({\bf x}_n, y_n)\),只有当它完全落在学习出的超平面上时,它的误差才是0。只要出现一点偏差,就要负责任。但是在管道回归问题里,错误评判的标准宽松了一些:在标线的基础上,拓展出来一部分“中立区”。即便是某些点没有落在超平面上,只要落在中立区里,误差就不计算了。对于落在中立区外的点,其误差计算也不是看它到超平面的距离,而是看它离中立区的距离。下图给出了一个示例
上图中,蓝色线是学习出的超平面,蓝色带是划分出的“中立区”,红线表明了各点误差的大小。假设中立区的(单侧)高度为\(\epsilon\),管道回归的误差函数为 \[ {\rm err}(y, s) = \max(0, |s-y|-\epsilon) \] 可以看出,这个误差函数(通常称为\(\epsilon\)-不敏感误差)与前面讲到的SVM的hinge loss形式很像。而如果将此误差函数的图像做出来,可以发现当\(|y-s|\)比较小时,管道回归的误差与平方误差大致相等。\(|y-s|\)比较大时,管道回归的误差又远小于平方误差,这说明前者受离群点的影响更小
接下来要做的就是求解这个带有L2正则项的管道回归问题来得到一个稀疏的\(\boldsymbol{\beta}\)。首先将问题描述出来 \[ \min_{\bf w}\hspace{2ex}\frac{\lambda}{N}{\bf w^\mathsf{T}w} + \frac{1}{N}\sum_{n=1}^N\max\left(0, |{\bf w^\mathsf{T}z}_n-y|-\epsilon\right) \] 尽管这是一个无限制条件的优化问题,但是\(\max\)函数不是处处可微的,因此使用微分的方法会遇到问题。标准SVM也有类似的问题,但是重写为一个QP问题以后就好解了。此外,为了使用核方法,该问题可以用表示定理来转换为一个可核化的问题,但是可能不会有稀疏性的保证;而标准SVM由于有对偶问题和KKT条件,有稀疏性的保证。因此在求解此问题时,也会试着像QP、对偶和KKT条件靠拢。所以接下来仿照标准SVM问题对原问题进行重写 \[ \min_{b, {\bf w}}\hspace{2ex}\frac{1}{2}{\bf w^\mathsf{T}w} + C\sum_{n=1}^N\max(0, |{\bf w^\mathsf{T}z}_n+b-y_n|-\epsilon) \] 原始软间隔SVM问题对\(\max\)函数的处理是引入了边界破坏量\(\xi_n\)。这里使用了类似的思想,但是由于绝对值符号的存在,只引入一个\(\xi_n\)是不够的,约束条件还不是一个线性问题。应该将绝对值符号展开,并引入两个量:向下惩罚项\(\xi_n^\lor\)和向上惩罚项\(\xi_n^\land\)。这样一来,就得到了标准支持向量回归(SVR)的原始问题,形式为 \[ \begin{align*} \min_{b, {\bf w}, \boldsymbol{\xi}^\lor, \boldsymbol{\xi}^\land}\hspace{2ex}&\frac{1}{2}{\bf w^\mathsf{T}w} + C\sum_{n=1}^N(\xi_n^\lor + \xi_n^\land) \\ {\rm s.t.}\hspace{2ex}& -\epsilon - \xi_n^\lor \le y_n - {\bf w^\mathsf{T}z}_n - b \le \epsilon + \xi_n^\land \\ &\xi_n^\lor \ge 0, \xi_n^\land \ge 0 \end{align*} \] 这里各参数的意义为
- \(C\)在正则的程度和对管道的破坏程度中做均衡
- \(\epsilon\)控制管道在竖直方向上的宽度(比原来SVM多出来一个超参数)
这个QP问题有\(\tilde{d}+1+2N\)个变量,\(2N+2N\)个限制条件
支持向量回归的对偶问题
要写出上述原始问题的对偶问题,第一步是引入拉格朗日乘子。记约束条件\(y_n - {\bf w^\mathsf{T}z}_n - b \le \epsilon + \xi_n^\land\)对应的拉格朗日乘子为\(\alpha_n^\land\),约束条件\(-\epsilon - \xi_n^\lor \le y_n - {\bf w^\mathsf{T}z}_n - b\)对应的拉格朗日乘子为\(\alpha_n^\lor\)。经过类似第18讲和20讲的一些计算,可以得到以下一些KKT条件 \[ \begin{align*} \frac{\partial \mathcal{L}}{\partial w_i} = 0&\Rightarrow {\bf w} = \sum_{n=1}^N(\alpha_n^\land - \alpha_n^\lor){\bf z}_n \\ \frac{\partial \mathcal{L}}{\partial b} = 0 & \Rightarrow \sum_{n=1}^N(\alpha_n^\land - \alpha_n^\lor) = 0 \end{align*} \] 以及其中的互补松弛条件为 \[ \begin{cases} \alpha_n^\land(\epsilon + \xi_n^\land - y_n + {\bf w^\mathsf{T}z}_n + b) = 0 \\ \alpha_n^\lor(\epsilon + \xi_n^\lor + y_n - {\bf w^\mathsf{T}z}_n - b) = 0 \end{cases} \] 最终可以得到对偶问题为 \[ \begin{align*} \min \hspace{2ex} &\frac{1}{2}\sum_{n=1}^N\sum_{m=1}^N(\alpha_n^\land - \alpha_n^\lor)(\alpha_m^\land - \alpha_m^\lor)K({\bf z}_n, {\bf z}_m) + \sum_{n=1}^N((\epsilon-y_n)\cdot \alpha_n^\land + (\epsilon + y_n)\cdot \alpha_n^\lor) \\ {\rm s.t.} \hspace{2ex} &\sum_{n=1}^N(\alpha_n^\land - \alpha_n^\lor) = 0 \\ &0 \le \alpha_n^\land \le C, 0\le \alpha_n^\lor \le C \end{align*} \] 这个问题也可以用二次规划求解器求解
最后,由前面的KKT条件可知\({\bf w} = \sum_{n=1}^N (\alpha_n^\land - \alpha_n^\lor){\bf z}_n\)。记\(\alpha_n^\land - \alpha_n^\lor\)为\(\beta_n\),要证明的就是\(\beta_n\)组成的系数向量\(\boldsymbol{\beta}\)是稀疏的。由前面的互补松弛条件,对那些在管道中的点,其对应的\(\xi_n^\land\)和\(\xi_n^\lor\)都为0。由于此时有\(|{\bf w}^\mathsf{T}{\bf z}+b-y_n|<\epsilon\),因此互补松弛条件中\(\epsilon + \xi_n^\land - y_n + {\bf w^\mathsf{T}z}_n + b\)和\(\epsilon + \xi_n^\lor + y_n - {\bf w^\mathsf{T}z}_n - b\)都不为0,也就是它们对应的\(\alpha_n^\land\)和\(\alpha_n^\lor\)都为0,\(\beta_n\)也就为0。所以可以得出结论:落在管道边界上或管道外的数据点才对\(\bf w\)有贡献,它们才是支持向量,\(\boldsymbol{\beta}\)是稀疏的
核模型总结
最后对前面讲过的所有线性模型和使用了核技巧的模型(简称核模型)做一总结,参见下图
上图中,
- 前两行均为线性模型,其中
- 第一行较少使用,因为性能/效果比较差
- 第二行是经典机器学习包liblinear的主力
- 后两行均为核模型,其中
- 第三行较少使用,因为支持向量是稠密的
- 第四行是经典机器学习包libsvm的主力
核模型中可用的核包括多项式核、高斯核,或者是任何满足Mercer条件的自定义核。它们是线性模型的有力扩展。但是“能力越大责任越大”,使用这些强力模型时,要更小心地调参以及做验证,避免过拟合现象的出现