二次函数假设
二维平面上,解决二元分类问题的分类器可以看做是一条直线(在更高维空间上,是一个超平面),其核心思想是使用权重向量\(\bf w\)对输入\(\bf x\)算一个分数\(s = {\bf w}^\mathsf{T}{\bf x}\),然后对得到的分数做进一步处理。这种做法的好处是其VC维能够受到控制,因此\(E_{\rm in}\)和\(E_{\rm out}\)不会差太远。但是对于某些数据\(\mathcal{D}\),例如下图中给出的这种,可以发现无论怎么画线,都很难很好地将数据集分开。也就是说,不论怎么画线,\(E_{\rm in}\)都会非常大,因此\(E_{\rm out}\)也会很大。这样,线性模型在这样的数据集上无论如何都学不好。基于这样的状况,如何突破线性模型的限制成为了必须要解决的问题
经过观察,可以发现,尽管上图中的\(\mathcal{D}\)并不是线性可分,但是可以用一个圆(半径为\(\sqrt{0.6}\) )将这些数据都分开,因此,可以用假设函数 \[ h_{\rm SEP}({\bf x}) = {\rm sign}(-x_1^2 - x_2^2 + 0.6) \] 来对这个数据集分类。但是我们需要重头推导一遍圆形可分的数据集的算法吗?并不用。如果将上式中的未知数和变量写明确,可以转化为如下形式 \[ h({\bf x}) = {\rm sign}\left(\underbrace{0.6}_{\tilde{w}_0} \cdot \underbrace{1}_{z_0} + \underbrace{(-1)}_{\tilde{w}_1} \cdot \underbrace{x_1^2}_{z_1} + \underbrace{(-1)}_{\tilde{w}_2} \cdot \underbrace{x_2^2}_{z_2}\right) \] 如上式所示,将\(x_1^2\)视作新变量\(z_1\),\(x_2^2\)视作新变量\(z_2\),则上式可以简写为 \[ h({\bf z}) = {\rm sign}(\tilde{\bf w}^\mathsf{T}{\bf z}) \] 这意味着,使用上面的变换方法,在\(\{({\bf x}_n, y_n)\}\)上圆形可分的数据,在\(\{({\bf z}_n, y_n)\}\)上会变得线性可分。这种将\(\mathcal{X}\)的点变换为\(\mathcal{Z}\)中点的方法(记为\(\boldsymbol{\Phi}\)) \[ {\bf x} \in \mathcal{X} \overset{\boldsymbol{\Phi}}{\longmapsto} {\bf z}\in \mathcal{Z} \] 称为一个(非线性)特征变换
既然\(\mathcal{X}\)上的圆形分类器都可以用\(\mathcal{Z}\)上的一条直线来表示,那么反过来是不是对的?即\(\mathcal{Z}\)上的一条直线是不是对应了\(\mathcal{X}\)上的一个圆?按照之前\(\boldsymbol{\Phi}\)的做法,有 \[ (z_0, z_1, z_2)= {\bf z} = \boldsymbol{\Phi}({\bf x}) = (1, x_1^2, x_2^2) \] 那么 \[ h({\bf x}) = \tilde{h}({\bf z}) = {\rm sign}(\tilde{\bf w}^\mathsf{T}\boldsymbol{\Phi}({\bf x})) = {\rm sign}(\tilde{w}_0 + \tilde{w}_1x_1^2 + \tilde{w}_2x_2^2) \] 根据解析几何的知识,对\(\tilde{\bf w} = (\tilde{w}_0, \tilde{w}_1, \tilde{w}_2)\),尽管\(\mathcal{Z}\)中是一条直线,但根据权重每个分量的取值不同,对应到\(\mathcal{X}\)上可能是不同的二次曲线,例如
- \((0.6, -1, -1)\)对应了一个圆(将圆内的点判断为正例)
- \((-0.6, +1, +1)\)对应了一个圆(将圆外的点判断为正例)
- \((-0.6, -1, -2)\)对应了一个椭圆
- \((-0.6, -1, +2)\)对应了一个双曲线
- \((0.6, +1, +2)\)这个分类器会将所有样本都分为正例
注意这里尽管得到的二次曲线不同,但是它们会有一些共同的限制。例如,当\(w_1 = w_2\)且与\({w_0}\)异号时,得到的圆虽然半径不同,但是其圆心始终会在原点上。要打破这样的限制,就需要\(\boldsymbol{\Phi}\)做的变换包含了\(x_1\)与\(x_2\)二次(及更低次)组合的各种形式,即\(\boldsymbol{\Phi}_2({\bf x}) = (1, x_1, x_2, x_1^2, x_1x_2, x^2_2)\)。重新记\(\mathcal{X}\)经\(\boldsymbol{\Phi}_2\)变换后得到的空间为\(\mathcal{Z}\),则假设集合\(\mathcal{H}_{\boldsymbol{\Phi}_2} = \{h({\bf x}): h({\bf x}) = \tilde{h}(\boldsymbol{\Phi}_2({\bf x})){\rm\ for \ some\ linear\ }\tilde{h}{\rm\ on\ }\mathcal{Z}\}\)就可以实现\(\mathcal{X}\)中的所有二次曲线,包括直线等退化情况
非线性变换
之前说到,\(\mathcal{X}\)空间中的非线性分类问题,在找到一个合适的从\(\mathcal{X}\)到\(\mathcal{Z}\)上的非线性变换\(\boldsymbol{\Phi}\)以后,可以用\(\mathcal{Z}\)空间上的感知机来做分类。如何训练\(\mathcal{Z}\)上的感知机?参考之前使用数据\(\{({\bf x}_n, y_n)\}\)训练\(\mathcal{X}\)上感知机的方法,用经过非线性变换得到的新数据\(\{({\bf z}_n = \boldsymbol{\Phi}({\bf x}_n), y_n)\}\)进行训练即可。整个步骤描述如下
- 将原始数据\(\{({\bf x}_n, y_n)\}\)使用\(\boldsymbol{\Phi}\)变换为\(\{({\bf z}_n = \boldsymbol{\Phi}({\bf x}_n), y_n)\}\)
- 使用\(\{({\bf z}_n, y_n)\}\)和你擅长的线性分类算法得到\(\mathcal{A}\)得到一个好的权重\(\tilde{\bf w}\)
- 返回\(g({\bf x}) = {\rm sign}(\tilde{\bf w}^\mathsf{T}\boldsymbol{\Phi}({\bf x}))\)
也可参考如下图例。注意使用非线性变换时一般没有\(\boldsymbol{\Phi}^{-1}\)的那一步,图中加上这一步只是为了加深理解(实际上,\(\boldsymbol{\Phi}\)的反函数是否存在也未可知)
非线性变换是一个独立的提取特征的操作,因此它不一定只能用在二元分类问题上,而是可以和所有其它线性模型相结合。需要注意的是,非线性变换只是得到新特征的一种方法,而特征工程是解决机器学习问题时最重要的“原力”之一
非线性变换的代价
计算/存储代价
假设原始的变量集合\({\bf x} \in \mathcal{X}\)都是\(d\)维的,即\({\bf x} \in \mathbb{R}^d\),要做一个完全的二次变换,即其包含\((x_1, x_2, \ldots, x_d)\)形成的所有二次项、一次项和常数项,得到的\({\bf z} = \boldsymbol{\Phi}_2({\bf x})\)的维度是多少?所有二次项的数目是\({d \choose 2} + d\)(\(x_ix_j, i \not= j\)的项和\(x_i^2\)的项),一次项的数目是\(d\),常数项数目是1,因此最后\(\bf z\)的维度是\(\frac{d^2}{2} + \frac{3d}{2} + 1\)。推广这个结论,假设源数据维度为\(d\) ,做一个完全的\(Q\)次变换,得到的新数据维度\(\tilde{d}\)为\({Q+d \choose Q} = {Q+d \choose d}\),复杂度大概为\(O(Q^d)\)。这也是计算和存储\({\bf z} = \boldsymbol{\Phi}_Q({\bf x})\)和\(\tilde{\bf w}\)的代价
模型复杂度代价
另一方面,特征变换以后,新的权重\(\tilde{\bf w}\)有\(\tilde{d}+1\)个自由变量。由前面提到的VC维和自由变量数之间的关系,\(\mathcal{H}_{\boldsymbol{\Phi}_Q}\)的VC维大概就是\(\tilde{d}+1\)。这意味着当\(Q\)变大时,模型的VC维也会变大。这会带来什么问题?考虑下面这个带噪声的数据集,左边使用线性特征做分类,右边使用四次特征做分类
尽管\(\boldsymbol{\Phi}_4\)转换以后分类器可以做到\(E_{\rm in}\)为0,但是看上去\(\boldsymbol{\Phi}_1\)更符合直觉。这又带来了一个均衡问题:低维的\(\tilde{d}(Q)\)可以使\(E_{\rm out}\)与\(E_{\rm in}\)足够接近,但是不能得到足够小的\(E_{\rm in}\);高维的\(\tilde{d}(Q)\)可以得到足够小的\(E_{\rm in}\),但是不能让\(E_{\rm in}\)足够接近于\(E_{\rm out}\)
那么如何选择这个合适的\(Q\)呢?上面这个例子里,可以通过用眼看来选择。但是用眼看总是一个很好的方法吗?先不说当\(d = 10\)时如何用眼偷看资料,仅考虑最开始举的那个例子
- 如果什么都不看,做一个\(\boldsymbol{\Phi}_2\)变换,VC维是6
- 如果看了数据,可以将\({\bf x}\)转化为\({\bf z} = (1, x_1^2, x_2^2)\),这样VC维是3
- 甚至更聪明一点,可以做转化\({\bf z} = (1, x_1^2+x_2^2)\),VC维是2
因此需要意识到一个问题:后来做的这些转换,其VC维降低是因为大脑做了分析而造成的功劳,因此判断VC维的时候得综合考虑,不能忘记人为分析造成的VC维减小
(讲义里最后还有句话:为了能安全地估计VC维,不能先“偷看”数据再决定做什么特征变换\(\boldsymbol{\Phi}\) )
结构化假设集
多项式变换可以递归定义: \[ \begin{align*} \boldsymbol{\Phi}_0({\bf x}) &= (1) \\ \boldsymbol{\Phi}_1({\bf x}) &= (\boldsymbol{\Phi}_0({\bf x}), x_1, x_2, \ldots, x_d) \\ \boldsymbol{\Phi}_2({\bf x}) &= (\boldsymbol{\Phi}_1({\bf x}), x_1^2, x_1x_2, \ldots, x_d^2) \\ \boldsymbol{\Phi}_3({\bf x}) &= (\boldsymbol{\Phi}_2({\bf x}), x_1^3, x_1^2x_2, \ldots, x_d^3) \\ &\cdots \\ \boldsymbol{\Phi}_Q({\bf x}) &= (\boldsymbol{\Phi}_{Q-1}({\bf x}), x_1^Q, x_1^{Q-1}x_2, \ldots, x_d^Q) \\ \end{align*} \] 如果记\(\mathcal{H}_{\boldsymbol{\Phi}_i}\)为\(\mathcal{H}_i\),由上面的递归定义有 \[ \mathcal{H}_0 \subset \mathcal{H}_1 \subset \mathcal{H}_2 \subset \mathcal{H}_3 \subset \ldots \subset \mathcal{H}_Q \] 由于越复杂的变换得到的假设函数能够打散的点越多,因此 \[ d_{\rm VC}(\mathcal{H}_0) \le d_{\rm VC}(\mathcal{H}_1) \le d_{\rm VC}(\mathcal{H}_2) \le d_{\rm VC}(\mathcal{H}_3) \le \ldots \] 如果设\(g_i = \mathop{ {\rm arg}\min}_{h \in \mathcal{H}_i} E_{\rm in}(h)\),则因为越复杂的变换可选的\(h\)越多,有 \[ E_{\rm in}(g_0) \ge E_{\rm in}(g_1) \ge E_{\rm in}(g_2) \ge E_{\rm in}(g_3) \ge \ldots \] 所以是否有\(Q\)越高越好?且慢!第七讲中的图列出了VC维与误差之间的关系。尽管随着VC维的增大,样本内误差会单调减小,但是模型复杂度会增高。当模型的VC维超过最优的\(d_{\rm VC}^\ast\)以后,样本外误差会不降反升。如果上来设计一个很高维度的转换,尽管能做到不错的\(E_{\rm in}\),但是遇到不同的样本模型性能会很差,而且很难做进一步改进。非线性变换(这里主要是多项式变换)的正确打开方式应该是,先从\(\mathcal{H}_1\)试起。如果成功了,那么由于其本身的性质,\(E_{\rm out}\)应该也不会差。即便是效果不好,也可以再逐个尝试\(\mathcal{H}_2\)等等。这样做失去的只有用简单特征训练测试模型时的一点时间,得到的确实比较保险稳妥的结果——而且,大多数情况下,线性模型可能还真挺有效可用的。