EdX Columbia ML 24. 模型选择

模型选择问题:对于高斯混合模型、矩阵分解、HMM这样的模型,不能简单使用最大对数似然\(\mathcal{L}\)的方法来确定应该使用什么参数。因为复杂模型总能更好地拟合数据,最终导致过拟合。具体说,模型的自由度越高,越容易过拟合,而自由度可以粗略地看做可变参数\(K\)的值,例如聚类中簇的个数、矩阵分解中子矩阵的秩等等

对于这样的问题,解决办法有三种

  1. 增加稳定性:对数据进行bootstrap采样,学习出一个模型,然后计算其在原始数据集上的似然。重复迭代,得到最好的那个模型
  2. 贝叶斯非参数方法:对\(K\)的每个可能值都给一个先验概率,那么后验就可以学到最好的那个\(K\)
  3. 对模型参数值\(K\)施加惩罚项。常见的包括
    • 赤池信息量准则 (Akaike information criterion -- AIC):\({\rm AIC} = -\mathcal{L} + K\)
    • 贝叶斯信息量准则 (Bayesian information criterion -- BIC): \({\rm BIC} = -\mathcal{L} + \frac{1}{2}K\ln N\)。当\(1/2\ln N >1\)时,BIC使得算法倾向选择更简单的模型(即\(N\ge 8\)时)

例如,对于把\(M_1\times M_2\)矩阵NMF为秩\(R\)的问题,有 \[ \begin{align*} {\rm AIC} &\rightarrow (M_1 + M_2)R \\ {\rm BIC} &\rightarrow \frac{1}{2}(M_1 + M_2)R\ln(M_1M_2) \end{align*} \]

坚持原创技术分享,您的支持将鼓励我继续创作!