NMT Tutorial 2扩展b. 优化方法

发表于 Jun 9 2018 | 分类于机器学习

基本优化方法：梯度下降如正文所提，梯度下降是一般机器学习中应用最多的优化算法，核心思想是让参数朝着梯度的反方向，也就是函数下降最快的方向移动。设定如下记号： \(\boldsymbol{\theta}\)：模型参数 \(\boldsymbol{x}^{(i)}\)：第\(i\)条数据 \(f\) ...

阅读全文 »

NMT Tutorial 2扩展a. 损失函数

发表于 Apr 26 2018 | 分类于优化

从最抽象的角度来讲，机器学习问题的求解过程就是提出一个损失函数来度量模型预测值与真实值之间的差距，然后通过某种给定的优化方法来调整模型参数，使模型效果提升的过程。在这个过程中，选择正确的损失函数是问题求解的基础，而对于某些特定的问题，设计一个有针对性的，新的损失函数则可以看作是胜负手常见的损失函数 ...

阅读全文 »

NMT Tutorial 2. Log-linear语言模型

发表于 Mar 24 2018 | 分类于 NLP

本章笔记基于[Neubig2017]第四章和NNMNLP第二章的一部分上一章提到的N元语法模型实际上就是基于计数和条件概率，而log-linear语言模型（或称对数-线性语言模型）使用了另一种方法。在一些经典的文献中，log-linear语言模型通常被称作为“最大熵语言模型”（maximum en ...

阅读全文 »

NMT Tutorial 1. 统计语言模型之N元语法

发表于 Mar 1 2018 | 分类于 NLP

本系列笔记主要来自于以下三篇关于神经机器翻译（NMT）的tutorial： [Koehn2017], Philipp Koehn, Statistical Machine Translation, Draft of Chapter 13: Neural Machine Translation , ...

阅读全文 »

Hinton神经网络与机器学习 15. 自动编码器

发表于 Feb 24 2018 | 分类于深度学习

从主成分分析到自动编码器主成分分析（PCA）的思想是，高维数据通常可以使用很低维度的数据编码。假设输入是\(N\)维数据，现在想用\(M\ (M<N)\)维的数据表示之，方法是选择\(M\)个相互正交的方向，且数据在这些方向上有最大的方差，然后略去剩下\(N-M\)个数据不大的方向。这样，\ ...

阅读全文 »

Hinton神经网络与机器学习 14. 深度信念网络与判别微调

发表于 Feb 22 2018 | 分类于深度学习

通过堆叠RBM学习特征层本讲开始，先不提sigmoid信念网（SBN），回过头看看受限玻尔兹曼机RBM。前面提到，学习RBM有一种相对来讲比较简单的方法，可以学出一层非线性特征（隐藏状态）。受此启发，可以将这层特征作为新的输入，再学出一个RBM的非线性特征，如此持续下去，最后可以得到一个由若干RB ...

阅读全文 »

Hinton神经网络与机器学习 13. 深度信念网络

发表于 Feb 17 2018 | 分类于深度学习

反向传播优劣论反向传播算法在70年代到80年代被不同的研究组独立发现了几次，不过追根溯源可以到60年代。在1969年，Bryson和Ho在控制论领域发明了反向传播算法的线性版本。Paul Werbos意识到可以将这种算法推广到非线性范畴，并在1974年发表的论文中提出了可能是反向传播的第一个正式版 ...

阅读全文 »

CS20 08. 风格迁移

发表于 Feb 15 2018 | 分类于深度学习实践

CS20的第二次作业是使用TensorFlow实现风格迁移（style transfer）。对于这个名词，了解深度学习的人应该不会太陌生：简单来说，神经网络接收两张图片，其中一个称为“风格图片”，主要学习其中的画风；另一个称为“内容图片”，网络将其渲染为学习到的风格。本次课的大部分内容是在讨论作业， ...

阅读全文 »

Hinton神经网络与机器学习 12. 受限玻尔兹曼机

发表于 Feb 10 2018 | 分类于深度学习

（视频和讲义中的第二节“More efficient ways to get the statistics”由于是可选章节，被略去了）玻尔兹曼机学习玻尔兹曼机学习算法不是一个有监督学习算法，没有期望输出。给定一个输入向量（实际上更应该是看做输出向量），算法试图构造一个模型，模型会为训练集中每个二 ...

阅读全文 »

CS20 07. 使用TensorFlow实现卷积神经网络

发表于 Feb 9 2018 | 分类于深度学习实践

原始课程讲义地址原始课程胶片地址无特殊说明，笔记内容均来自老师提供的讲义和胶片在MNIST上使用TensorFlow TensorFlow使用tf.nn.conv2d来做二维的卷积操作（此时需要输入是三维）。不同维度输入的卷积操作可以参考Runhani的StackOverflow回答。函数签名 ...

阅读全文 »