Tingxun's Blog

念念不忘,必有回响


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

  • 站点地图

NTUML 1. 学习问题

发表于 Aug 1 2017 | 分类于 统计机器学习
机器学习的概念 我们可以从人类的学习思维入手。人类的学习过程,是从观察出发,经过大脑内化以后,变成有用的技巧。机器学习,类似地,是我们希望能让电脑模拟类似的过程。这时,电脑的观察到的东西被称作是数据,而思考过程实际上是计算过程,技巧则是增强某一方面的表现。因此, 机器学习的过程是从数据出发,经过计 ...
阅读全文 »

EdX Columbia ML 24. 模型选择

发表于 Jul 24 2017 | 分类于 统计机器学习
模型选择问题:对于高斯混合模型、矩阵分解、HMM这样的模型,不能简单使用最大对数似然\(\mathcal{L}\)的方法来确定应该使用什么参数。因为复杂模型总能更好地拟合数据,最终导致过拟合。具体说,模型的自由度越高,越容易过拟合,而自由度可以粗略地看做可变参数\(K\)的值,例如聚类中簇的个数、矩 ...
阅读全文 »

EdX Columbia ML 23. 关联分析

发表于 Jul 9 2017 | 分类于 统计机器学习
基本背景 关联分析的目的可以看做是要找到经常出现的产品组。形式化地说,给定\(p\)个不同的物品,编号为\(\{1,\ldots , p\}\),以及一些这些物品子集\(X_n \subset \{1,\ldots, p\}\)构成的集合,假设\(X_n\)是顾客\(n=1,\ldots, N\)购 ...
阅读全文 »

EdX Columbia ML 22. 连续状态空间模型

发表于 Jul 9 2017 | 分类于 统计机器学习
连续马尔科夫模型 连续马尔科夫模型中,状态不再是一个个离散值,而是可以是\(\mathbb{R}^d\)中的任何数,即状态存在于连续空间。最简单的例子是过程 \[ s_t = s_{t-1} + \epsilon_t,\ \ \epsilon_t \sim N(0, aI) \] 本讲主要讨论的是最 ...
阅读全文 »

EdX Columbia ML 21. 隐马尔科夫模型 (HMM)

发表于 Jul 9 2017 | 分类于 统计机器学习
马尔科夫模型和HMM的最大区别在于,马尔科夫模型中的状态是离散,外在的,可以被观察到。而HMM中状态变成了一个隐藏的值,只能通过观察值来猜测。观察值是状态值的条件随机变量。在这里,每个状态都可以看作是一个分布的均值\(\mu_i\),而观测到的值\(x_i\)相当于\(\mu_i + \epsilo ...
阅读全文 »

EdX Columbia ML 20. 马尔科夫模型和半监督学习

发表于 Jul 9 2017 | 分类于 统计机器学习
对于某些序列数据,后面的数据依赖于前面的数据,因此独立同分布假设不能成立 马尔科夫链 一阶马尔科夫属性:最简单的类型,\(t+1\)时刻的状态\(s_{t+1}\)仅由\(t\)时刻的状态\(s_t\)决定。可以用一个矩阵来描述一个过程所有状态转换的完整集合,称为转移矩阵\(M\)。其中\(M_{i ...
阅读全文 »

Edx Columbia ML 19. 主成分分析 (PCA)

发表于 Jul 5 2017 | 分类于 统计机器学习
PCA 通常被用来做维度缩减,即将数据从高维空间投影到低维空间,同时尽可能完整地保留原有的信息,可以由一个例子来看。假设在二维空间中存在一个单位向量\(q\),即\(|\!|q|\!| = 1\),对于同一空间中的其它向量\(x_i\),该向量在\(q\)上的投影对应的向量为\(d\cdot \fr ...
阅读全文 »

EdX Columbia ML 18. 主题建模与非负矩阵分解

发表于 Jul 5 2017 | 分类于 统计机器学习
对于给定的文档,概率主题模型学习所有文档中单词的分布,以及对每个文档学习其主题的分布,并把文档中的每个单词赋给一个主题。例如,对于体育主题,权重最大的单词可能是team,值为0.03,而对医疗主题权重最大的单词可能是health。对某篇文章,根据文章里的词语,可以判断该文应该属于医疗主题还是体育主题 ...
阅读全文 »

Edx Columbia ML 17. 矩阵分解与协同过滤

发表于 Jul 5 2017 | 分类于 统计机器学习
协同过滤 传统推荐系统采用内容过滤,即使用产品和用户已有的信息做推荐,需要维护两方的档案(profile)。例如,产品侧需要维护电影信息、价格信息、产品描述等等。用户侧需要维护画像、问卷信息等。这些信息可能难以采集 协同过滤的思想是,使用用户之前的输入/行为来对未来进行推荐,这里不使用用户的先验信息 ...
阅读全文 »

EdX Columbia ML 16. 高斯混合模型

发表于 Jul 3 2017 | 分类于 统计机器学习
软聚类与硬聚类 硬分类:以kmean为代表,每个数据点只被赋给一个簇,即便该数据点离簇的中心点很远 软分类:会对每个点属于哪个簇赋予一个概率(breaks the data across clusters intelligently) 如果使用加权算法,可以把硬聚类的kmean变成软聚类 输入:数 ...
阅读全文 »
1…78910
Tingxun Shi

Tingxun Shi

95 日志
11 分类
101 标签
知乎
友情链接
  • 咲神
© 2017 — 2019 Tingxun Shi
由 Hexo 强力驱动
|
主题 — NexT.Muse v5.1.3
访问人数 总访问量 次