概率图模型笔记

概率模型将机器学习任务归结于计算变量的概率分布,即利用已知变量推测未知变量分布,也称为推断,其核心是如何基于可观测变量推测出未知变量的条件分布。 假定所关心的变量集合Y,可观测的变量集合O,其他变量集合R。Generative Model考虑联合分布P(Y,R,O),Discriminative Model考虑条件分布P(Y,R|O)。 给定一组观测变量值,推断就是由P(Y,R,O)或P(Y,R|O)得到条件概率分布P(Y|O)。

直接利用概率求和规则消去变量R显然不可行,因为即便两个变量仅有两种取值,其复杂度至少是O(2^(|Y|+|R|))。 另外,属性变量之间往往存在复杂联系,基于训练样本估计变量分布的参数往往相对困难。

概率图模型是一类用图来表达相关关系的概率模型。以图中一个节点表示一个或一组随机变量,节点间的边表示变量间的概率相关关系。 若变量间存在显式的因果关系,使用有向无环图表示变量间的依赖关系,比如贝叶斯网;若变量间存在相关性,但难以获得显式的因果关系,比如马尔可夫网。

隐马尔可夫模型

隐马尔可夫模型时最简单的贝叶斯网,主要用于时序数据建模,应用于语音识别,自然语言处理等领域。 若系统下一时刻的状态仅有当前状态决定,不依赖于以往的任何状态,这就是所谓的马尔可夫链。

马尔可夫随机场

若对于图中结点的一个子集,若其中任意两结点间都有边连接,则称该节点子集为一个“团”。若在一个团中加入另外任何一个节点都不再形成团,则成为“极大团”。 在马尔可夫随机场中,所有变量之间的联合概率分布能基于极大团分解为多个因子的乘积,详见周老师《机器学习》P322页。其中,势函数用于对极大团Q中的变量关系进行建模,应该是非负函数,且在所偏好的变量取值上有较大的函数值,以便取得较高的联合概率。

所以,在马尔可夫网中,变量的联合分布被表示成极大团的势函数乘积,马尔可夫网的参数为各极大团势函数的参数集合。

条件随机场

条件随机场是一种判别式无向图模型,可以看作给定观测值的马尔科夫随机场,即对多个变量给定观测值后的条件概率进行建模。条件随机场和马尔可夫随机场均使用团上的势函数定义概率,只是前者处理的是条件概率,后者处理的是联合概率。

学习与推断

基于概率图模型定义的联合概率分布,我们能对目标变量的边际分布或以某些可观测变量为条件的条件分布进行推断(边际分布是指对无关变量求和或积分后得到的结果)。例如在马尔可夫网中,变量的联合分布被表示为极大团的势函数乘积,于是给定参数求解某个变量x的帆布,就变成对联合分布中其他无关变量进行积分的过程,称为“边际化”。

如何高效的计算边际分布?即概率图模型的推断方法分为两类:精确推断方法和近似推断方法。前者希望能计算出目标变量的边际分布或条件分布的精确值,此类算法随着极大团规模的增长呈指数增长,适用范围有限,后者则希望在较低的时间复杂度下获得原问题的近似解。

01 精确推断

周老师《机器学习》P328-331

  • 变量消去:将多个变量的积的求和问题转化为对部分变量交替进行求积与求和的问题。这种转换使得每次的求和与求积运算限制在局部,仅与部分变量有关。然而变量消去方法存在明显缺点:若要计算多个边际分布,重复使用变量消去法会造成大量冗余的重复计算。
  • 信念传播:将变量消去法中的求和操作看作一个消息传递过程,较好地解决了求解多个边际分布时的重复计算问题。即一个节点仅在接受到来自其他所有节点的消息之后才能向另一个节点发送消息。若图结构中没有环,则信念传播算法经过两个步骤即可完成所有消息传递,进而能计算所有变量上的边际分布

近似推断

精确推断需要大量计算开销,因此现实应用中近似推断更为常用。大致可以分为两类:采样和变分推断。

01 MCMC采样

很多task并不直接关系某些概率分布,而是基于这些概率分布计算某些期望,也有可能进一步基于这些期望作出决策。那么,若直接计算或逼近这个期望比推断概率分布更容易。核心思想是采样,通过样本估计目标。

比如,计算f(x)在概率密度函数p(x)下的期望,精确解法是计算f(x)p(x)的积分。但基于大数定律,我们可以根据p(x)抽取一组样本,然后计算f(x)这些样本上的均值(期望),能获得较高的近似精度。所以问题转化为如何基于图模型所描述的概率分布来获取采样样本?

概率图模型中最常用的采样技术是Markov Chain Monte Carlo方法。若p(x)中x不是单变量而是一个高维多元变量x,且服从一个复杂的分布,那么通过积分计算f(x)的期望是很困难的。MCMC方法的关键在于通过构造“平稳分布为p的马尔可夫链”来产生样本。也就是说,MCMC方法先设法构造一条马尔可夫链法,使其收敛至平稳分布恰为待估计参数的后验分布,然后通过这条马尔可夫链来产生符合后验分布的样本,并基于这些样本来进行估计。这里马尔可夫链转移概率的构造至关重要,不同的构造方法将产生不同的MCMC算法:Metropolis-Hastings(MH)算法和Gibbs sampling(吉布斯采样)。

02 变分推断

变分推断通过使用简单分布来逼近需推断的复杂分布,并通过限制近似分布的类型,从而得到一种局部最优、但具有确定解的近似后验分布。这部分后面再阅读

Topic Model

先了解话题模型中的几个概念:词word、文档document、话题topic。“词”是待处理数据的基本离散单元,“文档”是待处理的数据对象,由一组词组成,因为词在文档中不计顺序,此时的表示方式成为“词袋bag-of-words”。数据对象只要能用词袋描述,就可使用话题模型。例如若把图像中的小块看作“词”,则可将图像看作词袋,于是topic model也可用于图像数据。“话题”表示一个概念,具体表示为一系列相关的词,以及它们在该概念下出现的概率。

形象地说,一个话题就像是一个箱子,里面装着这个概念下出现概率较高的那些词。

这部分待阅读

References

  • 周志华老师《机器学习》
Kai Su /
Published under (CC) BY-NC-SA in categories Research  tagged with machine learning