Graph Modal and Gibbs Sampling

Structured Learning and Gibbs Sampling

Graphical Modal

相关术语

Clique: 连通子图

Maximum Clique:最大连通子图

MRF

定义:每个最大连通子图都通过一个factor和另外的相连接

MRF→Factor Graph

Training

如何将函数f描述为线性的?

如果y是连续的...

这些函数f可以通过structured SVM求得。


Gibbs Sampling

Inference

定义好了factor函数之后,目标是找到一组y使得F得分之和最大。显然穷举的方法不适用。接下去是通过概率的角度考虑:

由于已经得到P(y|x) 的概率是独立于y的,即和y没有关系,只和分子F(x,y) 成正比,因此目标函数可以转换为argmax(P(y|x)),而P(y|x) 是一个概率分布(横轴是x,纵轴是一组y)

存在一个神奇的问题就是:P(y|x)和通过sampling求出的y1,y2,...,yT 几乎一样。Gibbs Sampling就是假设只有一个y_i 是未知的,其他是已知的,通过剩余的y来计算概率。

接下去手算一个Gibbs Sampling:

注意: Random sample是从一堆y中随机挑选,不一定一定挑到y2=1的,因为y2=1和y2=-1的概率差不多大。

通过迭代计算结果为:

初始化不会影响最终结果,只会最开始的几个sample有影响, 所以对于最开始的几个Sample可以通过以下方法来调整概率,使得结果相差更大:


Markov chain解释可以通过Gibbs Sampling来替代P(y|x)

可见一个人在经过10000天的旅行,他A,B,C三地的概率是稳定的,和他初始在哪个地点无关。即从在A时A→A,在B时B→A,在C时C→A的概率和等于P(A):

😭终于讲到markov了...

如果任意一个P(s|s') 不等于零,则这个马尔科夫链存在一个稳定的概率分布,但是充分不必要条件。

可见\(z^1,z^2,...,z^T\)组成一个Markov chain,因为每个\(z\)都只和前一个状态有关。所以只需要算这个Markov chain的稳定分布 (条件是所有条件概率都不为零) 的最大值对应的z即可。