第十六章深度学习中的结构化概率模型

深度学习为研究者们提供了许多建模方式,用以设计以及描述算法。其中一
种形式是结构化概率模型(structured probabilistic model)的思想。我们曾经在第3.14 节中简要讨论过结构化概率模型。此前简要的介绍已经足够使我们充分了解如何使用结构化概率模型作为描述第二部分中某些算法的语言。现在在第三部分,我们可以看到结构化概率模型是许多深度学习重要研究方向的关键组成部分。作为讨论这些研究方向的预备知识,本章将更加详细地描述结构化概率模型。章内容是自洽的,所以在阅读本章之前读者不需要回顾之前的介绍。结构化概率模型使用图来描述概率分布中随机变量之间的直接相互作用,从而描述一个概率分布。在这里我们使用了图论(一系列结点通过一系列边来连接)中‘‘图’’ 的概念,由于模型结构是由图定义的,所以这些模型也通常被称为图模型(graphical model)。
非结构化建模的挑战
深度学习的目标是使得机器学习能够解决许多人工智能中亟需解决的挑战。这也意味着它们能够理解具有丰富结构的高维数据。举个例子,我们希望AI的算法能够理解自然图片1,表示语音的声音信号和包含许多词和标点的文档。我们也可以使用概率模型完成许多其他的任务。这些任务通常相比于分类成本更高。其中的一些任务需要产生多个输出。大部分任务需要对输入数据整个结构的完整理解,所以并不能舍弃数据的一部分。这些任务包括以下几个:
图片说明
图片说明
图片说明
图片说明
通常意义上讲,如果我们希望对一个包含n 个离散变量并且每个变量都能取k
个值的x 的分布建模,那么最简单的表示P(x) 的方法需要存储一个可以查询的表格。这个表格记录了每一种可能值的概率,则需要kn 个参数。
图片说明
图片说明
使用图描述模型结构
使用图来描述概率分布中相互作用的方法不止一种。在下文中我们会介绍几种最为流行和有用的方法。图模型可以被大致分为两类:基于有向无环图的模型和基于无向图的模型。
图片说明
图片说明
图片说明
基于能量的模型
图片说明
从图模型中采样
有向图模型的一个优点是,可以通过一个简单高效的过程从模型所表示的联合分布中产生样本,这个过程被称为原始采样(Ancestral Sampling)。
图片说明
图片说明
结构化建模的优势
使用结构化概率模型的主要优点是它们能够显著降低表示概率分布、学习和推断的成本。有向模型中采样还可以被加速,但是对于无向模型情况则较为复杂。选择不对某些变量的相互作用进行建模是允许所有这些操作使用较少的运行时间和内存的主要机制。图模型通过省略某些边来传达信息。在没有边的情况下,模型假设不对变量间直接的相互作用建模。
结构化概率模型允许我们明确地将给定的现有知识与知识的学习或者推断分开,这是一个不容易量化的益处。这使我们的模型更容易开发和调试。我们可以设计、分析和评估适用于更广范围的图的学习算法和推断算法。同时,我们可以设计能够捕捉到我们认为数据中存在的重要关系的模型。然后,我们可以组合这些不同的算法和结构,并获得不同可能性的笛卡尔乘积。然而,为每种可能的情况设计端到端的算***更加困难。
学习依赖关系
图片说明
图片说明
推断和近似推断
图片说明
图片说明
结构化概率模型的深度学习方法
深度学习从业者通常与其他从事结构化概率模型研究的机器学习研究者使用相同的基本计算工具。然而,在深度学习中,我们通常对如何组合这些工具作出不同的设计决定,导致总体算法、模型与更传统的图模型具有非常不同的风格。深度学习并不总是涉及特别深的图模型。在图模型中,我们可以根据图模型的图而不是计算图来定义模型的深度。如果从潜变量hi 到可观察变量的最短路径是j步,我们可以认为潜变量hj 处于深度j。我们通常将模型的深度描述为任何这样的hj 的最大深度。这种深度不同于由计算图定义的深度。用于深度学习的许多生成模型没有潜变量或只有一层潜变量,但使用深度计算图来定义模型中的条件分布。深度学习基本上总是利用分布式表示的思想。即使是用于深度学习目的的浅层模型(例如预训练浅层模型,稍后将形成深层模型),也几乎总是具有单个大的潜变量层。深度学习模型通常具有比可观察变量更多的潜变量。变量之间复杂的非线性相互作用通过多个潜变量的间接连接来实现。
图片说明

#深度学习#
全部评论

相关推荐

评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务