神经网络基础——Sigmoid函数参数推导原理

前置知识

由于人工智能方向涉及较多数学知识,限于篇幅原因,作者无法将其列举完全,这里挑选几个较为重要的知识点作简要介绍。有些基础数学知识已经单独在其他文档中描述,这里不再赘述。如有疑问,欢迎评论或私信留言。

极大似然法

总体有分布率或密度函数,已知是参数空间。为取自总体的一个样本的观测值,将样本的联合分布率或联合密度函数看成是的函数,用表示,又称为的似然函数,即

称满足关系式

的解

的极大似然估计量。 当是可微函数时,求导是求极大似然估计最常用的方法。此时又因在同一个处取得极值,且对对数似然函数求导更简单,故我们常用如下对数似然方程

为几个未知参数组成的向量时,用如下对数似然方程组

求得的极大似然估计值。 当似然函数不可微时,也可以直接寻求使得达到最大的解来求的极大似然估计值。

泰勒公式

如果给定了在点具有所有前阶导数的函数,则称阶可导。则有

其中称为泰勒公式的余项,当充分大时,趋于0。 对泰勒公式求n阶导,其在处的值为

Logistic分布

是连续随机变量,服从Logistic分布是指具有下列分布函数和密度函数:

式中,为位置参数,为形状参数。Logistic函数是一条以点为中心对称的S型曲线

Logistic分布函数

Logistic密度函数

Sigmoid函数

Sigmoid函数是激励函数的一种,在神经网络中具有重要作用。其中的重要代表就是Logistic函数,为当位置参数,形状参数时的Logistic分布函数,表达式为

每一次进入神经网络节点的过程,都是先进行线性变换,再使用激励函数运算的过程。因此可有下式

联合得到

上式可变化为

Logistic回归

若将视为样本作为正例的可能性,则是其反例可能性,则有

参数估计

给定数据集,Logistic回归模型最大化对数似然

,则可简写为。根据事件的独立性,

经写者多方排查,上式在不同的书中结果是不一致的,主要代表为周志华的《机器学习》和李航的《统计学习方法》。周志华的《机器学习》可能是采用了全概率公式,推导过程有误,这里以李航《统计学习方法》的为准。 代入对数似然得

求在极大值时的等价于求在极小值时的,即

梯度下降法

梯度下降法又称最速下降法,是求解无约束最优化问题的一种最常用的方法,具有实现简单的优点,梯度下降法是迭代算法,每一步需要求解目标函数的梯度向量。

针对Sigmoid函数,要求解的无约束最优化问题是

表示目标函数的极小点。 梯度下降法是一种迭代算法。选取适当的初值,不断迭代,更新的值,进行目标函数的极小化,直到收敛。由于负梯度方向是使函数值下降最快的方向,在迭代的每一步,以负梯度方向更新的值,从而达到减少函数值的目的。

由于具有一阶连续偏导数,若第次迭代值为,可求得的梯度为:

给定一个精度,一般取较小值,当时,停止迭代。此时找到了符合精度要求的极小值解;否则,令新的点,继续迭代。

牛顿法

牛顿法基于一个二阶泰勒展开来近似附近的

其中是Hessian矩阵,详见神经网络基础——矩阵求导运算

给定精度,假设满足精度条件

则有

由上式可得迭代公式

拟牛顿法

牛顿法由于每次迭代都需要计算一次黑塞矩阵的逆矩阵,这一过程比较复杂。拟牛顿法的思想是构造一个近似矩阵来替代黑塞矩阵的逆。常用的算法有DFP算法(Davidon-Fletcher-Powell, DFP algorithm)、BFGS(Broyden-Fletcher-Goldfarb-Shanno, BFGS algorithm)、Broyden类算法(Broyden's algorithm)等。由于篇幅原因,这里不再赘述。后续另开篇幅单独介绍。

#神经网络##深度学习##机器学习#
全部评论

相关推荐

评论
1
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务