01-26 17:25 已编辑常州大学 C++ 发布于四川

关注

神经网络基础——Sigmoid函数参数推导原理

前置知识

由于人工智能方向涉及较多数学知识，限于篇幅原因，作者无法将其列举完全，这里挑选几个较为重要的知识点作简要介绍。有些基础数学知识已经单独在其他文档中描述，这里不再赘述。如有疑问，欢迎评论或私信留言。

极大似然法

总体 $X$ 有分布率 $P(X=x;\theta)$ 或密度函数 $f(x;\theta)$ ，已知 $\theta\in\Theta$ ， $\Theta$ 是参数空间。 $(x_i)_{i=1}^n$ 为取自总体 $X$ 的一个样本 $(X_i)_{i=1}^n$ 的观测值，将样本的联合分布率或联合密度函数看成是 $\theta$ 的函数，用 $L(\theta)$ 表示，又称为 $\theta$ 的似然函数，即

\begin{aligned} L(\theta)&=\prod_{i=1}^nP(X_i=x_i;\theta)或\\ L(\theta)&=\prod_{i=1}^nf(x_i;\theta) \end{aligned}

称满足关系式

L(\hat\theta)=\max_{\theta\in\Theta}L(\theta)

的解

\hat\theta=\arg\max_{\theta\in\Theta}L(\theta)

为 $\theta$ 的极大似然估计量。当 $L(\theta)$ 是可微函数时，求导是求极大似然估计最常用的方法。此时又因 $L(\theta)$ 与 $\ln L(\theta)$ 在同一个 $\theta$ 处取得极值，且对对数似然函数 $\ln L(\theta)$ 求导更简单，故我们常用如下对数似然方程

\frac{d\ln L(\theta)}{d\theta}=0

当 $\theta$ 为几个未知参数组成的向量 $\mathbf\theta=(\theta_i)_{i=1}^k$ 时，用如下对数似然方程组

\begin{cases} \frac{\partial\ln L(\theta)}{\partial\theta_1}=0 \\ \frac{\partial\ln L(\theta)}{\partial\theta_2}=0 \\ \vdots \\ \frac{\partial\ln L(\theta)}{\partial\theta_k}=0 \end{cases}

求得 $\theta$ 的极大似然估计值。当似然函数不可微时，也可以直接寻求使得 $L(\theta)$ 达到最大的解来求的极大似然估计值。

泰勒公式

如果给定了在点 $x_0$ 具有所有前 $n$ 阶导数的函数 $f(x)$ ，则称 $f(x)$ 在 $x_0$ 处 $n$ 阶可导。则有

\begin{aligned} f(x)&=f(x_0)+f'(x_0)(x-x_0)+\frac12f''(x_0)(x-x_0)^2+\frac1{3!}f'''(x_0)(x-x_0)^3+\cdots+\frac1{n!}f^{(n)}(x_0)(x-x_0)^n+R_n(x)\\ &=\sum_{i=0}^n\frac{f^{(i)}(x_0)}{i!}(x-x_0)^i+R_n(x) \end{aligned}

其中 $R_n(x)$ 称为泰勒公式的余项，当 $n$ 充分大时， $R_n(x)$ 趋于0。对泰勒公式求n阶导，其在 $x_0$ 处的值为 $f^{(n)}(x_0)$ 。

Logistic分布

设 $X$ 是连续随机变量， $X$ 服从Logistic分布是指 $X$ 具有下列分布函数和密度函数：

\begin{aligned} F(x)&=P(X\le x)=\frac1{1+e^{-\frac{x-\mu}\gamma}}\\ f(x)&=F'(x)=\frac{e^{-\frac{x-\mu}\gamma}}{\gamma(1+e^{-\frac{x-\mu}\gamma})^2} \end{aligned}

式中， $\mu$ 为位置参数， $\gamma>0$ 为形状参数。Logistic函数是一条以点 $(\mu,\frac12)$ 为中心对称的S型曲线

Logistic分布函数

Logistic密度函数

Sigmoid函数

Sigmoid函数是激励函数的一种，在神经网络中具有重要作用。其中的重要代表就是Logistic函数，为当位置参数 $\mu=0$ ，形状参数 $\gamma=1$ 时的Logistic分布函数，表达式为

y=\frac{1}{1+e^{-z}}

每一次进入神经网络节点的过程，都是先进行线性变换，再使用激励函数运算的过程。因此可有下式

\begin{cases} z=\mathbf{w^T x}+b \\ y=\frac{1}{1+e^{-z}} \end{cases}

联合得到

y=\frac1{1+e^{-(\mathbf{w^T x}+b)}}

上式可变化为

\ln\frac{y}{1-y}=\mathbf{w^T x}+b

Logistic回归

若将 $y$ 视为样本 $\mathbf x$ 作为正例的可能性 $P(y=1|\mathbf x)$ ，则 $1-y$ 是其反例可能性 $P(y=0|\mathbf x)$ ，则有

\begin{aligned} P(y=1|\mathbf x)&=\frac1{1+e^{-(\mathbf{w^T x}+b)}}=\frac{e^{\mathbf{w^T x}+b}}{1+e^{\mathbf{w^T x}+b}}\\ P(y=0|\mathbf x)&=\frac1{1+e^{\mathbf{w^T x}+b}}\\ \ln\frac{P(y=1|\mathbf x)}{P(y=0|\mathbf x)}&=\mathbf{w^T x}+b \end{aligned}

参数估计

给定数据集 ${(\mathbf x_i,y_i)}_{i=1}^m$ ，Logistic回归模型最大化对数似然

\begin{aligned} LL(\mathbf w,b)&=\ln\prod_{i=1}^mP(y_i|\mathbf x_i;\mathbf w,b)\\ &=\sum_{i=1}^m\ln P(y_i|\mathbf x_i;\mathbf w,b) \end{aligned}

令 $\mathbf{\hat w}=\begin{bmatrix} \mathbf w \\ b \end{bmatrix},\hat{\mathbf x}=\begin{bmatrix}\mathbf x & 1\end{bmatrix}$ ，则 $\mathbf{w^T x}+b$ 可简写为 $\mathbf{\hat w^T\hat x}$ 。根据事件的独立性，

\begin{aligned} P(y_i|\mathbf x_i;\mathbf w,b)&=P(y=1|\hat{\mathbf x_i};\mathbf{\hat w})^{y_i}P(y=0|\hat{\mathbf x_i};\mathbf{\hat w})^{1-y_i}\\ &=\left(\frac1{1+e^{-\mathbf{\mathbf{\hat w}^T\hat x_i}}}\right)^{y_i}\left(\frac1{1+e^{\mathbf{\mathbf{\hat w}^T\hat x_i}}}\right)^{1-y_i} \end{aligned}

经写者多方排查，上式在不同的书中结果是不一致的，主要代表为周志华的《机器学习》和李航的《统计学习方法》。周志华的《机器学习》可能是采用了全概率公式，推导过程有误，这里以李航《统计学习方法》的为准。代入对数似然得

\begin{aligned} LL(\mathbf{\hat w})&=\sum_{i=1}^m\ln\left(\frac1{1+e^{-\mathbf{\mathbf{\hat w}^T\hat x_i}}}\right)^{y_i}\left(\frac1{1+e^{\mathbf{\mathbf{\hat w}^T\hat x_i}}}\right)^{1-y_i}\\ &=\sum_{i=1}^m[\mathbf{\hat w^T\hat x_i}y_i-\ln(1+e^{\mathbf{\mathbf{\hat w}^T\hat x_i}})] \end{aligned}

对 $LL(\mathbf{\hat w})$ 求在极大值时的 $\mathbf{\hat w}$ 等价于求 $-LL(\mathbf{\hat w})$ 在极小值时的 $\mathbf{\hat w}$ ，即

\begin{aligned} \mathbf{\hat w}&=\arg\max_{\mathbf{\hat w}}LL(\mathbf{\hat w}) =\arg\max_{\mathbf{\hat w}}\sum_{i=1}^m[\mathbf{\hat w^T\hat x_i}y_i-\ln(1+e^{\mathbf{\mathbf{\hat w}^T\hat x_i}})]\\ &=\arg\min_{\mathbf{\hat w}}(-LL(\mathbf{\hat w})) =\arg\min_{\mathbf{\hat w}}\sum_{i=1}^m[\ln(1+e^{\mathbf{\mathbf{\hat w}^T\hat x_i}})-\mathbf{\hat w^T\hat x_i}y_i] \end{aligned}

梯度下降法

梯度下降法又称最速下降法，是求解无约束最优化问题的一种最常用的方法，具有实现简单的优点，梯度下降法是迭代算法，每一步需要求解目标函数的梯度向量。

针对Sigmoid函数，要求解的无约束最优化问题是

\min(f(\mathbf{\hat w}))=\min(-LL(\mathbf{\hat w}))

$\mathbf{\hat w}^*$ 表示目标函数 $f(\mathbf{\hat w})$ 的极小点。梯度下降法是一种迭代算法。选取适当的初值 $\mathbf{\hat w}_0$ ，不断迭代，更新 $\mathbf{\hat w}$ 的值，进行目标函数的极小化，直到收敛。由于负梯度方向是使函数值下降最快的方向，在迭代的每一步，以负梯度方向更新 $\mathbf{\hat w}$ 的值，从而达到减少函数值的目的。

由于 $f(\mathbf{\hat w})$ 具有一阶连续偏导数，若第 $k$ 次迭代值为 $\mathbf{\hat w}_k$ ，可求得 $f(\mathbf{\hat w})$ 在 $\mathbf{\hat w}_k$ 的梯度为：

G(\mathbf{\hat w}_k)=\nabla f(\mathbf{\hat w}_k))=\frac{\partial f(\mathbf{\hat w}_k)}{\partial\mathbf{\hat w}_k}=\sum_{i=1}^m\left(\frac{1}{1+e^{-\mathbf{\mathbf{\hat w}_k^T\hat x_i}}}-y_i\right)\mathbf{\hat x_i}

给定一个精度 $\epsilon$ ，一般取较小值，当 $||G(\mathbf{\hat w}_k)||<\epsilon$ 时，停止迭代。此时找到了符合精度要求的极小值解 $\mathbf{\hat w}^*=\mathbf{\hat w}_k$ ；否则，令新的点 $\mathbf{\hat w}_{k+1}=\mathbf{\hat w}_k-\epsilon G(\mathbf{\hat w}_k)$ ，继续迭代。

牛顿法

牛顿法基于一个二阶泰勒展开来近似 $\mathbf{\hat w}_0$ 附近的 $f(\mathbf{\hat w})$ ：

\begin{aligned} f(\mathbf{\hat w})&\approx f(\mathbf{\hat w}_0)+(\mathbf{\hat w}-\mathbf{\hat w}_0)^T\nabla f(\mathbf{\hat w}_0)+\frac12(\mathbf{\hat w}-\mathbf{\hat w}_0)^T\nabla^2f(\mathbf{\hat w}_0)(\mathbf{\hat w}-\mathbf{\hat w}_0)\\ &\approx f(\mathbf{\hat w}_0)+(\mathbf{\hat w}-\mathbf{\hat w}_0)^T\sum_{i=1}^m\left(\frac{1}{1+e^{-\mathbf{\mathbf{\hat w}_k^T\hat x_i}}}-y_i\right)\mathbf{\hat x_i}+\frac12(\mathbf{\hat w}-\mathbf{\hat w}_0)^T\left[\sum_{i=1}^m\frac{e^{\mathbf{\mathbf{\hat w}_k^T\hat x_i}}}{(1+e^{\mathbf{\mathbf{\hat w}_k^T\hat x_i}})^2}\mathbf{\hat x}_i\mathbf{\hat x}_i^T\right](\mathbf{\hat w}-\mathbf{\hat w}_0) \end{aligned}

其中 $H(f(\mathbf{\hat w}_0))=\nabla^2 f(\mathbf{x_0})$ 是Hessian矩阵，详见神经网络基础——矩阵求导运算

给定精度 $\epsilon$ ，假设 $\mathbf{\hat w}_{k+1}$ 满足精度条件

0\approx G(\mathbf{\hat w}_{k+1})=\nabla f(\mathbf{\hat w}_{k+1})<\epsilon

则有

G(\mathbf{\hat w}_k)\approx((\mathbf{\hat w}_{k+1}-\mathbf{\hat w}_k)^T)^{-1}(f(\mathbf{\hat w}_{k+1})-f(\mathbf{\hat w}_k))\approx\nabla f(\mathbf{\hat w}_k)+\frac12\nabla^2f(\mathbf{\hat w}_k)(\mathbf{\hat w}_{k+1}-\mathbf{\hat w}_k)\approx0

由上式可得迭代公式

\mathbf{\hat w}_{k+1}=\mathbf{\hat w}_k-2H(f(\mathbf{\hat w}_0))^{-1}G(\mathbf{\hat w}_k)

拟牛顿法

牛顿法由于每次迭代都需要计算一次黑塞矩阵的逆矩阵，这一过程比较复杂。拟牛顿法的思想是构造一个近似矩阵 $N$ 来替代黑塞矩阵的逆 $H^{-1}$ 。常用的算法有DFP算法(Davidon-Fletcher-Powell, DFP algorithm)、BFGS(Broyden-Fletcher-Goldfarb-Shanno, BFGS algorithm)、Broyden类算法(Broyden's algorithm)等。由于篇幅原因，这里不再赘述。后续另开篇幅单独介绍。