第8章激活函数⚓︎

8.0 激活函数概论⚓︎

在这一章，我们将简要介绍一下激活函数，因为在下一章中将要使用激活函数构造两层的神经网络。

图8-1是神经网络中的一个神经元，假设该神经元有三个输入，分别为 $x_1,x_2,x_3$ ，那么：

$z=x_1 w_1 + x_2 w_2 + x_3 w_3 +b \tag{1}$$ $$a = \sigma(z) \tag{2}$

图8-1 激活函数在神经元中的位置

激活函数也就是 $a=\sigma(z)$ 这一步了，他有什么作用呢？

激活函数的基本性质：

在物理试验中使用的继电器，是最初的激活函数的原型：当输入电流大于一个阈值时，会产生足够的磁场，从而打开下一级电源通道，如图8-2所示。

图8-2 继电器的阶跃形态

用到神经网络中的概念，用‘1’来代表一个神经元被激活，‘0’代表一个神经元未被激活。

这个Step函数有什么不好的地方呢？主要的一点就是，他的梯度（导数）恒为零（个别点除外)。反向传播公式中，梯度传递用到了链式法则，如果在这样一个连乘的式子其中有一项是零，这样的梯度就会恒为零，是没有办法进行反向传播的。

激活函数用在神经网络的层与层之间的连接，神经网络的最后一层不用激活函数。

神经网络不管有多少层，最后的输出层决定了这个神经网络能干什么。在单层神经网络中，我们学习到了表8-1所示的内容。

表8-1 单层的神经网络的参数与功能

从上表可以看到，我们一直没有使用激活函数，而只使用了分类函数。对于多层神经网络也是如此，在最后一层只会用到分类函数来完成二分类或多分类任务，如果是拟合任务，则不需要分类函数。

简言之：

在后面的章节中，当不需要指定具体的激活函数形式时，会使用 $\sigma()$ 符号来代表激活函数运算。