神经⽹络可以计算任何函数的可视化证明 #

4rG9L89HnDU

本章其实和前面章节的关联性不大，所以大可将本章作为小短文来阅读，当然基本的深度学习基础还是要有的。

主要介绍了神经⽹络拥有的⼀种普遍性，比如说不管目标函数是怎样的，神经网络总是能够对任何可能的输入$x$，其值$f(x)$（或者说近似值）是网络的输出，哪怕是多输入和多输出也是如此，我们大可直接得出一个结论：

不论我们想要计算什么样的函数，我们都确信存在⼀个神经⽹络（多层）可以计算它

试想以下这种普遍性代表着什么，我觉得代表着做更多可能的事情（将其看做计算一种函数）：

比如将中文翻译成英文
比如根据⼀个mp4视频⽂件⽣成⼀个描述电影情节并讨论表演质量的问题
…

现实往往是残酷的，我们知道有这个网络存在，比如中文翻译成英文的网络，通常情况下想得往往不可得，网络在那里，但更可能我们得不到，怎么办？

前面我们知道，我们通过学习算法来拟合函数，学习算法和普遍性的结合是⼀种有趣的混合，直到现在，本书⼀直是着重谈学习算法，到了本章，我们来看看普遍性，看看它究竟意味着什么。

两个预先声明 #

在解释为何普遍性定理成⽴前，关于神经⽹络可以计算任何函数有两个预先声明需要注意一下：

这句话不是说⼀个⽹络可以被⽤来准确地计算任何函数，而是说，我们可以获得尽可能好的⼀个近似，通过增加隐藏元的数量，我们可以提升近似的精度，同时对于目标精度，我们需要确定精度范围：$|g(x)-f(x)|<\epsilon$，其中$\epsilon>0$
按照上⾯的⽅式近似的函数类其实是连续函数，如果函数不是连续的，也就是会有突然、极陡的跳跃，那么⼀般来说⽆法使⽤⼀个神经⽹络进⾏近似，这并不意外，因为神经⽹络计算的就是输⼊的连续函数

普遍性定理的表述：包含⼀个隐藏层的神经⽹络可以被⽤来按照任意给定的精度来近似任何连续函数

接下来的内容会使⽤有两个隐藏层的⽹络来证明这个结果的弱化版本，在问题中会简要介绍如何通过⼀些微调把这个解释适应于只使⽤⼀个隐藏层的⽹络并给出证明。

一个输入和一个输出的普遍性 #

先从一个简单的函数$f(x)$（即只有一个输入和一个输出）开始，我们将利用神经网络来近似这个连续函数：

第一章我们就探讨过多层感知机实现异或，这次同样的，我们加入一个隐藏层就可以让函数舞动起来，比如下面这个有一个隐藏层、两个隐藏神经元的网络：

第一步，暂时只考虑顶层的神经元，第一章也讲过S型神经元，所以输出范围类似上图右上角，重点看看这个S型函数，前面已经说过：

$$ \sigma(z) \equiv 1 /\left(1+e^{-z}\right) $$

其中：$z=wx+b$，参见右上角的图，让我们考虑一下几个情况：

当$x$不变，$b$逐渐增加的情况下，输出会在原来的基础上变大，图像会相对向左边运动，因为$w$没变，所以图像形状不会变

上述情况让$b$键减小，图像会右移，同样图像形状不变
当$b$不变，$w$减小，很显然，图像的陡峭程度会下降，反之亦然

下图是书中给出的图示：

其实我们完全可以自己绘制这个过程，利用Python的matplotlib可以很好地完成这个事情：

import matplotlib.pyplot as plt
import numpy as np

def sigmoid(w, b, x):
    return 1.0 / (1.0 + np.exp(-(w * x + b)))


def plot_sigmoid(w, b):
    x = np.arange(-2, 2, 0.1)
    y = sigmoid(w, b, x)
    plt.plot(x, y)

先看下$b$增减下图像的移动情况：

plt.figure(12)
plt.subplots_adjust(wspace=0.2, hspace=0.5)

plt.subplot(221)
# 绘制原始图像
plt.title("w = 8 b = -4")
w, b = 8, -4
plot_sigmoid(w, b)

plt.subplot(222)
# b增加的图像
plt.title("w = 8 b = 4")
w, b = 8, 4
plot_sigmoid(w, b)

plt.subplot(223)
plt.title("w = 8 b = 4")
w, b = 8, 4
plot_sigmoid(w, b)

plt.subplot(224)
# b减小的图像
plt.title("w = 8 b = 1")
w, b = 8, 1
plot_sigmoid(w, b)

plt.show()

再看下$w$增减下图像的伸缩情况：

plt.figure(12)
plt.subplots_adjust(wspace=0.2, hspace=0.5)

plt.subplot(221)
# 绘制原始图像
plt.title("w = 8 b = 4")
w, b = 8, 4
plot_sigmoid(w, b)

plt.subplot(222)
# w减小的图像
plt.title("w = 3 b = 4")
w, b = 3, 4
plot_sigmoid(w, b)

plt.subplot(223)
plt.title("w = 3 b = 4")
w, b = 3, 4
plot_sigmoid(w, b)

plt.subplot(224)
# w增加的图像
plt.title("w = 105 b = 4")
w, b = 105, 4
plot_sigmoid(w, b)

plt.show()

首先通过这两张图验证了上面的三点结论，最后可以看到我们得到的图像就像是一个阶跃函数

为什么需要千方百计地引出阶跃函数出来，这是因为在输出层我们在将所有隐藏神经元的贡献值叠加在一起的时候，分析阶跃函数比S型函数容易。我们该怎么做？结合前面的经验，只要将$w$设置成一个比较大的值，然后通过修改$b$就可以左右移动来定义阶跃函数的位置

思考下，阶跃发生的点在哪？让我们令$wx+b=0$，即可得出阶跃发生的点可以用$s=-b/w$进行表示，现在我们就可以使用$s$来极大简化我们描述神经元的方式

目前为止我们专注于仅仅从顶部隐藏神经元输出，让我们看看整个网络的行为，尤其，我们假设隐藏神经元在计算以阶跃点$s_1$（顶部神经元）和$s_2$（底部神经元参数化的阶跃函数，它们各自有输出权重$w_1$和$w_2$：

为何隐藏层的加权输出如上图，这理解一下，隐藏层的两个神经元的输出可以想象成阶跃函数，那么:

x小于0.4，输出肯定是0
x大于0.6，输出就是1.8
x介于两者之间，输出就是0.6

接下来，我们进行这样一个设置：

说明一下：

x小于0.4，输出肯定是0
x大于0.6，输出还是0
x介于两者之间，输出就是0.8

这边主要得出的一个结论是，我们可以通过$w_1,w_2$来定义加权输出图像中凸起的位置和高度，为了减少混乱，用一个参数$h$表示高度：

现在我们脑中应该有个清晰的概念，那就是对于神经元的加权输出组合$\sum_{j} w_{j} a_{j}$，我们可以通过对$s$和$h$的调整来控制输出函数，从而让加权输出变成我们心目中的输出

好了，说明结束，接下来看看最开始绘制出来而函数：

这个函数的表达式为：

$$ f(x)=0.2+0.4 x^{2}+0.3 x \sin (15 x)+0.05 \cos (50 x) $$

现在面临的问题是使用一个神经网络来计算它，前面我们着重分析了隐藏神经元输出的加权组合$\sum_{j} w_{j} a_{j}$，但是要注意，虽然我们经过参数的调整，得到了我们想要的目标函数，此时这个函数是隐藏神经元输出的加权组合$\sum_{j} w_{j} a_{j}$，但是实际上网络的输出是：$\sigma(\sum_{j} w_{j} a_{j}+b)$，也就是说：