AI的十种新数学AI科技评论

整理

智源社区贾伟编辑

陈彩娴近期，在智源研究院成立两周年之际举办的“智源论坛”中，北京大学教授、智源学者林伟提出这样一个问题：人工智能到底能不能够激发新数学的发展？对这一问题，他给出“人工智能的十种新数学”的回答。随后并邀请智源研究院不同研究领域的六位科学家，对如何将AI理论与AI应用相结合的问题进行激烈且深度的探讨。整个研讨分为两部分，首先由北京大学教授林伟做引导报告《人工智能新数学》，随后七位学者围绕多个问题进行辩论。从左到右：林伟、余山、邓柯、董彬、明平兵、邵嗣烘、林宙辰1人工智能的十种新数学12:09以下是林伟教授的报告内容整理：林伟：我常常被问到，人工智能到底能不能够激发新数学的发展，这种新数学在做基础数学的人看来不一定是新的，但可能跟一些我们意想不到、不那么常用在智能领域的数学分支发生联系？我对这个问题做了些思考，大概收集十个方向。首先，有四个部分知识大概是我们在人工智能领域里用得比较多的：一个是概率论、数理统计；一个是数值代数、数值分析、最优化；一个是经典分析、函数论，比如深度学习里很重要的一块是知道逼近论的知识；还有计算机科学基础，包括离散数学、理论计算机科学。我在这里把它们归为“旧”数学，但这个“旧”不是说它不重要；对学生来说，仍然是最应该掌握、最核心的工具。那么相对于“旧数学”，我总结了人工智能的十种“新数学”。01泛函分析我们的深度神经网络，是有限的神经元；但如果我们要研究它的逼近能力，就不能假设真实的数据是来自于这样一个有限的模型，因为真实世界是非常复杂的。所以我们往往需要去定义一个适当的函数类。真实数据应该来自于哪个函数类？这篇文章定义了一个宽度为无穷宽的极限，这构成了一个数学上讲的“巴拉克空间”，我在这上面再来发展一些数学理论。02群表示论与范畴论这个大家可能非常陌生，但是为什么放在这里呢？实际上这两个分支不太一样，但是它们都是现代的代数学的一些方向。为什么人工智能里面需要“群表示论”？所谓的“群”，它可以表示对称性，现在神经网络里面参数非常多，甚至多达多万个，这里面有很多冗余性，我们通过对称性可以定义一些对称群，在某些变换下，很多神经网络本质上是等价的，我们可以通过这种群表示论，用双线性变换或者矩阵来表示“群”的方法来研究神经网络中的对称性。范畴论更加抽象一点。这里是个例子，它是用范畴论里的函子来描述反向传播算法。范畴论很简单，也很抽象，它为什么可以很自然用在神经网络里？主要因为它很适合用来研究函数的复合。深度神经网络的特征是一层一层复合上去的结构，所以这也是一个比较抽象，但有一定潜力的理论。03微分几何这个大家相对来说比较熟悉一些，这是基于大家都比较熟悉的一个假设——“流形分布假设”，比如手写识别的数据，大多数情况下我们相信它分布在流形上面，我们可以利用微分几何流形上的数学来研究它从输入到输出之间的关系。比如上面这篇文章考虑了对称生成对抗网络与流形的一些关系。04代数几何这是基础数学非常核心的分支，但是很少听说代数几何在人工智能里面还有用处，我也是查了文献才知道。这是“热带几何”，是代数几何的一种变体。为什么神经网络里可以用到这个代数几何？因为ReLU函数是{X,0}取大，通过这个取大操作以及加法、减法，定义了一些热带几何上的预算，通过这几种预算，我们就可以定义一种多项式。我们知道代数几何是研究多项式的几何，所以我们神经网络就可以用这种形式的代数几何来描述。05随机矩阵接下来逐渐从抽象向应用走。随机矩阵是大家用得比较多的一个工具。神经网络里面，一个大型的神经网络，在某种情况下它的权值比较接近随机分布，我们可以用随机矩阵理论来刻画它的谱的性质。我们知道对于某些分布，系数不同时会有不同的谱分布。大型神经网络里是否也有这样规律现象？我们可以用随机矩阵理论刻画神经网络的预测和学习性能。06最优传输最优传输，近两年也非常火，主要因为它特别适合用来描述对抗生成网络（GAN）里面的问题。最优传输，有非常悠久的历史，现在仍然是数学里面非常核心的一个方向。简单来说，最优传输的问题便是，有两个概率分布，怎样从一个概率分布迁移到另外一个概率分布？所以它也叫“推土机”，类似推土机一样把分布以最小的代价变成另外一个概率分布；目标是要解一个问题，每一点移动有一个代价，要使得这个移动总代价是最低的。这个形式非常广泛，它在经济学、运筹学里面有很多用处，在图像处理里面，特别是GAN里面有很多应用。07动力系统与随机分析动力系统主要是指稳定性的内容，比如上面这篇文章是用相平面图来研究ResNet里面动力学的稳定性。还有随机动力系统。随机动力系统比较常用的一个问题是随机梯度下降，随机梯度下降本身是比较难研究的，也是现在深度学习理论研究里面的一个瓶颈之一。但是我如果把它加一个人为的噪声，比如这个η，变成带了噪声以后的迭代，叫“随机梯度郎之万动力学”，这样可以有些比较好的理论分析，特别是它在解一些问题时可以有一些很好的结果。08统计物理与非线性科学这是一个比较大的领域，这里举两个例子。最近有这样一个工作，两层神经网络可以做一个平均场近似，平均场方法几乎是物理学家的法宝，任何情况下都可以做一个平均场近似，大部分情况下都work得比较好。对于两层无穷宽的神经网络，我们可以平均掉一些效果，这就可以得到一个比较好的跟实际效果吻合的预测。非线性研究里还有很多研究混沌、分形几何之类的。举例来说，上图第二项工作是用随机梯度下降训练的轨道的分形维数来控制复杂度，由此可以得到一些泛化。09信息论我们用的很多工具来自信息论，但是信息论领域很大，里面有一些内容我们不太经常用，特别是跟编码有关的。这里我举一个“信息瓶颈方法”，这是我们比较少接触的；还有“最大编码率降低原理”，是从信息论或者编码理论里面出来的一些方法。10博弈论这个可能还有更多应用，但据我所了解，在可解释性AI里面有一个比较有名的方法叫Shapley值法。Shapley在年获得诺贝尔经济学奖，不过他提出这个方法是在年。这个想法很简单，对一个黑箱的算法，要去看黑箱里的变量是怎么work的，以及哪些变量重要的。给它做一个可视化，可以假设这些变量之间在进行搏弈，在争夺对Response的某种payoff。在这个搏弈过程中，我们想办法把它们的贡献分配给这些变量。以上是简单给大家介绍这些我们平时不太会想到的工具。因为我们用惯了概率统计或者数值、或者理论计算机方面的工具，不太想接触更多工具，这里提供一些启发性的数学内容。2“AI理论”如何推动“AI应用”？人工智能发展到现在，许多人希望能够建立一套完善的人工智能理论基础；只有这样，人工智能才可能成为一门独立的、成熟的学科。但理论应该

转载请注明：http://www.abuoumao.com/hyfz/6019.html

上一篇文章：界面新消费论坛丨爱康集团刘宁有人管的

下一篇文章：成龙徐克吴京共谈动作电影动作是情感的表现