第517章 徐教授的第三节课 三 未来AI的灵感(1/2)
他沿著未名湖边的石板路慢慢走著,暮色已经开始把湖面染成一种深沉的蓝灰色。
身边偶尔有学生经过,有人认出了他,小声跟同伴嘀咕了一句什么,然后快步走开。
徐辰没怎么在意。
他还在想课堂上说过的那句话。
“做数学,计算能力决定下限,品味决定上限。”
当年那位被誉为“代数几何教皇”的亚歷山大·格罗滕迪克,就是一个极端的例子。传闻有一次在学术討论中,有人请他举一个具体的素数作为例子,他隨口答道:“那就57吧。”显然,57等於3乘19,根本不是素数。
这个著名的“格罗滕迪克素数”笑话,恰恰说明了他对具体的数值计算毫无兴趣,甚至极其迟钝。但这丝毫不影响他的伟大,因为他从不在泥潭里和具体的数字、方程肉搏,而是热衷於建立极其抽象的概形理论。他就像是站在几万米的高空俯瞰整个数学版图,凭藉著那种对几何与代数深层结构的极致“品味”,直接用结构主义重塑了整个二十世纪的数学基石!
反观某些只会拿著纸笔死磕,试图手算几十页偏微分方程误差项的苦力型学者,哪怕算到头禿、熬到肝硬化,往往也就勉强能在二区期刊上水篇论文。
这找谁说理去?品味这东西,就是学术界最不讲道理的阶级壁垒。
他当时说这话,是在给学生讲商结构和等价关係,是在聊一个数学家怎么决定忽略什么、保留什么。
但当这句话从他自己嘴里说出来,落进他自己耳朵里,他突然觉得这句话不只是在说数学,更是在说另一件事。
他似乎在说诸葛架构。
……
徐辰在湖边的一张长凳上坐下,掏出隨身携带的小本子。
目前诸葛架构的核心问题,归根结底是灵感模块不够强。
他快速拆解了这个问题:当前的架构里,transformer处理灵感的方式,本质上是归纳法。它在训练中见过无数数学材料,见过千万种证明风格,因此当遇到新问题时,能通过类比和联想,推测“最像能成功的方向“。
这就像考前背了大量例题,然后在考场上靠“这道题感觉像之前做过的“来解题。
这种方法在参数量够大时效果惊人,但有根本性的局限:它依赖於“已经见过类似的“。一旦面对n-s方程这种前无古人的问题,统计上“最像成功“的方向,未必就是“逻辑上最正確“的方向。这也是为什么诸葛架构在imo常规题表现尚可,但遇到那道超纲第六题就只能靠slrm暴力穷举。
那么,另一种灵感应该是什么?
徐辰想起了今天课上的话:数学品味的体现,不是“我好像见过类似的“,而是对底层数学原理的深度认知,去感知“这个问题的结构,最自然地应该收敛到哪里“。
一个顶级数学家的灵感,不是基於“见过多少案例“,而是基於“对底层数学公理的理解有多深“。当他看到全新问题,他的直觉是“在这个约束结构下,最优雅的分解方式应该是某种对称性破缺“,或者“这个边界行为,在泛函空间里只能对应一种紧性条件“。
就像当年爱因斯坦在构思广义相对论时,他不是因为“看过了很多苹果掉在地上的视频”才想出引力场方程的。他是先在脑海中確立了等效原理这个不可动摇的物理品味,然后四处寻找能適配这种品味的数学工具,最终精准地锁定了黎曼几何的张量分析。
这是演绎,不是归纳。
前者在用概率分布猜“最像正確的方向”;后者在用数学原理演绎出“必然是正確的方向”。
而诸葛架构目前的灵感模块,还停留在前者。
……
徐辰停下笔,盯著本子上的“归纳“和“演绎“这两个词。
本章未完,点击下一页继续阅读。