第133章 符號逻辑推理的数学模型(1/2)
做完报告的准备工作,距离前往波恩参加chabonnty会议,还有整整三周的时间。
这段时间,对於徐辰来说,显得有些尷尬。
cntt变换的推广,卡在了那个该死的“对数”项上,一时半会儿找不到突破口。
而重新开启一个新的课题?
三周时间,对於普通的“水论文”来说或许足够,但对於现在的徐辰而言,发一篇二区、三区的文章,已经毫无意义。
他的目標,至少是一区顶刊。
而一篇顶刊级別的论文,从选题、构思到证明、成稿,哪怕是他这样的“掛逼”,也不可能在三周內凭空变出来。
“这三周,总不能閒著吧?”
徐辰坐在研究室里,看著窗外燕园的春色,手指无意识地敲击著桌面。
他的目光,扫过系统物品栏。
那里,静静地躺著一份他之前抽到的4级物品——《具备逻辑推理与长时记忆模块的改进型大语言模型算法框架(laart)》。
自从上次看完这篇论文后,他就一直把它束之高阁。
一方面是因为当时忙著搞数论,没时间;另一方面,也是因为他对ai领域的知识储备,还远远不够。
“反正閒著也是閒著,不如……先把ai这块硬骨头给啃了?”
徐辰的心思活络了起来。
“而且,系统发布的那个『多维度的学者』主线任务,要求我在其他三门学科发表sci论文。ai,正好对应著『计算机科学』。”
“如果能把这篇laart论文吃透,再结合我现在的数学能力,发一篇计算机领域的顶刊,应该不是什么难事。”
“更重要的是,如果真的能把这个模型復现出来,哪怕只是一个简化版,它也能成为我科研路上的得力助手。”
想到这里,徐辰不再犹豫。
他打开电脑,登录了北大的图书馆资料库,开始疯狂地下载关於“深度学习”、“自然语言处理”、“图神经网络”、“符號逻辑”等领域的经典教材和前沿论文。
《深度学习》(花书)、《统计学习方法》、《强化学习导论》……
一本本厚重的电子书,被他拖进了阅读列表。
……
本书首发 读好书选 101 看书网,????????????.??????超讚 ,提供给你无错章节,无乱序章节的阅读体验
他先是用两天时间,將《深度学习》这本被誉为“ai圣经”的花书,从头到尾“扫描”了一遍。
对於普通计算机系的学生来说,这本书里的数学推导,比如反向传播算法中的链式法则、正则化中的拉格朗日乘子法,可能需要花上几个月去消化。
但对於数学等级已经达到lv.2巔峰的徐辰来说,这些东西,简直就像是小学生的加减乘除一样简单。
“所谓的神经网络,本质上就是一个高维空间中的非线性函数逼近器。”
“所谓的训练,就是在这个高维空间里,寻找一个能让损失函数最小化的点。”
“所谓的泛化,就是希望这个函数在没见过的数据点上,也能表现得足够好。”
徐辰一边看,一边在心里默默总结。
在他眼中,那些复杂的网络结构图,瞬间被还原成了最本质的数学公式。
……
然而,当他试图深入了解最新的大语言模型(llm)时,却发现了一个尷尬的问题。
书,不够看了。
ai领域的发展速度,实在是太快了。
传统的学术界,知识的沉淀和出版,往往需要几年的时间。一本教材从编写到出版,可能里面的技术就已经过时了。
而ai,尤其是大模型,几乎是以“周”为单位在叠代。
这种“工业界倒逼学术界”的现象,在ai领域尤为明显。
很多最前沿的技术,根本来不及写进书里,甚至来不及发表正式的论文,就已经被openai、google、meta这些科技巨头,直接应用到了產品中,或者以技术博客、开原始码的形式,扔到了github和hugging face上。
“看来,光看书是不行了。”
徐辰果断调整了策略。
他打开了coursera、udemy,以及b站,找到了几门由史丹福大学、吴恩达、李飞飞等顶级大佬开设的最新网课。
《cs224n:自然语言处理与深度学习》
《cs231n:卷积神经网络与视觉识別》
《生成式ai导论》
他开启了倍速播放,一边看,一边在脑海中构建著知识图谱。
徐辰学得飞快。
这得益於他那恐怖的数学底子。
……
在ai领域,有一条不成文的鄙视链:搞算法的看不起搞调参的,搞理论的看不起搞应用的。
而站在鄙视链顶端的,永远是那些数学功底深厚的人。
普通的ai工程师,可能只会调用pytorch或tensorflow的api,像搭积木一样搭建模型,然后对著一堆超参数进行“玄学”调优。他们知道“怎么做”,但往往不知道“为什么”。
而数学家,看到的则是更本质的东西。
他们看到的是流形上的概率分布,是高维空间中的几何结构,是优化算法的收敛性证明。
“ai人员的数学好,通常是指他们擅长线性代数、概率论和微积分,能看懂公式,能推导梯度。”
本章未完,点击下一页继续阅读。