69书吧最新网址:www.69hao.com
首页 > 精品推荐 > 学霸的征途是星辰大海 > 第165章 重启SLRM研究 一

第165章 重启SLRM研究 一(1/2)

目录
好书推荐: 梁朝九皇子 救命!高冷女总裁赖在我家不走了 六零年代,冷清妍的逆光人生 四合院,傻柱你爸被你哥送去当兵 大唐:让你教太子,没让你套麻袋 四合院我能无限合成 人在玄幻,给我无限弹药什么鬼 末日车队,让子弹在公路上飞一会 序列车队:求生纪元 家族修仙:从打下小型位面开始

忙完了这些琐事,徐辰的生活重新回归平静。

徐辰的思绪,重新回到了那个被他暂时搁置的ai项目——laart(逻辑增强型大语言模型)。

在去德国之前,他利用学校计算中心的资源,跑通了laart模型的第一个核心模块——slrm(符號逻辑推理模块)。那个demo虽然简陋,但却在clutrr逻辑推理数据集上,跑出了惊人的95.12%的准確率。

这个成绩,足以让任何一个ai研究者疯狂。

但徐辰並不满意。

“95%……还不够。”

徐辰坐在研究室里,盯著屏幕上那个复杂的网络结构图,眉头微蹙。

“这只是一个『拼凑』出来的结果。gumbel-box虽然解决了梯度截断的问题,但它在高维空间中的拓扑性质,依然不够完美。”

……

他想起了transformer架构的发展史。

2017年,google brain团队提出了transformer。那是一个划时代的架构,但它並非完美无缺。

最初的transformer,使用的是绝对位置编码。后来,人们发现这种编码方式在处理长文本时效果不佳,於是有了相对位置编码,再后来又有了旋转位置编码。

最初的attention机制,计算复杂度是o(n^2),隨著序列长度增加,计算量呈指数级爆炸。於是,人们发明了稀疏注意力、线性注意力、闪电注意力……

每一个组件,都在不断的叠代中进化。

“transformer之所以强大,是因为它的每一个组件——注意力机制、前馈网络、归一化、激活函数——虽然单独拿出来都有明確的数学定义,但当它们被堆叠成几百层、拥有几千亿参数后,它们之间的相互作用,会產生极度复杂的非线性动力学。”

“这种动力学,目前还没有任何数学工具能够精確预测。”

“所以,ai领域才会有那么多『炼丹师』。大家都在试,都在猜,都在赌。”

事实上,transformer本身就是一个典型的“学术成果”。在它诞生之初,虽然在机器翻译任务上取得了sota,但並没有人预料到它会成为后来大语言模型(llm)的基石。它只是证明了“自注意力机制可以替代循环神经网络(rnn)”这条路是走得通的。

真正让transformer爆发威力的,是后来openai的gpt系列、谷歌的bert系列,以及无数工程师在海量数据和算力上的疯狂堆叠与调优。是工业界的工程化能力,將这个学术上的“好点子”,变成了改变世界的“核武器”。

……

徐辰的slrm模块,其实也是类似的情况,也是一个学术上证明能走通的路线。

slrm模块,本质上是给transformer打的一个“补丁”。

如果把transformer比作人类大脑中的“快系统”,负责直觉、联想和快速生成;那么slrm就是那个冷静、严谨的“慢系统”,负责逻辑校验、推理和纠错。

当transformer想要“胡说八道”时,slrm会通过几何计算,冷酷地告诉它:“逻辑不通,闭嘴。”

本章未完,点击下一页继续阅读。

目录
新书推荐: 刚长征,手下晋西北三巨头 斗罗:终极之混沌清玄 转职放贷人,上交国家后薅遍全球 哈利波特之兴风作浪 羽银夜第29本书 排球:全员起飞,从乌野开始 我在诡异世界叠BUFF! 后海的咸鱼开了家酒吧 隔壁世界的神兽全在我的猫咖里 娱乐:被分手后,我演反派成顶流
返回顶部