第112章 《Attention Is All You Need》(2/2)
“我们只需要让它学会:关注。”
“在这个架构中,序列中任意两个位置之间的距离被缩短为1。”
“无论句子有多长,无论因与果相隔多少个字符,它们都能通过自注意力机制瞬间建立直接连接。”
“我们將不再受限於时间的顺序。”
“我们將同时看到过去、现在与未来。”
閔欣柔觉得自己的心跳漏了一拍。
难道————
这就是真正的人工智慧的钥匙?
沉默片刻后,她轻手轻脚的起身,去厨房泡了一杯咖啡,然后轻轻的放在桌子上。
若是平时吴辰至少会点头示意一下。
但此时他完全没有察觉。
他感觉自己的大脑在以前所未有的速度运转著。
编码器encoder,负责理解人类的输入————完成!
解码器decoder,负责生成回復——.——完成!
自注意力self—attention,负责捕捉字词之间的语义关联——完成!
交叉注意力cross—attention,负责连接输入与输出————完成!
那些曾经刻在他脑海深处的知识,在经过了几个月的沉淀后,终於迎来了绽放。
他完全不需要思考,因为他早已思考过无数遍。
他也不需要停顿,因为他不仅是在编写一篇文章和代码。
他是在復刻未来的文明。
但他也不是在默写。
相比2017年原始的transformer架构,他加入了几年后的一次改进。
他將层归一化(layernormalization)的位置,从残差连接之后(post—
ln),移到了残差连接之前(pre—ln)。
这只是一个微小的改进。
但它却彻底解决了深层网络难以训练的顽疾。
它让梯度的反向传播不再需要复杂繁琐的学习率预热,就能让模型在训练初期保持绝对的稳定。
终於,在他感觉精神力到达极限的时候,论文和代码同时完成了。
吴辰深吸一口气,敲下了最后一行代码。
returnlogits。
文件名:transformer—model.py。
这就是gpt—1的雏形。
他实现了完整的transformer库。
但在构建gpt模型时,吴辰还是果断拋弃了编码器,只保留了纯解码器架构(decoder—only)。
因为即使现在深圳的榛果电子已经在生產专用的计算卡,但性能还是和2025
年差距太大。
所以这样做可以显著减少模型参数量和计算复杂度,但功能却完全够用。
无论如何。
虽然它现在的参数量还很小。
虽然它还像个婴儿一样嗷嗷待哺。
但吴辰知道,那个属於人工智障的时代结束了。
硅基生命,有了它的第一缕神识。
这一刻,在这个2008年的狭小公寓里。
通往通用人工智慧的大门,被他提前九年,暴力踹开了。
叮铃铃。
当他双手离开键盘的剎那,手机的闹钟也响了起来。
吴辰拿过来一看,发现时间竟然已是早上六点,到了他每天起床锻炼的时间了。
与此同时,系统的声音也如期响起。
【恭喜宿主人工智慧等级提升!】
【人工智慧:1级(50%)—>2级(0%)】