首页 > 精品推荐 > 重生2008：从助教逆袭为院士 > 第112章《Attention Is All You Need》

第112章《Attention Is All You Need》（1/2）

好书推荐：综漫：从骨王开始的原罪之主北电第一怪人，出山了！ 1885，我来拯救希腊斗罗龙王：都封号斗罗了才来系统葬天棺！魔女，请自重！华娱春秋，我的女友都是顶流盗三界联盟：满属性的我，随机降临S赛邪修与冒险者日志

第112章《attention is all you need》

科学发展史上有许多篇章，其诞生便宣告著一个旧时代的终结与新时代的开启。

《自然哲学的数学原理》，牛顿。

他奠定了经典力学的基石，让人类第一次以此丈量宇宙。

《论动体的电动力学》，爱因斯坦。

他重塑了人类的时空观，告诉我们时间与空间並非恆定不变。

而2017年的《attentionisallyouneed》中提出的transformer架构，开启了生成式人工智慧（aigc）与大语言模型（llm）的黄金时代。

可谓没有transformer，人工智慧万古如长夜。

在它之前，自然语言处理（nlp）领域长期处於黑暗的摸索期，採用cnn或rnn

的方法。

cnn，即卷积神经网络，好处是计算效率高，可以並行处理，善於捕捉局部特徵。

rnn，即循环神经网络及其变体lstm，好处是天生適应序列数据，能按顺序理解上下文。

但它们的坏处也同样明显。

cnn看不远，它难以捕捉长距离的词语关係。

rnn跑不快，並且必须读完前一个词才能读下一个词，无法並行计算，一旦句子太长，就会出现梯度消失，导致机器阅后即焚，读了后面忘了前面。

总之它们的根本局限在於，信息在序列中必须一步一步地传递。

这种固有的顺序性成为了处理长序列、捕捉全局上下文的瓶颈。

而transformer架构，就是为了解决模型又慢又忘的绝症。

它的原理说复杂，那確实很复杂。

比如多头注意力机制（multi—headattention）、位置编码（positional

encoding）和前馈神经网络（feed—forwardnetworks）。

但它的核心能力，其实也非常简单。

就是字面意思：

翻译。

把人类的语言，翻译成计算机能读懂的数字，然后计算这些数字之间的关係。

它不再像小学生读书那样一个字一个字地读，而是一眼看完整篇文章，然后把注意力（attention）集中在那些最关键的词与词的联繫上。

它和word2vec的关係，是砖块与建筑的关係。

word2vec负责將人类的语言变化为数字砖。

而transformer负责將这些砖块搭建成有意义的摩天大楼。

最终达成的效果，就是可以精確的计算一个长句子中，每个词与其他词之间的关係。

这里面的重点，是：长句子。

对应的解法，是：长距离依赖。

比如下面这句话。

thecatateafishbecauseitwashungry。

翻译：这只猫吃了一条鱼，因为它饿了。

对人类来说，看到“它饿了”这三个字中的它，可以非常轻鬆的知道它指的就是猫。

但对机器来说，这个它指的到底是猫还是鱼，是不明確的。

必须要计算才能得出结果。

而计算的方法，就是transformer中的自注意力机制（self—attention）。

通过计算每个词和其他词之间的关係，就能知道它和谁距离更近。

比如在这里计算出“它”和“猫”离的更近，关注度权重（atttion

weight）更高。

那么机器就知道，这个它指的是猫，而不是鱼。

当然这里面的逻辑计算十分复杂，並非几句话可以说清楚的。

在吴辰疯狂敲击著键盘的时候，閔欣柔也不由自主的看了几眼。

不过很快她就发现自己思考的速度，还跟不上吴辰打字的速度。

一个个矩阵变换公式如流水般从他的指尖下翻涌到了屏幕上。

閔欣柔完全看不懂。

但吴辰写在其中的一段解释，她看懂了。

“只要算力足够，模型就能无限堆叠。只要数据足够，机器就能在数学空间里涌现出智慧。”

“我们不再需要教机器语法。”

本章未完，点击下一页继续阅读。

新书推荐：华娱从天仙青梅竹马开始 1级1个神被动，枪炮师也能屠神鬼灭：霜界降临，冰结遗憾年代：岁月人生从民国开始人在街霸东京，怪猎系统来了港片：老爸卧底，你让我当龙头？火影：从夺取龙脉开始穿梭时空当兵你不捲，那当什么全军标兵？学霸有海克斯，这科技树能不歪？五代太平年

第112章 《Attention Is All You Need》（1/2）

第112章《Attention Is All You Need》（1/2）