首页 > 其他类型 > 重生2008：从助教逆袭为院士 > 第112章《Attention Is All You Need》

第112章《Attention Is All You Need》（2/2）

好书推荐：苟在家族修仙成祖你的标籤不错，我借来用用东京：非把我当做感情寄托么开局献祭垃圾系统靠游戏狂飙修为人在遮天，以符证道三国：开局劝刘备投降曹操武道长生，从死后强行夺舍开始斗罗：从伴生灵宝到功德天尊在世红尘仙凡人：从他化韩立开始

“我们只需要让它学会：关注。”

“在这个架构中，序列中任意两个位置之间的距离被缩短为1。”

“无论句子有多长，无论因与果相隔多少个字符，它们都能通过自注意力机制瞬间建立直接连接。”

“我们將不再受限於时间的顺序。”

“我们將同时看到过去、现在与未来。”

閔欣柔觉得自己的心跳漏了一拍。

难道————

这就是真正的人工智慧的钥匙？

沉默片刻后，她轻手轻脚的起身，去厨房泡了一杯咖啡，然后轻轻的放在桌子上。

若是平时吴辰至少会点头示意一下。

但此时他完全没有察觉。

他感觉自己的大脑在以前所未有的速度运转著。

编码器encoder，负责理解人类的输入————完成！

解码器decoder，负责生成回復——.——完成！

自注意力self—attention，负责捕捉字词之间的语义关联——完成！

交叉注意力cross—attention，负责连接输入与输出————完成！

那些曾经刻在他脑海深处的知识，在经过了几个月的沉淀后，终於迎来了绽放。

他完全不需要思考，因为他早已思考过无数遍。

他也不需要停顿，因为他不仅是在编写一篇文章和代码。

他是在復刻未来的文明。

但他也不是在默写。

相比2017年原始的transformer架构，他加入了几年后的一次改进。

他將层归一化（layernormalization）的位置，从残差连接之后（post—

ln），移到了残差连接之前（pre—ln）。

这只是一个微小的改进。

但它却彻底解决了深层网络难以训练的顽疾。

它让梯度的反向传播不再需要复杂繁琐的学习率预热，就能让模型在训练初期保持绝对的稳定。

终於，在他感觉精神力到达极限的时候，论文和代码同时完成了。

吴辰深吸一口气，敲下了最后一行代码。

returnlogits。

文件名：transformer—model.py。

这就是gpt—1的雏形。

他实现了完整的transformer库。

但在构建gpt模型时，吴辰还是果断拋弃了编码器，只保留了纯解码器架构（decoder—only）。

因为即使现在深圳的榛果电子已经在生產专用的计算卡，但性能还是和2025

年差距太大。

所以这样做可以显著减少模型参数量和计算复杂度，但功能却完全够用。

无论如何。

虽然它现在的参数量还很小。

虽然它还像个婴儿一样嗷嗷待哺。

但吴辰知道，那个属於人工智障的时代结束了。

硅基生命，有了它的第一缕神识。

这一刻，在这个2008年的狭小公寓里。

通往通用人工智慧的大门，被他提前九年，暴力踹开了。

叮铃铃。

当他双手离开键盘的剎那，手机的闹钟也响了起来。

吴辰拿过来一看，发现时间竟然已是早上六点，到了他每天起床锻炼的时间了。

与此同时，系统的声音也如期响起。

【恭喜宿主人工智慧等级提升！】

【人工智慧：1级（50%）—&gt;2级（0%）】

新书推荐：领证丟下我？我投喂女首富你哭啥洪荒：开局加入万界美女聊天群四合院：红红火火过日子综漫：无限造神，眷族雪乃霞之丘同时穿越：从神圣泰拉开始遮天：我以永生之门证大道从宁安如梦开始的诸天四合院：满级医术的我专治禽兽斗罗：永生蓝银皇，被天幕曝光了重生1982，从高考落榜开始

第112章 《Attention Is All You Need》（2/2）

第112章《Attention Is All You Need》（2/2）