另一种替代transformer架构将得到有意义的采用。
引入自2017年谷歌的一篇重要论文中,transformer架构是当今人工智能技术中的主导范式。目前存在的每个主要生成式人工智能模型和产品,如ChatGPT、Midjourney、GitHub Copilot等,都是使用transformer构建的。
但是没有技术能永远保持主导地位。
在人工智能研究界的边缘,一些团队一直在努力开发新颖的、下一代的人工智能架构,这些架构在不同方面优于transformer。
这些努力的一个关键中心是克里斯·雷在斯坦福大学的实验室。雷和他的学生们工作的中心主题是构建一个新的模型架构,其随序列长度的增长呈次平方级别(而不是像变压器那样呈平方级别)。次平方级别的扩展将使人工智能模型更少地消耗计算资源,并且相对于transformer更能够处理长序列。雷实验室近年来的显著次平方级别模型架构包括S4、Monarch Mixer和Hyena。
最近最新的次二次方架构——也许是最有前途的——是曼巴。由两位Ré的门徒于上个月刚刚发布,曼巴在人工智能研究界引起了巨大轰动,一些评论者称其为“transformer的终结”。
除了transformer架构之外,其他构建替代方案的努力还包括麻省理工学院开发的液态神经网络和由变压器共同发明者之一领导的新创企业Sakana AI。
明年,我们预测这些挑战者架构中的一个或多个将突破并赢得真正的采用,从仅仅是研究新颖性转变为可信的替代人工智能方法,用于生产。
要明确的是,我们并不指望在2024年之前就淘汰transformer。它们是一种根深蒂固的技术,是世界上最重要的人工智能系统的基础。但我们预测,2024年将是创新型transformer替代方案成为真实世界人工智能应用的可行选择的一年。
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun271944.html