提出了一种名为LongMem的语言模型增强长期记忆的框架,可以使大型语言模型记忆长期历史,并利用长期记忆进行语言建模。LongMem采用了一种新颖的解耦网络结构,将原始骨干语言模型冻结为记忆编码器,并使用自适应残差侧网络作为记忆检索器和读取器。实验结果表明,该方法在长期上下文建模基准测试中优于强长期上下文模型,并在记忆增强的上下文学习上取得了显着的改进。该方法对于帮助语言模型记忆和利用长期内容是有效的。
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun235179.html