Jamba 1.5系列模型:非 Transformer 模型首次追上先进模型
AI21 推出了新的 Jamba 1.5 模型家族,包括 Jamba 1.5 Mini 和 Jamba 1.5 Large,这些模型采用了创新的 SSM-Transformer 架构。
这是第一次非 Transformer 架构的模型追上市场上领先的其他 Transformer 模型。
- 256K 的有效上下文窗口
- 长文本速度快 2.5 倍,同尺寸最快
- 本地支持结构化的 JSON 输出、函数调用
- 除了英语之外支持多种其他语言
他们还开发了一个专门针对 MoE 模型的量化方案ExpertsInt8。这项技术提供了四个优势:
- 速度快,量化过程只需几分钟;
- 不依赖于校准,这一有时不稳定的过程通常需要几个小时或几天;
- 仍然可以使用 BF16 来保存大规模激活;
- 允许 Jamba 1.5 Large 适配单个 8 GPU 节点,同时利用其 256K 的完整上下文长度。
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun299406.html