交易所DEX+

抽金砖 & BTC2000g

通过结合状态空间模型（SSMs）与注意力机制的优势，SAMBA呈现了一种混合神经架构，实现了具有几乎无限上下文长度的高效、可扩展语言建模。在使用一致设置在SlimPajama上训练时，SAMBA在各种推理、理解和编码指标上超越了纯注意力基础和SSM基础的模型。该模型处理长达256K令牌的序列几乎无需微调，实现了卓越的速度和外推能力。通过结合状态空间模型（SSMs）与注意力机制的优势，SAMBA呈现了一种混合神经架构，实现了具有几乎无限上下文长度的高效、可扩展语言建模。在使用一致设置在SlimPajama上训练时，SAMBA在各种推理、理解和编码指标上超越了纯注意力基础和SSM基础的模型。该模型处理长达256K令牌的序列几乎无需微调，实现了卓越的速度和外推能力。

混合人工智能模型如何平衡记忆与效率

作者：Hackernoon

2025/10/28 17:13

AI$0.04391-1.81%

SPACE$0.1503-1.82%

FINE$0.000000000791-1.24%

链接表

摘要和1. 引言

方法论
实验和结果

3.1 在vQuality数据上的语言建模

3.2 关于注意力和线性递归的探索

3.3 高效长度外推

3.4 长上下文理解
分析
结论、致谢和参考文献

A. 实现细节

B. 额外实验结果

C. 熵测量详情

D. 局限性

A 实现细节

\ 对于滑动GLA架构中的GLA层，我们使用头数dm/384，键扩展比率为0.5，值扩展比率为1。对于RetNet层，我们使用的头数是注意力查询头数的一半，键扩展比率为1，值扩展比率为2。GLA和RetNet的实现来自Flash Linear Attention仓库[3] [YZ24]。我们使用基于FlashAttention的实现进行Self-Extend外推[4]。Mamba 432M模型的模型宽度为1024，Mamba 1.3B模型的模型宽度为2048。除非另有说明，所有在SlimPajama上训练的模型都具有相同的训练配置和与Samba相同的MLP中间大小。SlimPajama上的训练基础设施基于TinyLlama代码库的修改版本[5]。

\ 表10：在不同规模训练的SAMBA模型的详细超参数。我们仅展示3.8B模型第一训练阶段的优化设置。

\ 在下游任务的生成配置中，我们对GSM8K使用贪婪解码，对HumanEval使用核采样[HBD+19]，温度τ = 0.2和top-p = 0.95。对于MBPP和SQuAD，我们设置τ = 0.01和top-p = 0.95。

B 额外实验结果

\ 图6：Samba 1.7B和Mistral 1.6B模型在4K序列长度的密钥检索指令调优期间500步的训练损失曲线。我们使用窗口大小为10的简单移动平均绘制两个模型的损失曲线。

\ 图7：Samba 1.7B和Mistral 1.6B模型在指令调优500步期间在256K文档长度上的整体密钥检索准确率。

C 熵测量详情

D 局限性

尽管Samba通过指令调优展示了有希望的记忆检索性能，但其预训练基础模型的检索性能与基于SWA的模型相似，如图7所示。这为未来进一步提高Samba的检索能力而不损害其效率和外推能力开辟了方向。此外，Samba的混合策略在所有任务中并不始终优于其他替代方案。如表2所示，MambaSWA-MLP在WinoGrande、SIQA和GSM8K等任务上表现出改进的性能。这使我们有可能投资于更复杂的方法来执行基于SWA和基于SSM模型的输入依赖动态组合。

:::info 作者：

(1) Liliang Ren，微软和伊利诺伊大学厄巴纳-香槟分校 ([email protected])；

(2) Yang Liu†，微软 ([email protected])；

(3) Yadong Lu†，微软 ([email protected])；

(4) Yelong Shen，微软 ([email protected])；

(5) Chen Liang，微软 ([email protected])；

(6) Weizhu Chen，微软 ([email protected])。

:::

:::info 本论文可在arxiv上获取，采用CC BY 4.0许可。

:::

[3] https://github.com/sustcsonglin/flash-linear-attention

\ [4] https://github.com/datamllab/LongLM/blob/master/selfextendpatch/Llama.py

\ [5] https://github.com/jzhang38/TinyLlama

免责声明: 本网站转载的文章均来源于公开平台，仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利，请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证，并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考，不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。