扫描下载APP
其它方式登录
Nous Research团队提出Token Superposition Training(TST)方法,通过预训练早期采用词元叠加与粗粒度学习,显著降低算力消耗:在百亿参数MoE模型上实现GPU时间降至基线38.7%,同时降低loss并提升多项下游评测指标。该方法不修改模型架构或推理流程,仅优化训练路径,为AI模型预训练提供轻量、即插即用的提效新范式。