TST_TST相关新闻_TST动态_火星财经

Nous Research,TST,预训练

Hermes团队改写预训练：算力成本降六成，DeepSeek之后提效新路径

Nous Research团队提出Token Superposition Training（TST）方法，通过预训练早期采用词元叠加与粗粒度学习，显著降低算力消耗：在百亿参数MoE模型上实现GPU时间降至基线38.7%，同时降低loss并提升多项下游评测指标。该方法不修改模型架构或推理流程，仅优化训练路径，为AI模型预训练提供轻量、即插即用的提效新范式。

AI前线05月15日 20:58

暂无内容

推荐专题

DeFi：去中心化金融机制与演化2024-12-16 13:16

AI × Crypto：应用与市场进展2023-11-29 11:36

RWA：现实资产上链进程2024-12-16 13:40

DeSci：去中心化科研的探索与实践2024-11-18 10:58

空投策略：链上机会追踪2024-09-02 14:06

热门新闻

ZachXBT,黄立成,Hyperliquid

ZachXBT「塌房」疑云Foresight News

Binance,美股,Alpaca Securities

Binance美股交易初体验：操作简洁，但非“零佣金”区块律动BlockBeats

币安,美股,人工智能

币安的“超级应用之路”：从加密到美股，向全球30亿用户进发Wenser

总统 Q1 持仓披露：特朗普的钱，加速投向 AI 基建？MSX研究院

AI,Anthropic,ETF

BitMart研究院每周热点：ETF持续流出+AI虹吸，加密市场震荡寻底BitMart资讯

稳定币,ETF,L1

对话Binance Research研究员：机构如何改变加密市场？Felix