火星财经
mars-ai
下载APP
下载火星财经客户端

扫描下载APP

登录
null
null退出登录

账号密码登录

注册新账号

忘记密码

其它方式登录

微信登录短信登录

修改昵称

TST
Nous Research,TST,预训练
Hermes团队改写预训练:算力成本降六成,DeepSeek之后提效新路径

Nous Research团队提出Token Superposition Training(TST)方法,通过预训练早期采用词元叠加与粗粒度学习,显著降低算力消耗:在百亿参数MoE模型上实现GPU时间降至基线38.7%,同时降低loss并提升多项下游评测指标。该方法不修改模型架构或推理流程,仅优化训练路径,为AI模型预训练提供轻量、即插即用的提效新范式。

AI前线11小时前
关键字:TST预训练Nous Research
暂无内容
加载更多
推荐专题
DeFi:去中心化金融机制与演化2024-12-16 13:16
AI × Crypto:应用与市场进展2023-11-29 11:36
RWA:现实资产上链进程2024-12-16 13:40
DeSci:去中心化科研的探索与实践2024-11-18 10:58
空投策略:链上机会追踪2024-09-02 14:06
热门新闻
1
中国华能,宇树科技,算电协同
宇树王兴兴到访中国华能,能源央企密集接触具身智能背后,算电协同是一场电力与算力的深度融合预见能源
2
Discord,Exodus,社会工程攻击
18岁黑客在Discord炫富,意外牵出1900万美元盗窃案Asher
3
大宗商品,原油,黄金
高盛最新商品方法论:投资组合经理商品入门指南Yuliya
4
三星电子,SK海力士,DRAM
SK 海力士成了“资本家的叛徒”,三星员工大罢工深潮TechFlow
5
Circle,USDC,Arc Network
Circle 发布 Arc Network 白皮书,新经济机制能否推动其成为机构级稳定币支付的 “清算协调层”?Web3Caff Research
6
OpenAI,马斯克,奥特曼
奥特曼趁马斯克出差爆猛料:他曾想让子女继承OpenAI量子位
火星财经
商务合作:TG:@Lottie96
聚焦AI和Web3产业动态 | Copyright ©火星财经 All Rights Reserved. | 桂ICP备2023010597号-1

友情链接

更多

投资AI和Web3,下载火星财经APP

Android版下载iPhone 版下载

商务合作

TG:@Lottie96

我知道了