实测小米最快1T大模型:吞吐量每秒1000+ Tokens,Vibe Coding七秒交付
小米发布1T参数大模型MiMo-V2.5-Pro-UltraSpeed,实测单API推理吞吐量超1000 tokens/s,支持1M上下文,无需定制芯片即可在通用GPU上实现,突破‘快、强、通用’不可能三角;通过模型层(Hybrid SWA、FP4量化)、引擎层(DFlash)和系统层(Persistent Kernel、Warp Specialization)全链路优化,显著提升多Agent协同与实时业务落地能力。