12

06

星期五

06月12日 23:11

MiniMax M3正式开源,原生多模态支持百万上下文

据动察 Beating 监测,国产大模型厂商 MiniMax 在 Hugging Face 正式开源原生多模态混合专家(MoE)模型 MiniMax M3 权重。MiniMax M3 总参数量为 4280 亿,单 Token 激活 230 亿参数,原生支持 100 万超长上下文。为降低部署显存开销,开发团队同步发布了 MXFP8 量化版本,并适配 SGLang、vLLM、Transformers 等主流推理框架。 在多模态设计上,MiniMax M3 在预训练阶段即开展文本、图像与视频联合训练以实现原生语义融合,而非在后训练阶段进行多模态对齐。在运行机制上,模型提供双推理模式,分为用于复杂逻辑和工具编排的 Thinking(思考)模式,以及用于低延迟对话和代码生成的 Non-thinking(非思考)模式。 支撑百万超长上下文的底层内核,是同步开源的轻量化注意力内核库 MiniMax Sparse Attention(简称 MSA)。官方公布的数据显示,MSA 采用分组查询注意力(GQA)分块检索机制,在 100 万 Token 的极长上下文实测中,针对 NVIDIA Blackwell(SM100)架构优化的 MSA 算子相比传统全注意力机制,可实现 9 倍以上的预填充加速和 15 倍的解码提速,同时显著降低了推理开销。

「查看原文」

本内容旨在传递行业动态,不构成投资建议或承诺。