返回列表

小米同时发布三款 MiMo 模型:瞄准 AI 代理、机器人与语音平台

2026/05/08 Verified Content
小米同时发布三款 MiMo 模型:瞄准 AI 代理、机器人与语音平台

小米一次性发布了三款 AI 模型,分别是大语言模型 MiMo-V2-Pro、多模态模型 MiMo-V2-Omni,以及语音合成模型 MiMo-V2-TTS,目标不是单点展示能力,而是搭建一套完整的 AI 代理平台。按照报道,小米希望这些模型未来不仅能写代码、调用工具和浏览网页,还能逐步扩展到机器人控制等更贴近真实世界的任务。

其中旗舰模型 MiMo-V2-Pro 采用 Mixture-of-Experts 架构,总参数量超过 1 万亿,每次请求激活 420 亿参数。小米称,该模型可处理最长 100 万 token 上下文,并通过混合注意力机制和多 token 并行生成提升效率。在 Artificial Analysis Intelligence Index 上,MiMo-V2-Pro 排到全球第七,在中国模型中位居 GLM-5 和 MiniMax-M2.7 之后。

从具体基准看,MiMo-V2-Pro 在 SWE-bench Verified 上达到 78%,接近 Claude Opus 4.6 的 80.8,也逼近 Claude Sonnet 4.6 的 79.6;在代理基准 ClawEval 上拿到 81 分,几乎追平 Claude Opus 4.6 的 81.5,而 GPT-5.2 为 77。价格则更具攻击性:在 256,000 token 以内上下文长度下,输入每百万 token 1 美元、输出每百万 token 3 美元,明显低于 Claude Sonnet 4.6 和 Claude Opus 4.6 的定价。

更值得注意的是,小米在发布时宣布与 OpenClaw、OpenCode、KiloCode、Blackbox 和 Cline 五个 agent framework 合作,面向全球开发者开放一周免费 API。对 OpenClaw 生态来说,这意味着 MiMo 系列正在主动进入代理开发工具链,而不是只停留在模型榜单竞争层面。

MiMo-V2-Omni 则把图像、视频和音频编码器并入统一主干网络,支持结构化工具调用、函数执行和自主导航界面。报道提到,它在音频能力上超过 Gemini 3 Pro,在图像基准 MMMU-Pro 上拿到 76.8,高于 Claude Opus 4.6 的 73.9;但在通用代理能力上仍有差距,ClawEval 得分仅 54.8,落后于 Claude Opus 4.6 的 66.3 和 GPT-5.2 的 59.6。

在演示中,小米让 MiMo-V2-Omni 分析行车记录仪画面,实时识别行人与来车风险;也让它自行打开浏览器,在小红书查产品评价、去京东比价、再通过客服聊天议价并完成购买。另一段演示中,模型还自动生成多媒体内容、调试代码并经浏览器发布到 TikTok。报道特别说明,在这些流程里,MiMo-V2-Omni 负责决策,而真正执行点击与文件操作的开源框架是 OpenClaw。

语音模型 MiMo-V2-TTS 训练数据超过 1 亿小时,不仅能处理普通说话,还支持唱歌。它采用多层离散单元并行建模,让用户可以直接用自然语言描述声音风格,例如“刚睡醒、有些沙哑”或“生气但尽量克制”,同时还能原生生成咳嗽、停顿、叹气和笑声等副语言信号。小米称,这是目前唯一一个在同一商业 API 中原生支持说话与唱歌的 TTS 模型。

总体看,小米这次不是单纯发一款大模型,而是在向“全栈 AI 代理平台”迈进。基准成绩显示,它在部分维度已经能与 Anthropic 和 OpenAI 正面对比,但在更复杂的通用代理任务上仍有提升空间。MiMo 团队接下来还计划推进跨小时和跨天的长期规划、实时流式、多代理协作以及机器人方向,这也是其把“看、听、想、做”打通的下一步。

Join the discussion

正在确认登录状态...
暂时还没有评论,快来抢沙发~