• AI对话
  • AI绘画
  • AI办公
  • AI语音
  • AI视频
  • 智能体
  • AI最新资讯
  • 协会动态
  • 图片广场
  • 角色广场
  • AI教育
  • AI商城

AI门户

logo
      首页
    • AI工具
    • AI资讯
    • AI社区
    • AI商业
    • APP
登录

小米多模态大模型Xiaomi MiMo-VL开源

作者 · 来源 · AIbase基地
浏览 · 25次2025-06-01
近日,小米公司研发的MiMo-VL多模态模型接过MiMo-7B的接力棒,在多个领域展现出了强大的实力。该模型在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型Qwen2.5-VL-7B,在GUI Grounding任务上的表现更是可与专用模型相媲美,为Agent时代的到来做好了准备。
MiMo-VL-7B在多模态推理任务上成绩斐然,尽管参数规模仅为7B,却在奥林匹克竞赛(OlympiadBench)和多个数学竞赛(MathVision、MathVerse)中大幅领先参数规模10倍大的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview,同时也超越了闭源模型GPT-4o。在内部大模型竞技场评估真实用户体验时,MiMo-VL-7B超越GPT-4o,成为开源模型中的佼佼者。在实际应用场景中,该模型在复杂图片推理和问答上表现卓越,在长达10多步的GUI操作上也展现出不错的潜力,甚至能够帮助用户将小米SU7加购至心愿单。
MiMo-VL-7B全面的视觉感知能力得益于高质量的预训练数据以及创新的混合在线强化学习算法(MORL)。在多阶段预训练过程中,小米收集、清洗、合成了涵盖图片-文本对、视频-文本对、GUI操作序列等多种数据类型的高质量预训练多模态数据,总计2.4T tokens,并通过分阶段调整不同类型数据的比例,强化了长程多模态推理的能力。混合在线强化学习则融合了文本推理、多模态感知+推理、RLHF等反馈信号,并通过在线强化学习算法稳定加速训练,全方位提升了模型的推理、感知性能和用户体验。
相关链接:https://huggingface.co/XiaomiMiMo。

热门文章

生态伙伴

AI门户是一款精品AI工具聚合平台。在这里,你可以找到全网最新的热门AI工具。
无论是你是公司创始人,市场人员,文职人员,还是开发人员,你都能在这里找到适合自己的AI工具。
利用AI工具,你可以大幅提高工作效率,从容不迫的获得职场优势。
AI不是淘汰人,而是淘汰不会用AI的人。选择AI门户,获取一站式AI工具分发便利服务。
你还等什么?和AI门户一起探索AI工具吧。

AI门户新媒体矩阵等你来关注

商务合作:

生态伙伴

AI门户是一款精品AI工具聚合平台。在这里,你可以找到全网最新的热门AI工具。
无论是你是公司创始人,市场人员,文职人员,还是开发人员,你都能在这里找到适合自己的AI工具。
利用AI工具,你可以大幅提高工作效率,从容不迫的获得职场优势。
AI不是淘汰人,而是淘汰不会用AI的人。选择AI门户,获取一站式AI工具分发便利服务。
你还等什么?和AI门户一起探索AI工具吧。

AI门户新媒体矩阵等你来关注

商务合作:

版权所有@2023 ​深圳市人工智能产业协会、深圳市宝安区低空无人系统产业协会       技术支持:​深圳市网新新思软件有限公司       粤ICP备19099358号-2       粤公网安备44030502010453号

