news 2026/5/8 10:03:58

Agent学习——小米MiMo-V2-Flash使用方法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Agent学习——小米MiMo-V2-Flash使用方法

一、MiMo-V2-Flash的亮点
①API 定价为输入$0.1/M tokens,输出$0.3/M tokens,且目前限时免费,推理成本仅为Claude 4.5 Sonnet的2.5%。

②在多个Agent测评基准中保持全球开源模型Top 2,代码能力强。

③使用场景多为智能通场景设计,支持深度思考和联网搜索。

④架构上使用混合注意力机制和多层MTP进行推理加速。

⑤模型权重和推理代码使用的是MIT协议,适用商业场景。

二、技术剖析

①窗口大小为128

②原生支持32K上下文,外扩技术支持可达256K的上下文处理

多层MIT推理加速,并行效率倍增

三、在线体验

①体验链接:https://aistudio.xiaomimimo.com

②API地址(限时免费哦!各位白嫖党抓紧机会!!!):https://platform.xiaomimimo.com/

③收费定价:输入 $0.1/M tokens,输出 $0.3/M tokens

③本地部署:

a.模型权重:https://hf.co/XiaomiMiMo/MiMo-V2-Flash

b.GitHub仓库:https://github.com/xiaomimimo/MiMo-V2-Flash

四、模型效果

从公布的基准测试图中看,性能上有了些许提升,主要的提升应该还是在Agent场景、推理效率的提升和价格吧!但是目前架不住他免费呀!!!

五、调用方法

由于MiMo-V2-Flash 已封装成 OpenAI-Compatible HTTP 服务,启动后直接用OpenAI SDK 或curl -i http://localhost:9001/v1/chat/completions,模型路径、推理参数全部在启动命令里一次性配好,无需再写 .from_pretrained()。以下是四种不同场景的调用方式:

# ①启动服务 pip install sglang python3 -m sglang.launch_server \ --model-path XiaomiMiMo/MiMo-V2-Flash \ --served-model-name mimo-v2-flash \ --tp-size 8 --trust-remote-code \ --host 0.0.0.0 --port 9001 # ②API调用 from openai import OpenAI client = OpenAI(base_url="http://localhost:9001/v1", api_key="dummy") response = client.chat.completions.create( model="mimo-v2-flash", messages=[{"role": "user", "content": "Nice to meet you MiMo"}], max_tokens=4096, temperature=0.8, top_p=0.95, stream=True, extra_body={"chat_template_kwargs": {"enable_thinking": True}} ) for chunk in response: print(chunk.choices[0].delta.content or "", end="") # ③curl方式 curl http://localhost:9001/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "mimo-v2-flash", "messages": [{"role": "user", "content": "Nice to meet you MiMo"}], "max_tokens": 4096, "temperature": 0.8, "top_p": 0.95, "stream": true, "chat_template_kwargs": {"enable_thinking": true} }' # ④JaveScript方式 const { OpenAI } = require('openai'); const client = new OpenAI({ baseURL: 'http://localhost:9001/v1', apiKey: 'dummy' }); const stream = await client.chat.completions.create({ model: 'mimo-v2-flash', messages: [{ role: 'user', content: 'Nice to meet you MiMo' }], max_tokens: 4096, temperature: 0.8, top_p: 0.95, stream: true, chat_template_kwargs: { enable_thinking: true } }); for await (const chunk of stream) { process.stdout.write(chunk.choices[0]?.delta?.content || ''); }

使用流程:启动服务一次 → 拿到 http://localhost:9001/v1 → 当成 OpenAI 接口 用即可,模型、推理参数全部在启动命令里配置完成,无需再加载模型或写 .from_pretrained(

重要的事情说三遍:限时免费!限时免费!!限时免费!!!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/7 20:30:23

OpenWrt LuCI主题终极选择指南:找到最适合你的路由器界面

OpenWrt LuCI主题终极选择指南:找到最适合你的路由器界面 【免费下载链接】luci LuCI - OpenWrt Configuration Interface 项目地址: https://gitcode.com/gh_mirrors/lu/luci 还在为OpenWrt单调的默认界面而烦恼吗?想要一个既美观又实用的路由器…

作者头像 李华
网站建设 2026/5/7 19:02:45

E-Hentai Viewer:iOS平台最完整的漫画阅读体验终极指南

在移动设备上畅享海量漫画资源,E-Hentai Viewer为iOS用户提供了前所未有的专业阅读解决方案。这款应用凭借其强大的功能体系和流畅的用户体验,已成为漫画爱好者的首选工具。 【免费下载链接】E-HentaiViewer 一个E-Hentai的iOS端阅读器 项目地址: http…

作者头像 李华
网站建设 2026/5/7 20:30:22

JupyterLite终极指南:浏览器中完整的Python编程体验

JupyterLite终极指南:浏览器中完整的Python编程体验 【免费下载链接】jupyterlite Wasm powered Jupyter running in the browser 💡 项目地址: https://gitcode.com/gh_mirrors/ju/jupyterlite 你是否曾为安装Python环境而烦恼?现在&…

作者头像 李华
网站建设 2026/5/7 21:51:33

Golin网络安全工具:从零开始的等保合规实战指南

在网络安全的战场上,一个强大的扫描工具往往能让你事半功倍。Golin正是这样一个集弱口令检测、漏洞扫描、端口识别、Web目录扫描于一体的全能型网络安全工具,特别针对等保合规场景深度优化,让复杂的网络安全评估工作变得简单高效。 【免费下载…

作者头像 李华
网站建设 2026/5/6 6:20:54

10个高效降AI率工具,继续教育学员必备指南

10个高效降AI率工具,继续教育学员必备指南 AI降重工具:让论文更自然,更安全 在当前的学术写作环境中,越来越多的继续教育学员开始关注“AIGC率”与“查重率”的问题。随着AI技术的广泛应用,许多论文内容在不经意间带有…

作者头像 李华
网站建设 2026/5/7 23:36:08

AI 与 IT 从业者:迈向“共生纪元”的深层对话

一:当代码开始“自省”:AI在IT领域的渗透现状 清晨,硅谷某科技公司的开发团队正在使用AI辅助编程工具。只需用自然语言描述需求,系统便能生成基础代码框架,自动检测漏洞,甚至优化算法效率。这一幕正日益普遍…

作者头像 李华