Phi-3.5-mini-instruct代码实例：用curl命令直连vLLM API获取模型响应-洪萨配资

Phi-3.5-mini-instruct代码实例：用curl命令直连vLLM API获取模型响应

1. Phi-3.5-mini-instruct模型简介

Phi-3.5-mini 是一个轻量级的开放模型，属于Phi-3模型家族。它基于高质量的数据集构建，包括合成数据和经过筛选的公开网站数据，特别注重推理密集型任务。这个模型支持长达128K令牌的上下文长度，经过监督微调、近端策略优化和直接偏好优化等多阶段训练，能够精确遵循指令并具备强大的安全措施。

作为轻量级模型，Phi-3.5-mini特别适合需要快速响应和高效推理的场景，同时保持了与大型模型相媲美的性能表现。通过vLLM部署后，可以方便地通过API接口进行调用。

2. 准备工作：验证模型部署状态

2.1 检查模型服务状态

在开始使用curl命令调用API之前，我们需要确认模型已经成功部署并运行。可以通过以下命令检查服务日志：

cat /root/workspace/llm.log

如果看到类似下面的输出，表示模型服务已成功启动：

INFO: Started server process [1234] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:8000

2.2 通过Chainlit验证模型响应

虽然本文主要介绍curl调用方式，但我们可以先用Chainlit前端快速验证模型是否正常工作：

启动Chainlit前端界面
在输入框中提问，例如："请用简单语言解释量子计算"
观察模型返回的响应是否合理

如果Chainlit能够正常获取模型响应，说明API服务已经就绪，可以开始使用curl命令进行调用。

3. 使用curl命令调用vLLM API

3.1 基础API调用方法

vLLM提供了标准的HTTP API接口，我们可以使用curl命令直接发送请求。最基本的调用格式如下：

curl -X POST http://localhost:8000/v1/completions \ -H "Content-Type: application/json" \ -d '{ "model": "Phi-3.5-mini-instruct", "prompt": "请用简单语言解释人工智能", "max_tokens": 200, "temperature": 0.7 }'

这个命令会向本地运行的vLLM服务发送一个POST请求，请求生成关于"人工智能"的解释，最多生成200个token，温度为0.7。

3.2 参数详解与常用选项

vLLM API支持多种参数来控制生成过程：

model: 指定使用的模型名称
prompt: 输入的提示文本
max_tokens: 最大生成token数量
temperature: 控制生成随机性的参数(0-1)
top_p: 核采样参数(0-1)
stop: 停止生成的token序列
frequency_penalty: 频率惩罚(-2到2)
presence_penalty: 存在惩罚(-2到2)

示例：使用更多参数的调用

curl -X POST http://localhost:8000/v1/completions \ -H "Content-Type: application/json" \ -d '{ "model": "Phi-3.5-mini-instruct", "prompt": "写一篇关于气候变化的短文", "max_tokens": 300, "temperature": 0.8, "top_p": 0.9, "frequency_penalty": 0.5, "presence_penalty": 0.5, "stop": ["\n\n"] }'

3.3 处理API响应

API会返回JSON格式的响应，包含生成的文本和其他元数据。典型响应如下：

{ "id": "cmpl-3Q6wvhtz", "object": "text_completion", "created": 1629478371, "model": "Phi-3.5-mini-instruct", "choices": [ { "text": "人工智能是...", "index": 0, "logprobs": null, "finish_reason": "length" } ], "usage": { "prompt_tokens": 5, "completion_tokens": 200, "total_tokens": 205 } }

可以使用jq工具提取生成的文本：

curl ... | jq -r '.choices[0].text'

4. 实用技巧与常见问题

4.1 提高调用效率的技巧

批量请求：vLLM支持批量处理，可以一次发送多个提示
流式响应：使用"stream": true参数获取实时流式输出
长文本处理：利用128K上下文优势，提供充分的上文信息

批量请求示例：

curl -X POST http://localhost:8000/v1/completions \ -H "Content-Type: application/json" \ -d '{ "model": "Phi-3.5-mini-instruct", "prompt": [ "解释量子计算", "写一首关于春天的诗", "总结这篇文章" ], "max_tokens": 100 }'