EverMemOS 访问外部API接口 📋 概述 EverMemOS 通过调用 外部大模型API 服务,实现evermemos内部业务响应,请求三方接口详情 ✅ 目标接口 接口 功能 输入格式 输出格式 POST /v1/chat/completions大语言模型对话 Chat Completions 格式 Chat 格式 POST /v1/reranker文档重排序 Rerank Service 统一请求格式 统一响应格式(含 rank) POST /v1/embeddings文本向量化 Vectorize Service 请求格式(支持is_query) Embedding 格式
详细接口说明 1./v1/chat/completions 功能描述 生成基于输入消息的聊天响应,使用配置的 LLM 引擎。
请求参数 参数名 类型 是否必需 默认值 描述 modelstring 否 None 模型名称 messagesarray of object 否 None 聊天消息列表,每个消息包含role和content字段 temperaturefloat 否 0.7 生成温度,控制输出随机性 max_tokensinteger 否 1024 最大生成 token 数 streamboolean 否 false 是否流式输出 response_formatobject 否 None 响应格式
请求示例 { "model" : "qwen-7b" , "messages" : [ { "role" : "user" , "content" : "你好,请介绍一下自己" } ] , "temperature" : 0.7 , "max_tokens" : 512 } 响应结构 字段名 类型 描述 idstring 响应 ID objectstring 对象类型,固定为 “chat.completion” createdinteger 创建时间戳 modelstring 使用的模型名称 choicesarray of object 响应选项列表 choices[].indexinteger 选项索引 choices[].messageobject 包含role和content的消息对象 choices[].finish_reasonstring 完成原因 usageobject 令牌使用情况 usage.prompt_tokensinteger 提示令牌数 usage.completion_tokensinteger 完成令牌数 usage.total_tokensinteger 总令牌数
响应示例 { "id" : "chatcmpl-abcdef123456" , "object" : "chat.completion" , "created" : 1689123456 , "model" : "qwen-7b" , "choices" : [ { "index" : 0 , "message" : { "role" : "assistant" , "content" : "你好!我是一个基于 Qwen 模型的 AI 助手,很高兴为你服务。请问有什么我可以帮助你的吗?" } , "finish_reason" : "stop" } ] , "usage" : { "prompt_tokens" : 10 , "completion_tokens" : 25 , "total_tokens" : 35 } } 2./v1/embeddings 功能描述 生成文本的嵌入向量,可用于文本相似度计算、检索等任务。
请求参数 参数名 类型 是否必需 默认值 描述 inputarray of string 否 None 要生成嵌入的文本列表 modelstring 否 “dengcao/Qwen3-Embedding-0.6B” 模型名称 encoding_formatstring 否 “float” 编码格式 dimensionsinteger 否 1024 嵌入维度 is_queryboolean 否 false 是否为查询文本
请求示例 { "input" : [ "人工智能的发展历程" , "机器学习的基本原理" ] , "model" : "dengcao/Qwen3-Embedding-0.6B" , "is_query" : false } 响应结构 字段名 类型 描述 objectstring 对象类型,固定为 “list” dataarray of object 嵌入数据列表 data[].objectstring 数据对象类型,固定为 “embedding” data[].embeddingarray of float 嵌入向量 data[].indexinteger 索引 modelstring 使用的模型名称 usageobject 使用情况 usage.prompt_tokensinteger 提示令牌数 usage.total_tokensinteger 总令牌数
响应示例 { "object" : "list" , "data" : [ { "object" : "embedding" , "embedding" : [ 0.123 , 0.456 , - 0.789 , ... ] , "index" : 0 } , { "object" : "embedding" , "embedding" : [ 0.987 , - 0.654 , 0.321 , ... ] , "index" : 1 } ] , "model" : "dengcao/Qwen3-Embedding-0.6B" , "usage" : { "prompt_tokens" : 2 , "total_tokens" : 2 } } 错误处理 3./v1/reranker 功能描述 根据查询对文档列表进行重排序,返回按相关性排序的结果。
请求参数 参数名 类型 是否必需 默认值 描述 querystring 否 None 查询文本 documentsarray of string 否 None 文档列表 modelstring 否 “dengcao/Qwen3-Reranker-0.6B” 模型名称 instructionstring 否 “Given a search query, retrieve relevant passages that answer the query” 指令文本
请求示例 { "query" : "人工智能的应用领域" , "documents" : [ "人工智能在医疗领域的应用包括疾病诊断和药物研发" , "机器学习是人工智能的一个重要分支" , "人工智能在金融领域用于风险评估和欺诈检测" , "人工智能的发展历史可以追溯到上世纪50年代" ] , "model" : "dengcao/Qwen3-Reranker-0.6B" } 响应结构 字段名 类型 描述 resultsarray of object 排序结果列表 results[].indexinteger 原始文档索引 results[].scorefloat 相关性分数 results[].rankinteger 排序 rank modelstring 使用的模型名称 input_tokensinteger 输入令牌数 request_idstring 请求 ID
响应示例 { "results" : [ { "index" : 0 , "score" : 0.95 , "rank" : 0 } , { "index" : 2 , "score" : 0.90 , "rank" : 1 } , { "index" : 3 , "score" : 0.75 , "rank" : 2 } , { "index" : 1 , "score" : 0.60 , "rank" : 3 } ] , "model" : "dengcao/Qwen3-Reranker-0.6B" , "input_tokens" : 50 , "request_id" : "uuid-123456" } ✅ 3. 启动与测试 测试命令 Chat curl -X POST http://xxx.xxx.xxx/v1/chat/completions\ -H"Content-Type: application/json" \ -d'{ "model": "qwen3:4b", "messages": [{"role": "user", "content": "你好!"}] }' Embedding curl -X POST http://xxx.xxx.xxx/v1/embeddings\ -H"Content-Type: application/json" \ -d'{ "input": ["这里太暗了"], "is_query": true }' Reranker curl -X POST http://xxx.xxx.xxx/v1/reranker\ -H"Content-Type: application/json" \ -d'{ "query": "这里太暗了", "documents": ["请打开灯", "今天天气很好"] }'