AI Agent开发入门：基于Nanbeige 4.1-3B构建自主任务执行智能体-洪萨配资

AI Agent开发入门：基于Nanbeige 4.1-3B构建自主任务执行智能体

你是不是也经常幻想，能有一个像电影里贾维斯那样的智能助手？你只需要说一句“帮我查查周末的天气，然后推荐几个适合的户外活动，顺便计算一下出行预算”，它就能自己上网搜索、分析信息、规划步骤，最后给你一个完整的方案。这听起来很科幻，但其实，这种能自主规划并执行任务的“智能体”，也就是我们常说的AI Agent，已经离我们很近了。

今天，我们就来动手做一个。不需要你从头训练一个超级大模型，那太复杂了。我们换个思路，用一个已经很强的大脑——Nanbeige 4.1-3B模型，给它配上“手脚”（工具调用）和“记事本”（记忆机制），让它从一个只会聊天的模型，变成一个能真正干点实事的智能助手。

整个过程就像组装一台机器人：大脑负责思考和规划，手脚负责执行具体动作，记事本负责记住上下文。接下来，我就带你一步步，在星图GPU平台上，把这个能理解复杂指令、自己规划步骤并执行任务的AI智能体原型给搭建起来。

1. 动手之前：先认识一下我们的“大脑”和“工具箱”

在开始敲代码之前，我们得先搞清楚要用到哪些核心部件。这样后面搭建起来，你才知道每一步是在做什么。

1.1 核心大脑：Nanbeige 4.1-3B模型

我们这次项目的“大脑”选用的是Nanbeige 4.1-3B模型。你可能会问，为什么选它？简单来说，它有几个特点特别适合我们做智能体开发：

“够聪明”：3B的参数规模，在保证不错理解能力的同时，对计算资源的要求相对友好，非常适合我们做原型开发和测试。
“听话”：它在指令遵循方面表现不错。这意味着你给它一个复杂的任务，比如“先做A，再做B”，它更能理解你的意图，而不是答非所问。
“容易沟通”：它支持主流的对话格式，我们后面用代码和它“说话”会非常方便。

你可以把它想象成一个理解能力很强、逻辑清晰的“项目经理”，它擅长拆解任务、制定计划。

1.2 智能体的两大关键能力

只有一个聪明的大脑还不够，要让它能“自主”完成任务，还得赋予它两种关键能力：

工具调用能力：这是智能体的“手脚”。大脑想得再好，没法操作现实世界也是白搭。我们需要让大脑学会使用工具，比如：
- 搜索工具：去网上获取最新的信息（比如天气、新闻、股票价格）。
- 计算工具：进行数学运算、单位换算。
- 代码执行工具：运行一段代码来处理数据。
- API调用工具：和其他软件服务交互（比如发送邮件、查询数据库）。
记忆与上下文管理能力：这是智能体的“记事本”。一个任务往往需要多轮对话才能完成，智能体必须能记住之前说过什么、做过什么。这包括：
- 短期记忆：记住当前对话的上下文，理解你的指代（比如“上面的结果”指的是什么）。
- 长期记忆（可选，更高级）：记住跨对话的信息，了解你的偏好和历史。

我们的目标，就是让Nanbeige这个“大脑”，学会查阅“记事本”，并指挥“手脚”去使用各种工具。

2. 环境搭建：在星图GPU平台快速启动

理论说完了，我们开始动手。第一步是准备一个能跑起来的环境。这里我们选择在星图GPU平台上操作，因为它提供了现成的、配置好环境的镜像，能省去我们大量安装依赖的麻烦。

假设你已经在星图平台上找到了一个预装了Python、PyTorch等基础深度学习环境的GPU镜像，并成功启动了一个实例（一台云上的虚拟机）。接下来，我们通过终端连接进去，安装必要的库。

打开你的终端，依次执行以下命令：

# 1. 安装模型推理和智能体框架的核心库 # transformers是Hugging Face的模型加载库，langchain是构建智能体的流行框架 pip install transformers langchain # 2. 安装用于工具调用的相关库 # 我们以简单的搜索和计算为例，requests用于网络请求，wolfram-alpha是一个强大的计算引擎（需要API key），这里我们先装个备选 pip install requests # 3. 安装一个轻量级的Web框架，方便我们后面做个简单的交互界面（可选，但推荐） pip install fastapi uvicorn

安装过程可能需要几分钟。完成后，我们的基础软件环境就准备好了。

3. 构建智能体核心：让大脑学会使用工具

现在进入最核心的环节：教我们的大脑（Nanbeige模型）去使用工具。我们会分两步走：先定义工具，再创建能调用工具的智能体。

3.1 第一步：打造智能体的“工具箱”

我们首先创建几个简单的工具函数。这里以“搜索天气”和“计算器”为例。

创建一个名为my_agent_tools.py的文件：

# my_agent_tools.py import requests import json import math def search_weather(city: str) -> str: """ 一个模拟的天气搜索工具。 注意：这是一个示例，实际应用中你需要替换为真实的天气API（如和风天气、OpenWeatherMap等）。 :param city: 城市名 :return: 天气信息的字符串 """ # 这里为了演示，我们返回模拟数据。真实情况应该调用API。 # 示例：调用一个模拟API（假设的） try: # 假设的API响应格式 weather_data = { "北京": "晴，15~25°C，微风", "上海": "多云，18~28°C，东南风3级", "深圳": "阵雨，22~30°C，南风2级" } result = weather_data.get(city, f"未找到{city}的天气信息，请检查城市名。") return f"{city}的天气是：{result}" except Exception as e: return f"查询天气时出错：{str(e)}" def calculator(expression: str) -> str: """ 一个简单的计算器工具。 使用Python的eval计算数学表达式（注意：生产环境需谨慎使用eval）。 :param expression: 数学表达式，如 "3 + 5 * 2" :return: 计算结果字符串 """ # 安全警告：实际项目中应对expression做严格过滤，防止代码注入。 # 这里仅为演示，使用一个受限制的eval。 allowed_names = {"abs": abs, "round": round, "min": min, "max": max, "sum": sum, "math": math} try: # 使用安全的eval code = compile(expression, "<string>", "eval") for name in code.co_names: if name not in allowed_names: raise NameError(f"使用未授权的名称 {name!r}") result = eval(code, {"__builtins__": {}}, allowed_names) return f"计算结果：{expression} = {result}" except Exception as e: return f"计算表达式 '{expression}' 时出错：{str(e)}" # 将工具函数包装成LangChain可识别的格式 from langchain.tools import Tool weather_tool = Tool( name="GetWeather", func=search_weather, description="根据城市名称查询当前天气。输入应为一个城市名字符串，如‘北京’。" ) calc_tool = Tool( name="Calculator", func=calculator, description="计算一个数学表达式的结果。输入应为一个有效的数学表达式字符串，如‘3 + 5 * 2’或‘math.sqrt(16)’。" ) # 工具列表 my_tools = [weather_tool, calc_tool]

这个文件定义了两个工具，并用LangChain的Tool类进行了包装，让后续的智能体框架能识别和调用它们。

3.2 第二步：创建智能体，连接大脑与工具箱

接下来，我们创建一个主程序文件run_agent.py，在这里加载模型，并创建智能体。

# run_agent.py from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline from langchain.llms import HuggingFacePipeline from langchain.agents import initialize_agent, AgentType from langchain.memory import ConversationBufferMemory from my_agent_tools import my_tools # 导入我们刚才定义的工具 # 1. 加载Nanbeige 4.1-3B模型和分词器 print("正在加载Nanbeige 4.1-3B模型...") model_name = "Nanbeige/Nanbeige-4.1-3B" # 请根据星图镜像中实际的模型路径调整 tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto") # 自动分配到GPU # 2. 创建文本生成管道 print("创建文本生成管道...") text_generation_pipeline = pipeline( "text-generation", model=model, tokenizer=tokenizer, max_new_tokens=512, # 每次生成的最大长度 temperature=0.7, # 创造性，值越低越确定 do_sample=True, ) # 3. 将管道包装成LangChain的LLM对象 llm = HuggingFacePipeline(pipeline=text_generation_pipeline) # 4. 创建记忆模块，让智能体记住对话历史 memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True) # 5. 初始化智能体！ print("初始化智能体...") # 使用ZERO_SHOT_REACT_DESCRIPTION代理类型，它适合让LLM自己决定何时、使用哪个工具 agent = initialize_agent( tools=my_tools, llm=llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, # 这是一种经典的智能体类型 memory=memory, verbose=True, # 设为True可以看到智能体的思考过程，非常有用！ handle_parsing_errors=True, # 处理解析错误 ) print("智能体初始化完成！可以开始对话了。") print("你可以尝试问：‘北京今天的天气怎么样？’ 或者 ‘计算一下 15的平方加上20除以4 等于多少？’") print("输入 'quit' 或 '退出' 来结束程序。") # 6. 简单的对话循环 while True: try: user_input = input("\n你: ") if user_input.lower() in ['quit', '退出', 'exit']: print("再见！") break if user_input.strip(): response = agent.run(user_input) print(f"智能体: {response}") except KeyboardInterrupt: print("\n程序被中断。") break except Exception as e: print(f"运行中出现错误: {e}")

这段代码做了以下几件事：

加载大脑：从星图镜像的指定路径加载Nanbeige模型。
创建管道：把模型包装成一个文本生成“管道”。
连接框架：用LangChain的HuggingFacePipeline把我们的模型管道接入智能体框架。
添加记事本：创建了一个对话记忆缓冲区。
组装智能体：使用initialize_agent函数，把工具（my_tools）、大脑（llm）、记事本（memory）组合在一起，并指定了智能体的运行策略。
启动对话：运行一个简单的循环，等待你的指令。

4. 运行与测试：看看你的智能体如何工作

环境搭好了，代码也写完了，现在就是最激动人心的时刻：启动它，看看效果。

在你的终端里，运行：

python run_agent.py

你会先看到模型加载的进度条，然后出现提示信息。现在，你可以像和朋友聊天一样给它下指令了。

试试这些指令，观察它的思考过程（因为设置了verbose=True）：

简单任务：“北京今天的天气怎么样？”

你应该能看到类似这样的输出：

思考：用户想知道北京的天气。我需要使用GetWeather工具。 行动：GetWeather 行动输入：北京 观察：北京的天气是：晴，15~25°C，微风 思考：我已经获取了北京的天气信息，可以回答用户了。 最终答案：北京今天的天气是晴，气温在15到25摄氏度之间，有微风。

看，它自己规划了步骤（思考），调用了正确的工具（行动），获取结果（观察），最后组织语言回答了你。

组合任务：“先查一下上海的天气，然后计算如果去上海玩3天，每天预算500元，总共需要多少钱。”
- 这是一个多步骤任务。智能体会先调用GetWeather工具查天气，然后调用Calculator工具计算3 * 500。verbose模式会完整展示这个规划过程。
依赖上下文的对话：先问“计算一下 20 的平方是多少？”，等它回答后，再问“那它的平方根呢？”
- 这时，智能体的“记忆”就起作用了。它能理解“它”指的是上一步计算的结果（400），并调用计算器计算math.sqrt(400)。

通过这样的测试，你能直观地感受到，一个单纯的对话模型，是如何通过工具调用和记忆，进化成一个能执行实际任务的初级智能体的。

5. 更进一步：优化思路与扩展方向

现在，你已经成功构建了一个AI智能体的原型。它虽然简单，但已经具备了最核心的“思考-行动”循环。如果你想让它变得更强大、更实用，可以从以下几个方向尝试：

接入更强大的工具：把模拟的天气查询换成真实的API（如和风天气），增加搜索网页工具（如SerpAPI）、文件读写工具、发送邮件工具等。智能体的能力边界完全由你的工具箱决定。
尝试不同的智能体类型：我们用的是ZERO_SHOT_REACT_DESCRIPTION，LangChain还提供了其他类型，比如STRUCTURED_CHAT_ZERO_SHOT_REACT_DESCRIPTION更适合处理多输入的工具，OPENAI_FUNCTIONS则是为OpenAI模型优化的。你可以根据任务复杂度进行选择。
强化记忆管理：当前的ConversationBufferMemory会把所有对话都记下来，对话长了会消耗很多上下文长度。可以尝试ConversationSummaryMemory，它会让LLM自动总结之前的对话，只保留摘要，节省空间。
增加规划与反思能力：更高级的智能体框架（如AutoGen、CrewAI）或模式（如ReAct、Plan-and-Execute）会让智能体在行动前先制定详细计划，在行动后反思结果是否正确，从而更可靠地完成复杂任务。
构建Web界面：使用FastAPI或Gradio快速搭建一个网页界面，让你和你的智能体互动起来更直观、更方便分享。

6. 写在最后

走完这一趟，你会发现，构建一个初级AI Agent并没有想象中那么遥不可及。关键不在于创造一个万能的大脑，而在于如何巧妙地整合现有的强大模型（如Nanbeige）、灵活的工具和有效的记忆机制。星图GPU平台提供了算力基础，LangChain这样的框架提供了组装蓝图，剩下的就是你的创意，去定义它该做什么、能做什么。

今天这个原型，就像一个刚刚学会使用锤子和螺丝刀的机器人。你可以继续教它使用电锯、电焊枪，甚至编程让它操作机床。这个从“理解”到“执行”的桥梁一旦搭建起来，应用场景就变得无比广阔：自动化的数据分析报告生成、个性化的客户服务流程、智能的代码助手……可能性只受限于你对工具的设计和对任务的理解。

动手去改一改代码，加一两个新工具，看看你的智能体又能玩出什么新花样吧。这个过程本身，就是探索AI前沿最有趣的部分。