DeerFlow部署案例：DeerFlow与Prometheus+Grafana监控体系集成-洪萨配资

DeerFlow部署案例：DeerFlow与Prometheus+Grafana监控体系集成

1. 引言：当深度研究助理遇上专业监控

想象一下，你有一个不知疲倦的深度研究助理——DeerFlow。它能帮你搜索信息、分析数据、撰写报告，甚至生成播客。但问题是，你怎么知道它是否在高效工作？有没有遇到瓶颈？资源消耗是否正常？

这就是我们今天要解决的问题。本文将带你一步步将DeerFlow这个强大的AI研究框架，与业界标准的Prometheus+Grafana监控体系集成起来。通过这次集成，你将能够：

实时监控DeerFlow的各项运行指标
可视化展示研究任务的执行状态和性能数据
及时发现潜在的性能瓶颈和异常情况
优化配置基于数据驱动的决策

无论你是技术负责人、运维工程师，还是对AI系统稳定性有要求的开发者，这套监控方案都能让你对DeerFlow的运行状况了如指掌。

2. 认识DeerFlow：你的个人深度研究助理

在开始监控之前，我们先简单了解一下DeerFlow到底是什么。

2.1 DeerFlow的核心能力

DeerFlow不是一个简单的聊天机器人，而是一个完整的深度研究系统。它基于LangGraph框架构建，采用了多智能体协作的架构：

协调器：负责接收用户请求，协调整个研究流程
规划器：制定研究计划，分解复杂任务
研究团队：包括研究员和编码员，分别负责信息搜集和代码执行
报告员：整理研究成果，生成最终的报告或播客

这个系统集成了多种工具：

搜索引擎（支持Tavily、Brave Search等）
网络爬虫
Python代码执行环境
MCP（模型上下文协议）服务
文本转语音服务（火山引擎TTS）

2.2 DeerFlow的典型应用场景

DeerFlow能帮你做什么？这里有几个实际例子：

市场分析：自动搜集竞品信息，生成分析报告
技术研究：跟踪最新技术动态，整理技术文档
内容创作：基于研究结果，生成播客脚本并转换为语音
数据洞察：分析复杂数据集，提供可视化见解

现在你已经了解了DeerFlow的能力，接下来我们要为它装上"眼睛"和"仪表盘"，让它的一切运行状态都变得透明可见。

3. 监控体系设计：为什么需要Prometheus+Grafana

在集成之前，我们先理解一下为什么选择Prometheus+Grafana这套组合。

3.1 传统监控方式的局限性

如果没有专业的监控体系，你可能会遇到这些问题：

黑盒运行：只知道DeerFlow在运行，但不知道内部状态
问题滞后：等到用户反馈才发现系统异常
性能盲区：不清楚哪个环节是性能瓶颈
资源浪费：无法准确评估资源使用情况，可能导致过度配置或资源不足

3.2 Prometheus+Grafana的优势

这套监控组合为什么适合DeerFlow？

Prometheus的特点：

专门为云原生应用设计，轻量高效
支持多维数据模型，灵活查询
强大的告警规则引擎
与各种应用集成简单

Grafana的特点：

丰富的可视化图表类型
灵活的仪表盘配置
支持多种数据源
社区活跃，插件丰富

组合优势：

Prometheus负责数据采集和存储
Grafana负责数据可视化和展示
两者结合，形成完整的监控闭环

3.3 监控指标设计思路

针对DeerFlow的特点，我们需要监控以下几个维度的指标：

系统资源指标
- CPU使用率
- 内存使用量
- 磁盘I/O
- 网络流量
应用性能指标
- 请求响应时间
- 任务执行时长
- 并发任务数
- 错误率统计
业务逻辑指标
- 研究任务完成数
- 报告生成成功率
- 搜索API调用次数
- 代码执行统计

有了清晰的设计思路，接下来我们开始具体的实施步骤。

4. 环境准备与组件部署

在开始集成之前，确保你已经按照官方文档成功部署了DeerFlow。这里假设你的DeerFlow运行在标准的Linux环境中。

4.1 部署Prometheus

首先，我们来部署Prometheus监控服务器。

步骤1：下载Prometheus

# 创建监控目录 mkdir -p /opt/monitoring cd /opt/monitoring # 下载最新版Prometheus wget https://github.com/prometheus/prometheus/releases/download/v2.51.0/prometheus-2.51.0.linux-amd64.tar.gz # 解压文件 tar xvf prometheus-2.51.0.linux-amd64.tar.gz cd prometheus-2.51.0.linux-amd64

步骤2：配置Prometheus创建配置文件prometheus.yml：

global: scrape_interval: 15s # 每15秒采集一次数据 evaluation_interval: 15s # 每15秒评估一次告警规则 alerting: alertmanagers: - static_configs: - targets: # - alertmanager:9093 rule_files: # - "first_rules.yml" # - "second_rules.yml" scrape_configs: # 监控Prometheus自身 - job_name: 'prometheus' static_configs: - targets: ['localhost:9090'] # 监控Node Exporter（系统指标） - job_name: 'node' static_configs: - targets: ['localhost:9100'] # 监控DeerFlow应用 - job_name: 'deerflow' static_configs: - targets: ['localhost:8000'] # DeerFlow的监控端口 metrics_path: '/metrics' # 指标端点路径

步骤3：启动Prometheus

# 以后台方式启动 nohup ./prometheus --config.file=prometheus.yml > prometheus.log 2>&1 & # 检查是否启动成功 curl http://localhost:9090/metrics

4.2 部署Node Exporter

Node Exporter用于采集系统级别的指标。

# 下载Node Exporter cd /opt/monitoring wget https://github.com/prometheus/node_exporter/releases/download/v1.7.0/node_exporter-1.7.0.linux-amd64.tar.gz tar xvf node_exporter-1.7.0.linux-amd64.tar.gz cd node_exporter-1.7.0.linux-amd64 # 启动Node Exporter nohup ./node_exporter > node_exporter.log 2>&1 & # 验证 curl http://localhost:9100/metrics

4.3 部署Grafana

接下来部署可视化工具Grafana。

# 添加Grafana仓库 sudo apt-get install -y software-properties-common sudo add-apt-repository "deb https://packages.grafana.com/oss/deb stable main" wget -q -O - https://packages.grafana.com/gpg.key | sudo apt-key add - # 安装Grafana sudo apt-get update sudo apt-get install -y grafana # 启动Grafana服务 sudo systemctl daemon-reload sudo systemctl start grafana-server sudo systemctl enable grafana-server # 检查状态 sudo systemctl status grafana-server

现在，三个核心组件都已经部署完成。接下来是最关键的一步：让DeerFlow暴露监控指标。

5. DeerFlow监控指标暴露

要让Prometheus能够采集DeerFlow的指标，我们需要在DeerFlow中添加监控端点。

5.1 添加Prometheus客户端依赖

首先，在DeerFlow的Python环境中安装必要的监控库：

# 进入DeerFlow的工作目录 cd /root/workspace # 安装Prometheus Python客户端 pip install prometheus-client

5.2 创建监控模块

在DeerFlow项目中创建一个新的监控模块monitoring.py：

""" DeerFlow监控模块 用于暴露Prometheus格式的监控指标 """ from prometheus_client import start_http_server, Counter, Gauge, Histogram, Summary import time import threading from datetime import datetime import psutil import os class DeerFlowMetrics: """DeerFlow监控指标收集器""" def __init__(self, port=8000): self.port = port # 定义业务指标 self.requests_total = Counter( 'deerflow_requests_total', '总请求数', ['endpoint', 'method'] ) self.research_tasks_total = Counter( 'deerflow_research_tasks_total', '研究任务总数', ['task_type', 'status'] ) self.task_duration = Histogram( 'deerflow_task_duration_seconds', '任务执行时间', ['task_type'], buckets=(0.1, 0.5, 1.0, 2.0, 5.0, 10.0, 30.0, 60.0, float('inf')) ) self.active_tasks = Gauge( 'deerflow_active_tasks', '当前活跃任务数' ) self.error_total = Counter( 'deerflow_errors_total', '错误总数', ['error_type'] ) # 系统资源指标 self.cpu_usage = Gauge( 'deerflow_cpu_usage_percent', 'CPU使用率百分比' ) self.memory_usage = Gauge( 'deerflow_memory_usage_bytes', '内存使用量（字节）' ) # 启动指标收集线程 self._start_metrics_server() self._start_system_metrics_collector() def _start_metrics_server(self): """启动Prometheus指标服务器""" def run_server(): start_http_server(self.port) print(f"[{datetime.now()}] 监控指标服务器已启动，端口: {self.port}") server_thread = threading.Thread(target=run_server, daemon=True) server_thread.start() def _start_system_metrics_collector(self): """启动系统指标收集器""" def collect_system_metrics(): while True: try: # 收集CPU使用率 cpu_percent = psutil.cpu_percent(interval=1) self.cpu_usage.set(cpu_percent) # 收集内存使用量 process = psutil.Process(os.getpid()) memory_info = process.memory_info() self.memory_usage.set(memory_info.rss) except Exception as e: print(f"收集系统指标时出错: {e}") time.sleep(5) collector_thread = threading.Thread(target=collect_system_metrics, daemon=True) collector_thread.start() def record_request(self, endpoint, method): """记录请求""" self.requests_total.labels(endpoint=endpoint, method=method).inc() def record_research_task(self, task_type, status="completed"): """记录研究任务""" self.research_tasks_total.labels(task_type=task_type, status=status).inc() def record_task_duration(self, task_type, duration): """记录任务执行时间""" self.task_duration.labels(task_type=task_type).observe(duration) def set_active_tasks(self, count): """设置活跃任务数""" self.active_tasks.set(count) def record_error(self, error_type): """记录错误""" self.error_total.labels(error_type=error_type).inc() # 创建全局监控实例 metrics = DeerFlowMetrics()

5.3 集成监控到DeerFlow主程序

找到DeerFlow的主程序文件（通常是main.py或app.py），添加监控集成：

# 在文件开头导入监控模块 from monitoring import metrics import time from functools import wraps def monitor_task(task_type): """监控装饰器：用于监控任务执行""" def decorator(func): @wraps(func) def wrapper(*args, **kwargs): start_time = time.time() metrics.set_active_tasks(metrics.active_tasks._value.get() + 1) try: result = func(*args, **kwargs) duration = time.time() - start_time metrics.record_task_duration(task_type, duration) metrics.record_research_task(task_type, "completed") return result except Exception as e: metrics.record_research_task(task_type, "failed") metrics.record_error(type(e).__name__) raise finally: metrics.set_active_tasks(max(0, metrics.active_tasks._value.get() - 1)) return wrapper return decorator # 在关键函数上添加监控装饰器 @monitor_task("web_search") async def perform_web_search(query: str): """执行网络搜索""" # 原有的搜索逻辑 metrics.record_request("/api/search", "POST") # ... 搜索实现 ... @monitor_task("report_generation") async def generate_report(research_data: dict): """生成研究报告""" metrics.record_request("/api/report", "POST") # ... 报告生成逻辑 ... @monitor_task("podcast_generation") async def generate_podcast(content: str): """生成播客""" metrics.record_request("/api/podcast", "POST") # ... 播客生成逻辑 ...

5.4 验证监控端点

修改完成后，重启DeerFlow服务，然后验证监控端点是否正常工作：

# 重启DeerFlow服务（根据你的部署方式） cd /root/workspace # 如果使用systemd sudo systemctl restart deerflow # 或者如果直接运行 pkill -f "python.*deerflow" nohup python main.py > deerflow.log 2>&1 & # 验证监控端点 curl http://localhost:8000/metrics

如果一切正常，你应该能看到Prometheus格式的监控指标输出。

6. Grafana仪表盘配置

现在DeerFlow的监控指标已经可以采集了，接下来我们在Grafana中创建漂亮的监控仪表盘。

6.1 配置数据源

打开浏览器，访问http://你的服务器IP:3000
使用默认账号密码登录（admin/admin）
首次登录会要求修改密码
进入后，点击左侧菜单的"Configuration" → "Data Sources"
点击"Add data source"，选择"Prometheus"
配置Prometheus地址：http://localhost:9090
点击"Save & Test"，应该显示"Data source is working"

6.2 创建DeerFlow监控仪表盘

我们将创建一个包含多个面板的完整监控仪表盘。

面板1：系统资源概览

面板标题：系统资源使用情况 查询语句： - CPU使用率：100 - (avg by(instance)(irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) - 内存使用率：(node_memory_MemTotal_bytes - node_memory_MemAvailable_bytes) / node_memory_MemTotal_bytes * 100 - 磁盘使用率：node_filesystem_avail_bytes / node_filesystem_size_bytes * 100 可视化：Stat + Gauge

面板2：DeerFlow业务指标

面板标题：业务指标监控 查询语句： - 总请求数：rate(deerflow_requests_total[5m]) - 活跃任务数：deerflow_active_tasks - 任务成功率：sum(rate(deerflow_research_tasks_total{status="completed"}[5m])) / sum(rate(deerflow_research_tasks_total[5m])) - 错误率：sum(rate(deerflow_errors_total[5m])) / sum(rate(deerflow_requests_total[5m])) 可视化：Time series + Bar gauge

面板3：任务执行时间分布

面板标题：任务执行时间分析 查询语句： - 平均执行时间：rate(deerflow_task_duration_seconds_sum[5m]) / rate(deerflow_task_duration_seconds_count[5m]) - P95执行时间：histogram_quantile(0.95, sum(rate(deerflow_task_duration_seconds_bucket[5m])) by (le, task_type)) - 按任务类型分组：sum by(task_type)(rate(deerflow_task_duration_seconds_count[5m])) 可视化：Heatmap + Time series

面板4：实时请求监控

面板标题：实时请求流量 查询语句： - 请求QPS：sum(rate(deerflow_requests_total[1m])) - 按端点分布：sum by(endpoint)(rate(deerflow_requests_total[5m])) - 按方法分布：sum by(method)(rate(deerflow_requests_total[5m])) 可视化：Time series + Pie chart

6.3 创建告警规则

在Grafana中设置关键告警：

CPU使用率过高告警
- 条件：CPU使用率 > 80% 持续5分钟
- 通知渠道：邮件/钉钉/企业微信
内存使用率过高告警
- 条件：内存使用率 > 85% 持续5分钟
- 通知渠道：邮件/钉钉/企业微信
错误率升高告警
- 条件：错误率 > 5% 持续3分钟
- 通知渠道：邮件/钉钉/企业微信
任务积压告警
- 条件：活跃任务数 > 10 持续2分钟
- 通知渠道：邮件/钉钉/企业微信

6.4 仪表盘布局优化

将相关面板分组，创建有逻辑的布局：

第一行：系统健康度（CPU、内存、磁盘、网络） 第二行：业务核心指标（请求量、成功率、错误率） 第三行：性能分析（响应时间、任务分布） 第四行：实时监控（请求流量、活跃任务）

保存仪表盘，命名为"DeerFlow生产监控"，设置自动刷新间隔为15秒。

7. 实战演示：监控DeerFlow研究任务

让我们通过一个实际的例子，看看监控系统如何工作。

7.1 模拟研究任务

创建一个测试脚本，模拟用户使用DeerFlow进行研究：

# test_deerflow_monitoring.py import requests import time import random import threading def simulate_research_task(task_id): """模拟一个研究任务""" print(f"[任务{task_id}] 开始执行...") # 模拟不同类型的任务 task_types = ["market_analysis", "tech_research", "content_creation", "data_analysis"] task_type = random.choice(task_types) # 记录任务开始 start_time = time.time() try: # 模拟任务执行时间（1-10秒） execution_time = random.uniform(1, 10) time.sleep(execution_time) # 模拟成功率（90%成功） if random.random() < 0.9: print(f"[任务{task_id}] 完成，类型: {task_type}, 耗时: {execution_time:.2f}秒") return True else: print(f"[任务{task_id}] 失败，类型: {task_type}") return False except Exception as e: print(f"[任务{task_id}] 异常: {e}") return False finally: end_time = time.time() duration = end_time - start_time print(f"[任务{task_id}] 总耗时: {duration:.2f}秒") def run_concurrent_tasks(num_tasks=20): """并发运行多个任务""" threads = [] results = [] for i in range(num_tasks): thread = threading.Thread(target=lambda idx=i: results.append(simulate_research_task(idx))) threads.append(thread) thread.start() time.sleep(random.uniform(0.1, 0.5)) # 随机间隔启动 # 等待所有任务完成 for thread in threads: thread.join() success_count = sum(1 for r in results if r) print(f"\n任务完成统计:") print(f"总任务数: {num_tasks}") print(f"成功数: {success_count}") print(f"失败数: {num_tasks - success_count}") print(f"成功率: {success_count/num_tasks*100:.1f}%") if __name__ == "__main__": print("开始模拟DeerFlow研究任务...") run_concurrent_tasks(20)

7.2 观察监控数据变化

运行测试脚本后，打开Grafana仪表盘，观察以下变化：

请求量上升：deerflow_requests_total指标会增加
活跃任务数波动：deerflow_active_tasks会显示并发任务数
任务执行时间分布：deerflow_task_duration_seconds会记录每个任务的耗时
成功率统计：成功和失败的任务都会被记录
系统资源使用：CPU和内存使用率会根据负载变化

7.3 分析监控数据

通过监控数据，我们可以获得以下洞察：

性能瓶颈识别：如果某种类型的任务执行时间明显较长，可能需要优化
资源规划依据：根据峰值负载调整服务器配置
异常检测：及时发现错误率升高的异常情况
容量规划：基于历史数据预测未来资源需求

8. 高级监控技巧与优化建议

基本的监控已经搭建完成，这里还有一些进阶技巧可以帮助你更好地利用监控系统。

8.1 自定义业务指标

除了系统指标，你还可以添加更多业务相关的监控指标：

# 在monitoring.py中添加更多业务指标 # 研究深度指标 research_depth = Histogram( 'deerflow_research_depth', '研究深度（引用来源数量）', buckets=(1, 3, 5, 10, 20, 50, 100, float('inf')) ) # 报告质量指标 report_quality = Gauge( 'deerflow_report_quality_score', '报告质量评分', ['report_type'] ) # 用户满意度指标（可通过反馈机制收集） user_satisfaction = Gauge( 'deerflow_user_satisfaction', '用户满意度评分' ) # 成本监控指标 api_cost = Counter( 'deerflow_api_cost_units', 'API调用成本（按提供商）', ['provider'] )

8.2 监控数据持久化与备份

默认情况下，Prometheus数据保留15天。对于长期趋势分析，可以考虑：

延长保留时间：修改Prometheus配置

# 在prometheus.yml中添加 storage: tsdb: retention: 90d # 保留90天

设置远程存储：将数据备份到对象存储

remote_write: - url: "http://remote-storage:8086/api/v1/prom/write"

定期备份：编写备份脚本

# backup_prometheus.sh #!/bin/bash BACKUP_DIR="/backup/prometheus" DATE=$(date +%Y%m%d) # 停止Prometheus（如果允许短暂停机） # systemctl stop prometheus # 备份数据目录 tar -czf "$BACKUP_DIR/prometheus_data_$DATE.tar.gz" /opt/monitoring/prometheus/data/ # 备份配置文件 cp /opt/monitoring/prometheus/prometheus.yml "$BACKUP_DIR/prometheus_config_$DATE.yml" # 重新启动 # systemctl start prometheus

8.3 自动化运维集成

将监控与自动化运维工具集成：

与告警系统集成：将Grafana告警发送到OpsGenie、PagerDuty等
与CI/CD集成：在部署前后检查监控指标

与自动化扩缩容集成：基于监控指标自动调整资源

# 示例：基于CPU使用率自动扩缩容 import boto3 def auto_scale_based_on_metrics(): # 查询当前CPU使用率 cpu_usage = query_prometheus('avg(rate(node_cpu_seconds_total[5m])) * 100') if cpu_usage > 80: # 触发扩容 scale_out() elif cpu_usage < 30: # 触发缩容 scale_in()

8.4 监控数据可视化最佳实践

颜色编码标准化：
- 绿色：正常状态
- 黄色：警告状态
- 红色：错误状态
关键指标突出显示：
- 使用大字体显示核心指标
- 添加阈值线显示正常范围
- 使用趋势图显示历史变化
仪表盘分层设计：
- 第一层：概览仪表盘（高管视图）
- 第二层：技术仪表盘（运维视图）
- 第三层：详情仪表盘（开发视图）

9. 常见问题与解决方案

在实际部署和使用过程中，你可能会遇到一些问题。这里列出了一些常见问题及其解决方法。

9.1 Prometheus无法采集指标

问题现象：Prometheus targets页面显示DeerFlow为DOWN状态。

可能原因和解决方案：

网络连接问题

# 检查端口是否开放 netstat -tlnp | grep 8000 # 检查防火墙规则 sudo ufw status sudo ufw allow 8000/tcp

DeerFlow监控端点未启动

# 检查DeerFlow进程 ps aux | grep deerflow # 检查监控端点 curl -v http://localhost:8000/metrics # 查看日志 tail -f /root/workspace/deerflow.log

Prometheus配置错误

# 检查prometheus.yml配置 scrape_configs: - job_name: 'deerflow' static_configs: - targets: ['localhost:8000'] # 确保IP和端口正确 metrics_path: '/metrics' # 确保路径正确 scrape_interval: 15s # 采集间隔

9.2 Grafana无法显示数据

问题现象：Grafana面板显示"No data"。

排查步骤：

检查数据源连接

# 在Grafana中测试数据源 # 点击Data Sources → Prometheus → Save & Test # 应该显示"Data source is working"

检查查询语句

# 在Grafana Explore页面测试查询 # 基础查询测试 up{job="deerflow"} # 查看所有可用指标 {__name__=~".+"}

检查时间范围
- 确保查询的时间范围包含数据时间
- 检查时区设置是否正确

9.3 监控数据不准确

问题现象：监控数据显示的数值与实际不符。

可能原因：

指标定义错误

# 检查指标类型是否正确 # Counter：只增不减，适合计数 # Gauge：可增可减，适合当前值 # Histogram：适合分布统计

标签使用不当

# 避免标签值过多导致基数爆炸 # 错误示例：使用用户ID作为标签 requests_total.labels(user_id=user_id).inc() # 可能导致数百万个时间序列 # 正确示例：使用有限的分组 requests_total.labels(user_type=user_type).inc()

采集频率问题

# 调整Prometheus采集频率 scrape_configs: - job_name: 'deerflow' scrape_interval: 15s # 根据需求调整 scrape_timeout: 10s # 超时时间

9.4 性能影响问题

问题现象：添加监控后，DeerFlow性能下降。

优化建议：

减少指标数量

# 只监控关键指标，避免过度监控 # 删除不必要的指标

优化采集频率

# 降低非关键指标的采集频率 - job_name: 'detailed_metrics' scrape_interval: 60s # 改为60秒采集一次

使用批处理

# 批量更新指标，减少锁竞争 def batch_update_metrics(metrics_data): with metrics_lock: for name, value in metrics_data.items(): metrics_registry[name].set(value)

9.5 存储空间不足

问题现象：Prometheus磁盘使用快速增长。

解决方案：

调整数据保留策略

# prometheus.yml storage: tsdb: retention: 15d # 减少保留天数

数据压缩

# 手动触发数据压缩 curl -XPOST http://localhost:9090/api/v1/admin/tsdb/clean_tombstones

使用远程存储

remote_write: - url: "http://thanos:10908/api/v1/receive" remote_read: - url: "http://thanos:10908/api/v1/query"

10. 总结与最佳实践

通过本文的步骤，你已经成功将DeerFlow与Prometheus+Grafana监控体系集成。让我们回顾一下关键要点和最佳实践。

10.1 核心收获

监控价值实现：你现在可以实时了解DeerFlow的运行状态，包括系统资源、业务指标、性能数据等。
问题快速定位：当出现性能下降或错误时，可以通过监控数据快速定位问题根源。
数据驱动决策：基于历史监控数据，可以做出更合理的容量规划和优化决策。
自动化运维基础：为后续的自动化扩缩容、智能告警等高级功能奠定了基础。

10.2 持续优化建议

定期审查监控指标
- 每月审查一次监控指标的有效性
- 删除不再使用的指标，添加新的业务指标
- 优化查询语句，提高查询效率
建立监控告警闭环
- 告警必须有人响应和处理
- 建立告警升级机制
- 定期回顾告警，减少误报
监控数据驱动优化
- 分析性能瓶颈，针对性优化
- 基于使用模式调整资源配置
- 预测未来需求，提前规划
安全考虑
- 限制监控端点的访问权限
- 使用HTTPS加密监控数据传输
- 定期更新监控组件版本

10.3 扩展思考

这套监控体系不仅适用于DeerFlow，还可以扩展到其他AI应用：

多实例监控：如果你部署了多个DeerFlow实例，可以使用服务发现自动监控所有实例。
跨系统监控：将DeerFlow监控与其他系统（数据库、缓存、消息队列）监控整合，获得全栈视图。
业务指标监控：除了技术指标，还可以监控业务指标，如用户满意度、任务完成质量等。
成本监控：监控API调用成本、计算资源成本，优化成本效益。

监控不是一次性的工作，而是一个持续的过程。随着DeerFlow功能的发展和业务需求的变化，你的监控体系也需要不断演进。记住，好的监控系统应该像一双敏锐的眼睛，让你对系统的运行状态了如指掌，而不是成为系统的负担。

现在，你已经拥有了一个专业的DeerFlow监控系统。开始使用它，观察数据，从中学习，并不断优化你的DeerFlow部署吧！

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。