news 2026/6/8 20:48:36

wandb报错并且AttributeError: ‘_thread.RLock‘ object has no attribute ‘_recursion_count‘

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
wandb报错并且AttributeError: ‘_thread.RLock‘ object has no attribute ‘_recursion_count‘

WandB 退出错误说明

错误信息

Exception ignored in atexit callback: <function _start_and_connect_service.<locals>.teardown_atexit> BrokenPipeError: [Errno 32] Broken pipe Exception ignored in: <function ResourceTracker.__del__ at 0x...> AttributeError: '_thread.RLock' object has no attribute '_recursion_count'

错误性质

这些是非关键错误(Non-critical errors),发生在程序正常退出时的清理过程中。

为什么会出现?

  1. 程序正常完成:训练已经成功完成,wandb 已经同步了所有数据
  2. 清理阶段问题:在程序退出时,wandb 和 multiprocess 尝试清理资源
  3. 异步操作冲突:退出时某些异步操作(如网络连接关闭)可能已经中断

错误分析

1. WandB BrokenPipeError

BrokenPipeError: [Errno 32] Broken pipe

原因

  • WandB 在程序退出时尝试关闭连接
  • 但连接可能已经被系统或其他进程关闭
  • 这是清理阶段的竞态条件

影响

  • 不影响训练结果
  • 不影响 checkpoint 保存
  • WandB 数据已经同步(从日志可以看到 “Synced 5 W&B file(s)”)

2. ResourceTracker AttributeError

AttributeError: '_thread.RLock' object has no attribute '_recursion_count'

原因

  • Python multiprocess 的资源跟踪器在清理时的问题
  • 可能是 Python 版本兼容性问题
  • 发生在__del__析构函数中

影响

  • 不影响训练结果
  • 不影响数据保存
  • ⚠️ 可能有一些资源没有完全清理(但会被系统回收)

验证训练是否成功

检查 checkpoint

# 查看最新的 checkpointls-lh /root/autodl-tmp/verl/checkpoints/verl_example_gsm8k/deepseek_llm_7b_function_rm/# 查看 checkpoint 内容cat/root/autodl-tmp/verl/checkpoints/verl_example_gsm8k/deepseek_llm_7b_function_rm/latest_checkpointed_iteration.txt

检查 WandB 记录

从日志可以看到:

  • ✅ WandB 已经同步:Synced 5 W&B file(s)
  • ✅ 可以查看运行记录:https://wandb.ai/xxx/verl_example_gsm8k/runs/ny8yfg5m

检查训练指标

从日志可以看到训练指标已经记录:

  • actor/pg_loss: 0.00065
  • actor/ppo_kl: 0.00011
  • critic/advantages/mean: 0.0
  • 等等

解决方案

方案 1: 忽略错误(推荐)

这些错误不影响训练结果,可以安全忽略。训练已经成功完成。

方案 2: 抑制 WandB 退出错误

如果不想看到这些错误信息,可以在脚本中添加:

# 在脚本开头添加exportWANDB_SILENT=true# 或exportPYTHONWARNINGS="ignore::UserWarning"

方案 3: 更新依赖

如果问题持续,可以尝试更新相关包:

pipinstall--upgrade wandb multiprocess

方案 4: 使用环境变量抑制

# 抑制 atexit 错误exportPYTHONUNBUFFERED=1# 或者在 Python 代码中importwarnings warnings.filterwarnings('ignore')

总结

  • 训练成功完成:所有数据已保存
  • WandB 同步成功:数据已上传
  • Checkpoint 已保存:可以继续训练或使用
  • ⚠️退出错误:不影响结果,可以忽略

建议

  1. 检查训练结果:确认 checkpoint 和 WandB 记录正常
  2. 继续使用:这些错误不影响后续使用
  3. 如果担心:可以查看 WandB 网页确认所有数据都已记录

相关链接

  • WandB 运行记录:https://wandb.ai/xxx/verl_example_gsm8k/runs/ny8yfg5m
  • 项目页面:https://wandb.ai/xxx/verl_example_gsm8k
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 17:39:36

深入解析:Wyn商业智能软件有哪些自助分析功能?

深入解析&#xff1a;Wyn商业智能软件有哪些自助分析功能&#xff1f; 一、引言&#xff1a;什么是真正的企业级自助式BI&#xff1f; 真正的自助式BI&#xff0c;远非简单的拖拽图表。它是一套覆盖数据准备、探索分析、协作共享与安全管控全流程的赋能力量&#xff0c;旨在让业…

作者头像 李华
网站建设 2026/6/9 17:38:19

【期末复习】

文章目录项目结构文章介绍1.案例Algorithm012.案例Algorithm023.案例lgorithm034.案例Algorithm045.案例Algorithm05项目结构 文章介绍 期末复习重点案例&#xff08;算法题&#xff09; 1.案例Algorithm01 要求&#xff1a;使用冒泡排序算法对数组a{9, 7, 4, 6, 3, 1,10}&a…

作者头像 李华
网站建设 2026/6/9 14:05:38

35岁程序员必看!智能体开发:你的职场第二曲线,建议收藏

35岁已成为IT从业者的职场危机&#xff0c;AI和年轻一代的竞争使传统经验优势减弱。智能体(Agent)作为解决方案&#xff0c;开发门槛低&#xff0c;有经验的程序员可快速掌握。当前市场极度缺乏智能体开发人才&#xff0c;为35IT人提供了升职加薪的新机会。这项技术让经验重新获…

作者头像 李华
网站建设 2026/6/5 20:04:43

solov2_r101-dcn_fpn_ms-3x_coco_小麦叶片病害检测与识别

1. 基于改进DCN的SOLOv2小麦叶片病害检测算法研究 在现代农业发展过程中&#xff0c;小麦作为我国主要的粮食作物&#xff0c;其健康生长直接关系到国家粮食安全。然而&#xff0c;小麦叶片病害的早期检测与识别一直是农业生产中的难点问题。传统的人工检测方法效率低下、主观…

作者头像 李华
网站建设 2026/6/9 7:26:55

EasyGBS智慧图书馆视频监控解决方案

在数字化和智能化浪潮的推动下&#xff0c;现代图书馆正从传统的文献收藏中心向知识服务和智慧学习空间转型。然而&#xff0c;随着服务功能的扩展和读者人数的增加&#xff0c;图书馆在安全管理、资源优化、服务提升等方面面临新的挑战。国标GB28181算法算力平台EasyGBS&#…

作者头像 李华
网站建设 2026/6/9 12:44:48

【强化学习】06周博磊强化学习纲要学习笔记——第三课下

今日课程提纲&#xff1a; 接下来将介绍model-free control。就是当没法得到马尔科夫决策过程里面模型的情况下&#xff0c;如何去优化它的价值函数&#xff0c;如何去得到一个最佳的策略。这里我们将把之前我们介绍的policy iteration进行一个广义的推广&#xff0c;使它能够…

作者头像 李华