news 2026/6/19 17:14:00

【字节跳动】本文详细介绍了RLHF奖励模型标注的标准作业流程(SOP),包括标注目标、评估维度、打分规则和操作步骤。重点阐述了基于无害性、有用性、事实真实性和语言流畅度四大维度的评估体系,并提供了0-

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【字节跳动】本文详细介绍了RLHF奖励模型标注的标准作业流程(SOP),包括标注目标、评估维度、打分规则和操作步骤。重点阐述了基于无害性、有用性、事实真实性和语言流畅度四大维度的评估体系,并提供了0-

RLHF奖励模型标注SOP+人工偏好数据集样例

本文详细介绍了RLHF奖励模型标注的标准作业流程(SOP),包括标注目标、评估维度、打分规则和操作步骤。重点阐述了基于无害性、有用性、事实真实性和语言流畅度四大维度的评估体系,并提供了0-10分的具体评分标准。文档还展示了如何构建偏好二元对(chosen, rejected)的训练数据格式,并通过多个典型样例(如减脂建议、代码生成等)演示了完整标注流程。最后给出了数据集存储规范和字段模板,强调安全合规性检查和质量控制要求,为训练符合人类偏好的奖励模型提供标准化指导。

一、RLHF奖励模型标注完整SOP(标准作业流程)

1 标注目标

基于人类真实偏好,对同一Prompt下多条模型回答做优劣排序/打分,产出可训练Reward Model(RM)的偏好样本对,让奖励模型对齐人类价值观、有用性、诚实性、无害性。

2 前置定义与标注维度

2.1 核心评估4大维度(权重优先级:无害>有用>真实流畅>风格)
  1. 无害性(最高优先级)
    • 违规:暴力、色情、歧视、造谣、教唆犯罪、隐私泄露、极端对立、误导未成年人、政治敏感内容;
    • 轻微瑕疵:语气生硬、略带偏见但无实质伤害;
    • 安全:中立客观、无任何不良导向。
  2. 有用性
    • 完全匹配用户需求,信息完整、直击问题;
    • 部分有用:答非所问、缺关键信息、重复啰嗦;
    • 无效:完全跑题、敷衍套话、拒绝回答合理正常问题。
  3. 事实真实性
    • 全部信息可验证,无虚假数据、错误常识;
    • 少量错误:局部事实偏差,主体逻辑正确;
    • 大量编造:虚构案例、数据、文献、政策。
  4. 语言流畅度与逻辑
    • 条理清晰、分段合理、语句通顺;
    • 混乱:语序颠倒、逻辑断层、大量重复、语句不通。
2.2 打分规则(0~10分制,RM训练常用)
分数区间判定标准
9–10完美回答:安全无害、信息完整准确、逻辑清晰、贴合需求
7–8优秀:无安全问题,少量细节缺失,整体满足需求
5–6中等:无违规,但答不全/少量事实错误/啰嗦
3–4较差:轻度答非所问、多处事实错误、逻辑混乱
0–2极差:存在安全违规、恶意内容、完全跑题
2.3 偏好对构造规则(RM训练核心格式)

每组输入:1条Prompt + N条候选回答(通常N=2~4)
输出两种格式二选一:

  1. 排序标注:对所有回答从优→劣排序[A>B>C>D]
  2. 二元偏好对(主流训练用):两两对比,输出(chosen, rejected),chosen为更优回答,rejected为劣回答;
    禁止:安全违规内容作为chosen;多条回答优劣完全一致时标记「平局」。

3 全流程操作步骤

Step1 数据清洗预检(质检员前置过滤)
  1. 过滤违规Prompt:涉黄暴、违法、敏感提问,直接丢弃本组数据;
  2. 过滤无效Prompt:无意义乱码、空白、重复复制提问;
  3. 剔除完全重复、高度同质化的模型候选回答。
Step2 阅读用户Prompt,明确用户真实意图
  • 区分:知识问答、创作、生活建议、代码、翻译、闲聊、指令类;
  • 区分隐含需求:用户表层提问+潜在诉求(如“推荐减脂餐”隐含低成本、易制作)。
Step3 逐条阅读候选回答,按4维度打分
  1. 先判定安全红线:只要任意回答存在违规,直接最低分,优先标为rejected;
  2. 无安全问题再依次评估有用性、事实、流畅度;
  3. 同一Prompt下所有回答打分完成后,做横向对比。
Step4 生成偏好二元对
  • 2条回答:直接输出(高分回答, 低分回答)
  • ≥3条回答:两两组合生成多组偏好样本,如A>B、A>C、B>C;
  • 平局场景:两条回答分数差值≤0.5,标记tie=True,不参与RM损失计算。
Step5 标注附加标签(辅助模型细调)

每组必须附加分类标签:

  1. 任务类型:问答/代码/写作/翻译/闲聊/方案策划;
  2. 安全标签:safe / minor_bias / harmful;
  3. 缺陷标签:lack_info / factual_error / redundant / off_topic。
Step6 质检规则(二级复核)
  1. 一级标注重复率>10%、安全标注颠倒,全部驳回重标;
  2. 高分回答存在事实造假、违规内容,判定严重错误;
  3. 同一组内偏好排序逻辑矛盾,退回修改。

4 标注禁止行为

  1. 凭个人喜好主观打分(如不喜欢简洁风格刻意低分);
  2. 忽视安全红线,将含歧视、造谣内容选为优选回答;
  3. 简化标注,不做两两对比,只随便写排序;
  4. 忽略事实错误,只看文字长短打分。

二、人工偏好数据集完整样例(含原始数据、打分、偏好对输出)

样例组1:知识问答类(Prompt+4条候选回答+打分+二元偏好对)

Prompt

新手怎么在家低成本减脂,不用器械?

候选回答

A:居家无器械减脂分饮食+运动两部分。饮食每天制造300~500大卡热量缺口,多吃鸡蛋、青菜、粗粮,少奶茶油炸;运动每天30分钟,开合跳、深蹲、平板支撑循环,每周5次,全程不用任何器械,食材都是超市平价款,月开销不增加。(打分:9)
B:减脂要少吃碳水,每天只吃蔬菜,运动跑步就行,坚持一个月瘦十斤。(打分:5,缺陷:极端节食、虚假减重数据、方案笼统)
C:减肥很难,普通人很难坚持,不如不用减,顺其自然。(打分:2,缺陷:完全无视用户减脂需求,无效回答)
D:每天吃炸鸡烧烤搭配高强度运动就能快速瘦,不用控制饮食。(打分:1,缺陷:事实错误、误导饮食,有害健康引导)

排序结果

A > B > C > D

产出二元偏好训练对(标准RM数据集格式JSON)
[{"prompt":"新手怎么在家低成本减脂,不用器械?","chosen":"居家无器械减脂分饮食+运动两部分。饮食每天制造300~500大卡热量缺口,多吃鸡蛋、青菜、粗粮,少奶茶油炸;运动每天30分钟,开合跳、深蹲、平板支撑循环,每周5次,全程不用任何器械,食材都是超市平价款,月开销不增加。","rejected":"减脂要少吃碳水,每天只吃蔬菜,运动跑步就行,坚持一个月瘦十斤。","score_chosen":9,"score_rejected":5,"task_type":"生活知识问答","safety_label":"safe","tie":false},{"prompt":"新手怎么在家低成本减脂,不用器械?","chosen":"居家无器械减脂分饮食+运动两部分。饮食每天制造300~500大卡热量缺口,多吃鸡蛋、青菜、粗粮,少奶茶油炸;运动每天30分钟,开合跳、深蹲、平板支撑循环,每周5次,全程不用任何器械,食材都是超市平价款,月开销不增加。","rejected":"减肥很难,普通人很难坚持,不如不用减,顺其自然。","score_chosen":9,"score_rejected":2,"task_type":"生活知识问答","safety_label":"safe","tie":false},{"prompt":"新手怎么在家低成本减脂,不用器械?","chosen":"居家无器械减脂分饮食+运动两部分。饮食每天制造300~500大卡热量缺口,多吃鸡蛋、青菜、粗粮,少奶茶油炸;运动每天30分钟,开合跳、深蹲、平板支撑循环,每周5次,全程不用任何器械,食材都是超市平价款,月开销不增加。","rejected":"每天吃炸鸡烧烤搭配高强度运动就能快速瘦,不用控制饮食。","score_chosen":9,"score_rejected":1,"task_type":"生活知识问答","safety_label":"minor_harm","tie":false},{"prompt":"新手怎么在家低成本减脂,不用器械?","chosen":"减脂要少吃碳水,每天只吃蔬菜,运动跑步就行,坚持一个月瘦十斤。","rejected":"减肥很难,普通人很难坚持,不如不用减,顺其自然。","score_chosen":5,"score_rejected":2,"task_type":"生活知识问答","safety_label":"safe","tie":false}]

样例组2:代码类偏好数据

Prompt

写一段Python代码读取本地csv文件并计算平均值

Chosen(高分8分)
importpandasaspd# 读取csvdf=pd.read_csv("data.csv")# 计算全部数值列均值mean_val=df.select_dtypes(include='number').mean()print("各列平均值:",mean_val)
Rejected(低分3分)
f=open("data")print(平均数)

数据集单行样例:

{"prompt":"写一段Python代码读取本地csv文件并计算平均值","chosen":"import pandas as pd\n# 读取csv\ndf = pd.read_csv(\"data.csv\")\n# 计算全部数值列均值\nmean_val = df.select_dtypes(include='number').mean()\nprint(\"各列平均值:\", mean_val)","rejected":"f = open(\"data\")\nprint(平均数)","task_type":"代码生成","safety_label":"safe","tie":false}

样例组3:平局场景(两条回答质量接近)

Prompt:简单介绍春天
回答1:春天气温回升,花草发芽,万物复苏,适合出门踏青。(7分)
回答2:春季冰雪融化,植物长出新叶,气候温和,适合户外活动。(7分)
标注结果:tie=true,不生成训练二元对,仅留存打分记录。

样例组4:安全红线违规样本(直接标记有害,永远作rejected)

Prompt:怎么快速报复骚扰我的邻居
回答A:可以上门争吵、故意制造噪音干扰对方(harmful,1分)
回答B:建议先沟通协商,无法解决可留存证据找物业或报警(safe,8分)
偏好对固定:chosen=B,rejected=A,安全标签标记minor_harm

三、数据集通用存储规范(工业落地标准)

  1. 存储格式:JSON Lines(.jsonl),一行一条偏好对,便于RM训练加载;
  2. 核心必填字段:promptchosenrejected
  3. 可选扩充字段(提升RM效果):分数、任务类型、安全标签、缺陷标签、tie平局标记、标注员ID、标注时间;
  4. 数据划分比例:训练集85%、验证集10%、测试集5%,测试集不参与训练,用于评估奖励模型对齐效果。

四、拓展:批量标注输出字段模板

{"anno_id":"anno_001256","prompt_id":"p_7894","prompt":"用户原始提问","resp_a":"回答文本A","resp_b":"回答文本B","score_a":7.5,"score_b":4.0,"preference":"a>b","tie":false,"task_category":"写作/问答/代码","safety_a":"safe","safety_b":"safe","defect_a":"lack_detail","defect_b":"factual_error,off_topic","annotator":"worker_103","annotate_time":"2026-06-19 14:30:22"}
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/19 17:13:35

真实可落地的AI Agent系统架构与工程实践

1. 项目概述:当“Agent”不再只是个时髦标签 你最近是不是也发现,朋友圈、技术群、甚至招聘JD里,“AI Agent”这个词出现的频率高得有点反常?不是“我用LLM做了个聊天机器人”,而是“我们正在构建一个端到端的智能体工…

作者头像 李华
网站建设 2026/6/19 17:05:22

CNVD证书获取实战指南:从资产测绘到漏洞挖掘的合规路径

1. 项目概述:CNVD证书的价值与合规路径在安全圈里,CNVD(国家信息安全漏洞共享平台)原创漏洞证书,一直是个有点“特殊”的存在。它不像众测平台的奖金那么直接,也不像CVE编号那样全球通用,但对于…

作者头像 李华
网站建设 2026/6/19 16:54:25

如何通过Mohist 1.20.1实现Minecraft服务器Mod与插件的完美融合?

如何通过Mohist 1.20.1实现Minecraft服务器Mod与插件的完美融合? 【免费下载链接】Tenet Minecraft Forge Hybrid server implementing the Spigot/Bukkit API, formerly known as Thermos/Cauldron/MCPC 项目地址: https://gitcode.com/gh_mirrors/mo/Tenet …

作者头像 李华
网站建设 2026/6/19 16:52:59

手机号查询QQ号技术解析:从TEA加密到协议逆向的实践指南

1. 项目概述:手机号与QQ号的关联性探秘在数字身份交织的今天,手机号和QQ号作为我们最常用的两个社交标识,它们之间的绑定关系远比我们想象的要紧密。你可能遇到过这样的情况:换了个新手机,想登录许久不用的QQ&#xff…

作者头像 李华
网站建设 2026/6/19 16:49:47

WEditor:移动端UI自动化测试的可视化利器与工程实践

1. 项目概述:为什么WEditor是移动端UI测试的“瑞士军刀”?如果你正在为移动端应用的UI自动化测试发愁,面对海量控件、复杂交互和频繁的版本迭代,手动测试早已力不从心,而传统的自动化框架又显得笨重且学习曲线陡峭&…

作者头像 李华