人工智能实战:大模型输出不稳定怎么治理?从前期发现“同问不同答”到一致性评测、参数控制与结果锁定
一、问题场景:同一个问题,今天答500元,明天答“约500元”
大模型输出天然具有不确定性。
在聊天、创作场景中,这可能是优点。
但在企业系统里,很多场景需要稳定输出:
1. 制度问答 2. JSON 抽取 3. 工单分类 4. 风险标签判断 5. 报表摘要 6. 合规问答我见过一个 RAG 系统,用户反复问同一个问题:
一线城市住宿费最多报销多少?结果有时回答:
500元有时回答:
每天不超过500元有时回答:
约500元左右还有一次回答:
根据实际情况不超过500元左右虽然大体接近,但业务方无法接受“约”“左右”。
原因是: