在当前大量 AI 系统被引入“决策场景”的背景下,我想先抛出一个看似基础、但长期被忽略的问题:
如果同一份输入数据,在不同时间、不同会话中多次执行,得到的决策结果不一致,这样的系统是否真的具备“决策能力”?
这个问题不是哲学问题,而是一个工程合法性问题。
一、为什么这个问题在工程上无法回避?
在实际系统中,所谓“决策”意味着三件事:
结果可复现
过程可审计
责任可追溯
如果同一输入多次运行结果不同,那么这三点全部不成立。
二、非确定性在“建议系统”中可以接受,但在“决策系统”中不行
在实际讨论中,这类问题往往会被以下理由弱化:
“模型本身存在随机性”
“现实环境本来就不确定”
“AI 只是辅助工具”
这些说法在建议系统中可以成立,但在决策系统中不成立。
原因很简单:
建议允许不一致,决策不允许。
一旦系统被用于选股、风控、审批、调度等场景,
“同题不同答”就不再是模型特性,而是系统缺陷。
三、工程上如何判定“这个问题是否被解决”?
这个问题不需要模糊讨论,可以直接给出严格判定条件:
在相同输入条件下,系统的裁决输出在任意重复执行中必须保持完全一致。
注意几个关键词:
相同输入(结构化、规范化之后)
任意重复执行
完全一致(不仅是集合一致,还包括排序)
如果不满足这一条件,那么无论解释多充分,
它依然只能被称为“辅助建议系统”。
四、这个问题是否真的可以被彻底解决?
答案是:可以。
但需要澄清的是:
这不是通过“更强的模型”实现的
也不是通过“更复杂的推理”实现的
更不是通过“多跑几次取平均”实现的
真正可行的方向只有一个:
将裁决过程本身形式化,并对模型在裁决阶段的行为施加严格、不可变的约束。
当裁决流程被完全约束之后,
模型的非确定性只存在于“理解阶段”,
而不会进入最终的裁决结果。
五、为什么这个问题长期没有被正面解决?
原因并不在技术能力,而在目标定义:
多数系统追求的是“效果更好”
而不是“结果可担责”
一旦引入“可担责”这个目标函数,
大量看似合理的 AI 行为都会被直接禁止。
这也是为什么很多系统在概念上“像决策”,
但在工程上无法承担决策责任。
六、结论
决策系统与建议系统之间,并不存在模糊地带。
判断标准只有一个:
同一份输入,是否在任何时候都给出同一个结果。
在满足这一条件之前,
任何系统都不应被称为“决策系统”。
写在最后
这不是对 AI 能力的否定,
而是对系统工程边界的重新确认。
在真正的决策场景中,
稳定性不是优化目标,
而是前置门槛。
我就是yuer,来自中国成都,一名AGI独立架构师,仓库地址:https://github.com/yuer-dsl