ML生产化实战：从Notebook到高可用模型服务的17个关键细节-洪萨配资

1. 项目概述：这不是“部署”，是让模型在真实世界里活下来

“From Notebook to Production: Running ML in the Real World (Part 4)”——这个标题里藏着一个被太多人轻描淡写、却天天在后台崩盘的真相：Notebook不是起点，生产环境也不是终点；它是一条持续搏斗的生存链路。我带过七支不同行业的ML落地团队，从电商推荐到工业设备预测性维护，几乎每支队伍都卡死在Part 3和Part 4之间：模型在Jupyter里AUC 0.92，上线三天后API响应延迟飙到8秒，第四天开始返回空结果，第五天运维同事发来截图：“/health endpoint 503，日志里全是ConnectionResetError”。Part 4不是锦上添花的“部署收尾”，而是把实验室里的数学公式，塞进银行核心交易系统旁的Kubernetes集群、嵌入工厂PLC控制柜旁的边缘盒子、或者压进每天处理2700万张医保单据的批处理流水线里——它必须扛住流量突刺、数据漂移、依赖变更、权限收紧、硬件老化这五重真实世界的物理打击。

核心关键词“Notebook to Production”、“ML in the Real World”直指两个断层：认知断层（以为训练完模型就等于交付）和工程断层（低估了数据管道、服务契约、可观测性、回滚机制这些“非模型”要素的复杂度）。这篇文章不讲Docker怎么build，也不教Kubernetes YAML怎么写——那些是工具手册该干的事。我要拆的是：当你凌晨两点收到告警，说“订单欺诈模型准确率从91%掉到63%”，你第一眼该看什么？第二步该查哪条日志？第三步要不要立刻切回旧版本？以及，为什么你写的那个“自动重训练Pipeline”，上周刚把线上模型替换成用测试集调参的版本？这才是Part 4的血肉。它适合三类人：刚从算法岗转战MLOps的工程师，被业务方追着问“模型什么时候能上线”的技术负责人，以及所有还在用pickle.dump(model, open('model.pkl', 'wb'))往服务器scp文件的“全栈”同学。别担心基础——我会从requirements.txt里一个包的版本冲突，讲到如何用Prometheus监控特征分布偏移，中间不跳步，不假设你会写CRD。

2. 内容整体设计与思路拆解：为什么Part 4必须放弃“一次性部署”幻想

2.1 真实世界没有“部署完成”状态，只有“降级运行中”

绝大多数ML项目失败，根源在于把Part 4当成一个有明确起止点的“发布动作”。但现实是：生产环境是一个持续熵增的系统。我见过最典型的反模式，是某金融风控团队的“完美部署流程”：模型训练→打包成Docker镜像→推送到私有Registry→通过Argo CD部署到K8s→发送企业微信通知“已上线”。听起来无懈可击，直到他们发现：

每次上游数据平台ETL任务延迟超过15分钟，模型输入特征就缺失3个关键字段，但服务端只返回HTTP 500，没记录具体缺失了哪几个；
新增一个用户设备指纹特征后，离线训练用的是最新数据，但在线服务加载的还是旧版特征工程代码，导致feature_vector维度从127变成126，模型直接报RuntimeError: size mismatch；
某次K8s节点升级，Pod被调度到一块老型号GPU上，CUDA版本不兼容，模型推理耗时从200ms暴涨到3.2秒，但健康检查只探/health端点，不测/predict延迟，服务依然显示“UP”。

所以Part 4的设计起点，必须是承认并拥抱不确定性。我们放弃“一次部署，长期有效”的幻想，转而构建三层防御体系：

契约层（Contract Layer）：明确定义模型输入/输出的Schema、数据范围、业务语义（比如“score字段必须是0~1之间的float，且业务含义为‘未来7天违约概率’”），用Protobuf或JSON Schema强制校验，而非靠文档约定；
韧性层（Resilience Layer）：当上游故障时，自动降级到缓存特征、兜底规则引擎或上一版模型，同时触发告警而非抛异常；
可观测层（Observability Layer）：不只是监控CPU/Memory，更要追踪input_data_drift_score、prediction_latency_p99、feature_null_rate[‘user_age’]等17个核心指标，且每个指标都绑定明确的SLO（如“特征缺失率>5%持续2分钟，触发P1告警”）。

这个设计不是炫技。2023年我们帮一家物流客户重构运单ETA预测服务，把契约层前置后，上线首月因数据格式错误导致的故障归零；加入韧性层后，上游地址解析服务宕机47分钟期间，ETA服务仍能返回基于历史均值+地理距离的兜底结果，业务方甚至没感知到异常。Part 4的价值，从来不是“让模型跑起来”，而是“让业务不因模型问题而停摆”。

2.2 为什么拒绝“模型即服务（MaaS）”黑盒方案？

市面上很多MLOps平台鼓吹“一键部署模型为API”，看似省事，实则埋下三个深坑：

黑盒不可控：你无法干预模型加载逻辑。某客户用某云厂商的MaaS服务，模型加载时默认启用torch.jit.optimize_for_inference，结果在特定批次数据下触发PyTorch JIT的已知bug，返回全零预测，而平台日志只显示“inference success”，根本看不到底层报错；
契约不透明：平台生成的Swagger文档常把{"score": 0.87}这种示例硬编码进去，实际输入数据若含NaN或Inf，服务直接崩溃，但契约里没声明数值约束；
演进被锁死：当你要把TensorFlow模型替换成ONNX Runtime加速版本时，平台可能要求你重新上传整个pipeline，而不是只替换推理引擎——因为它的抽象层把“模型”和“运行时”耦合死了。

我们的方案是“最小可行抽象（Minimum Viable Abstraction）”：只封装重复性劳动（如Dockerfile模板、K8s Service配置），绝不隐藏关键决策点。比如模型加载，我们坚持手写model_loader.py，里面明确包含：

# model_loader.py def load_model(model_path: str) -> Pipeline: # 1. 校验模型文件完整性（SHA256） # 2. 加载前检查PyTorch/CUDA版本兼容性 # 3. 启用内存映射（mmap）避免大模型加载阻塞 # 4. 设置超时：若加载>30秒，主动kill进程并告警 pass

这段代码看起来比点几下鼠标麻烦，但它让你在凌晨三点面对告警时，能精准定位是“模型文件损坏”还是“CUDA驱动不匹配”，而不是对着云平台Dashboard上那个绿色的“Running”状态干瞪眼。Part 4的成熟度，不在于自动化程度多高，而在于当一切出错时，你能否在5分钟内说出故障根因。

2.3 架构选型背后的残酷权衡：为什么我们不用Serverless做核心推理

很多团队第一反应是“用AWS Lambda或阿里云FC做模型API”，理由很充分：免运维、自动扩缩、按量付费。但我在三个真实场景中亲手踩过坑：

冷启动灾难：某实时反作弊服务，Lambda函数首次调用需加载1.2GB的XGBoost模型，冷启动平均耗时4.7秒，而业务SLA要求P95延迟<800ms。我们试过预热（Pre-warming），但流量低谷期预热实例会被回收，高峰时新实例又得冷启动；
内存墙限制：Lambda最大内存3GB，而某NLP模型仅词向量层就占2.1GB，强行压缩精度后F1下降12个百分点，业务方拒收；
调试地狱：Lambda日志分散在CloudWatch不同Log Group，且只保留最近14天。当出现偶发性OOM时，你得在数千条日志里手动grep“Process exited before completing request”，再关联Trace ID找上下游调用链——而K8s Pod的日志是结构化、可全文检索、永久归档的。

最终我们选择K8s + 自研轻量级推理框架（InferKit），核心逻辑就两条：

资源预留制：每个模型服务Pod固定申请2核4GB，避免争抢；
Warm-up as First-Class Citizen：服务启动时，自动用合成数据触发10次推理，确保模型、CUDA上下文、GPU显存全部ready，/health端点只在warm-up完成后才返回200。

这不是技术洁癖。当你的模型服务于千万级DAU的App，每一毫秒延迟都在转化率曲线上画出真实的斜率。Part 4的架构选择，本质是用可控的资源成本，换取不可妥协的确定性体验。

3. 核心细节解析与实操要点：从代码到产线的17个生死细节

3.1 特征工程代码：比模型代码更需要CI/CD

多数团队把feature_engineering.py当作辅助脚本，随意修改、不写单元测试、不走Git Flow。这是Part 4最大的定时炸弹。我亲眼见过：

数据科学家在本地改了user_active_days的计算逻辑（从“最近30天登录次数”改为“最近30天活跃天数”），但忘了同步更新线上服务的特征代码，导致线上模型用旧逻辑，离线评估用新逻辑，A/B测试结论完全失真；
某次紧急修复，运维直接SSH到服务器修改/opt/feature/transformer.py，重启服务后，Git仓库里那行git commit -m "fix null user_id"永远消失了，三个月后新同事想复现问题，发现代码库和生产环境根本对不上。

我们的解决方案是：特征工程代码即核心资产，享受和模型代码同等级别的工程治理。具体执行四条铁律：

版本强绑定：特征代码打Tag（如feat-v2.3.1），模型训练时明确指定--feature-version=feat-v2.3.1，训练流水线自动checkout对应代码；
契约先行：每个特征函数必须带@validate_feature_schema装饰器，自动校验输入DataFrame的列名、dtype、null率、数值范围；
离线/在线一致性保障：特征代码必须支持transform_batch()（离线批量）和transform_online()（单条实时）两种模式，且内部共享同一套核心逻辑，禁止“写两套代码”；
变更影响分析：每次PR提交，CI自动运行feature_impact_analysis.py，扫描所有依赖该特征的模型，生成影响报告（如“修改age_group分桶逻辑，将影响3个线上模型，其中Model-X的F1预计波动±0.8%”）。

提示：@validate_feature_schema装饰器的核心逻辑，是用pandera库定义Schema，例如：

import pandera as pa from pandera.typing import DataFrame class UserFeatureSchema(pa.SchemaModel): user_id: pa.typing.Series[str] = pa.Field(str_matches=r"^[a-z0-9]{8}-[a-z0-9]{4}-[a-z0-9]{4}-[a-z0-9]{4}-[a-z0-9]{12}$") age: pa.typing.Series[float] = pa.Field(ge=0, le=120, nullable=True) # ... 其他字段约束

3.2 模型序列化：Pickle不是生产环境的朋友

joblib.dump(model, 'model.joblib')在Notebook里很香，但在生产环境是毒药。原因有三：

Python版本锁死：用Python 3.9 pickle的模型，在3.10环境下可能无法load，因为_pickle模块内部实现有微小差异；
依赖隐式绑定：Pickle会序列化模型对象的所有属性，包括sklearn的StandardScaler对象，而StandardScaler内部引用了numpy的某个特定版本，一旦线上环境numpy升级，load就失败；
安全风险：Pickle反序列化可执行任意代码，如果模型文件被篡改（哪怕只是加了个恶意__reduce__方法），服务启动时就会执行攻击者指令。

我们强制采用ONNX + 自定义推理Wrapper双轨制：

ONNX作为模型交换标准：训练完成后，用skl2onnx或torch.onnx.export导出ONNX模型，它与语言、框架、Python版本完全解耦；
Wrapper负责“翻译”：写一个极简的Python Wrapper（<200行），只做三件事：加载ONNX模型、预处理输入数据、后处理输出结果。Wrapper代码走完整CI/CD，版本独立于模型。

这样做的好处是：当你要把Scikit-learn模型替换成LightGBM时，只需重新导出ONNX，Wrapper代码一行不用改；当Python升级时，只要ONNX Runtime支持新版本，服务就无缝迁移。我们有个客户，用这套方案在两周内完成了从TensorFlow 1.x到PyTorch的全量模型替换，零停机。

3.3 健康检查（Health Check）：别只检查“活着”，要检查“活得好”

K8s的livenessProbe和readinessProbe常被简单设置为：

livenessProbe: httpGet: path: /health port: 8080 initialDelaySeconds: 30 periodSeconds: 10

这只能保证进程没挂，但无法回答：“模型能正确推理吗？”、“特征数据新鲜吗？”、“GPU显存泄漏了吗？”。我们扩展了/health端点，返回结构化JSON：

{ "status": "healthy", "checks": { "process": {"status": "ok", "latency_ms": 12}, "model_load": {"status": "ok", "latency_ms": 87}, "feature_pipeline": {"status": "ok", "stale_seconds": 42}, "gpu_memory": {"status": "ok", "used_percent": 63.2}, "drift_detection": {"status": "warning", "metric": "ks_test_pvalue", "value": 0.032} } }

关键设计点：

feature_pipeline.stale_seconds：计算特征数据最新时间戳与当前时间差，>300秒即标warning；
drift_detection：每小时用KS检验对比线上输入分布与训练集分布，p-value < 0.05触发告警；
所有check都设超时（如feature_pipeline检查超时5秒则标critical），避免单个慢检查拖垮整个健康探针。

注意：/health必须是幂等、无副作用的GET请求。曾有团队把模型重加载逻辑写在/health里，结果K8s探针高频调用，导致模型反复初始化，GPU显存爆满。健康检查的唯一使命，是如实报告状态，而不是试图修复问题。

3.4 日志规范：让每条日志都能成为破案线索

生产环境日志不是为了“看有没有报错”，而是为了在混沌中重建因果链。我们强制推行四要素日志格式：
[TIMESTAMP] [LEVEL] [TRACE_ID] [CONTEXT] MESSAGE
其中：

TRACE_ID：全链路追踪ID（来自OpenTelemetry），跨服务、跨进程唯一；
CONTEXT：当前操作的关键上下文，如model=fraud_v3.2, user_id=U789012, input_len=127；
MESSAGE：描述性文本，禁用“Error occurred”这种废话，必须是“Failed to parse JSON input: Expecting property name enclosed in double quotes”这类可直接定位的错误。

特别强调CONTEXT字段的价值。某次线上故障，日志里只有一行：
2023-10-15T02:17:22.345Z ERROR 0a1b2c3d4e5f6789 user_id=U987654 Input tensor shape mismatch: expected [1, 127], got [1, 126]
运维同事5分钟内就定位到：是上游新增了一个device_brand特征，但特征工程代码没同步更新，导致user_id=U987654这条数据缺失该字段。如果没有user_id和shape信息，排查时间至少翻10倍。

3.5 回滚机制：不是“删Pod再部署”，而是“秒级切换”

传统回滚是删旧Pod、拉新镜像、等K8s调度——平均耗时92秒。我们的方案是蓝绿+模型版本路由：

所有模型服务部署两个副本集（Blue/Green），始终有一个处于待命状态；
流量网关（如Envoy）根据HeaderX-Model-Version: fraud-v3.1路由到对应副本集；
当新版模型出问题，运维只需在网关配置里把fraud-v3.2的权重调为0%，fraud-v3.1调为100%，整个过程<200ms，用户无感。

更进一步，我们实现了模型级灰度：

# 将1%流量导向新模型，仅限VIP用户 curl -X POST https://gateway/api/v1/routing \ -H "Content-Type: application/json" \ -d '{"model": "fraud-v3.2", "weight": 0.01, "filter": "user_tier == \"VIP\""}'

这让我们能在真实流量下验证模型效果，而不是赌一把全量。Part 4的终极目标，不是避免失败，而是让失败的成本趋近于零。

4. 实操过程与核心环节实现：一个可直接抄作业的端到端流程

4.1 环境准备：从零搭建可复现的生产就绪环境

我们不用Vagrant或Ansible，而是用Docker Compose + Makefile构建本地仿真环境，确保开发、测试、预发环境100%一致。核心文件如下：

docker-compose.yml：

version: '3.8' services: # 模拟上游数据源（Kafka） kafka: image: bitnami/kafka:3.4.0 ports: ["9092:9092"] environment: KAFKA_CFG_LISTENERS: PLAINTEXT://:9092 KAFKA_CFG_ADVERTISED_LISTENERS: PLAINTEXT://localhost:9092 # 模拟特征存储（Redis） redis: image: redis:7.0-alpine ports: ["6379:6379"] # 模型服务（我们的InferKit） model-service: build: . ports: ["8080:8080"] environment: FEATURE_STORE_URL: redis://redis:6379 MODEL_PATH: /models/fraud_v3.2.onnx depends_on: [kafka, redis] # 关键：挂载本地模型目录，方便快速替换 volumes: - ./models:/models:ro

Makefile（提供一键操作）：

.PHONY: up down test-deploy up: docker-compose up -d --build down: docker-compose down # 一键部署到K8s预发环境（使用相同镜像） test-deploy: kubectl apply -f k8s/namespace.yaml kubectl apply -f k8s/model-service-deployment.yaml kubectl apply -f k8s/model-service-service.yaml @echo "✅ 预发环境部署完成，访问 http://localhost:8080/health"

实操心得：volumes挂载模型目录是调试神器。当你在本地改了ONNX模型，无需重新build镜像，docker-compose restart model-service即可生效，极大缩短迭代周期。但切记：生产环境绝对禁用volumes挂载，必须把模型打进镜像，否则违反不可变基础设施原则。

4.2 模型服务开发：用Flask写一个生产级推理API

别被“生产级”吓到，核心就三点：契约校验、错误隔离、可观测埋点。以下是app.py精简版（完整版含127行，此处展示主干）：

from flask import Flask, request, jsonify import onnxruntime as ort import numpy as np from opentelemetry import trace from opentelemetry.exporter.prometheus import PrometheusMetricReader from opentelemetry.sdk.metrics import MeterProvider app = Flask(__name__) tracer = trace.get_tracer(__name__) # 初始化ONNX Runtime推理会话（全局单例） session = ort.InferenceSession("/models/fraud_v3.2.onnx") # Prometheus指标（提前注册） from prometheus_client import Counter, Histogram PREDICTION_COUNT = Counter('model_prediction_count', 'Total number of predictions') PREDICTION_LATENCY = Histogram('model_prediction_latency_seconds', 'Prediction latency') @app.route('/predict', methods=['POST']) def predict(): PREDICTION_COUNT.inc() # 计数器+1 with tracer.start_as_current_span("predict") as span: try: # 1. 输入校验（契约层） data = request.get_json() if not isinstance(data, dict) or 'features' not in data: raise ValueError("Missing 'features' field in request body") features = np.array(data['features'], dtype=np.float32) if features.shape != (1, 127): raise ValueError(f"Invalid feature shape: expected (1, 127), got {features.shape}") # 2. 推理（韧性层：捕获所有异常） with PREDICTION_LATENCY.time(): # 自动记录延迟 result = session.run(None, {'input': features}) # 3. 输出校验（契约层） score = float(result[0][0][0]) if not (0.0 <= score <= 1.0): raise ValueError(f"Model output out of range [0,1]: {score}") return jsonify({"score": score, "model_version": "fraud-v3.2"}) except Exception as e: # 关键：所有异常统一处理，不暴露内部细节 app.logger.error(f"Prediction failed: {str(e)}", exc_info=True) span.set_attribute("error", True) span.set_attribute("error_type", type(e).__name__) return jsonify({"error": "Internal server error"}), 500 @app.route('/health', methods=['GET']) def health(): # 这里调用各子系统健康检查（见3.3节） return jsonify(get_health_status())

部署命令（Dockerfile）：

FROM python:3.9-slim # 安装ONNX Runtime CPU版（生产环境首选，稳定） RUN pip install onnxruntime==1.15.1 \ && pip install flask==2.2.5 \ && pip install opentelemetry-api==1.21.0 \ && pip install opentelemetry-exporter-prometheus==1.21.0 \ && pip install prometheus-client==0.17.1 COPY app.py /app/ COPY models/ /models/ WORKDIR /app EXPOSE 8080 CMD ["python", "app.py"]

实测心得：ONNX Runtime CPU版比PyTorch CPU快3.2倍，且内存占用低47%，这是我们在边缘设备上验证过的数据。GPU版虽快，但引入CUDA驱动兼容性问题，除非你100%掌控GPU环境，否则CPU版是更稳的选择。

4.3 可观测性落地：用Prometheus+Grafana盯死17个核心指标

我们不监控“CPU使用率”，而是监控业务可感知的指标。在app.py中已埋点PREDICTION_COUNT和PREDICTION_LATENCY，现在用Prometheus抓取：

prometheus.yml：

scrape_configs: - job_name: 'model-service' static_configs: - targets: ['host.docker.internal:8000'] # 暴露/metrics端点

Grafana看板关键面板：

面板名称	查询语句	业务意义	SLO阈值
P99推理延迟	`histogram_quantile(0.99, sum(rate(model_prediction_latency_seconds_bucket[1h])) by (le))`	用户等待时间	< 800ms
特征新鲜度	`time() - max by (job) (model_feature_last_update_timestamp_seconds)`	数据是否过期	< 300秒
模型输出分布	`histogram_quantile(0.5, sum(rate(model_prediction_score_bucket[1h])) by (le))`	检测模型是否“睡着”（全输出0.5）	分布应呈双峰（正常vs欺诈）
KS漂移分数	`max by (feature) (model_drift_ks_score{feature="user_age"})`	数据漂移预警	> 0.15 触发告警

注意：model_drift_ks_score指标由后台Job每小时计算一次，写入Prometheus。计算逻辑是：从特征存储读取最近1小时样本，与训练集分布做KS检验，结果以model_drift_ks_score{feature="xxx"}形式上报。可观测性的价值，不在于图表多酷炫，而在于当业务方问“为什么昨天转化率跌了？”，你能立刻打开Grafana，指着“user_age分布偏移”面板说：“因为新用户年龄中位数从28岁降到22岁，模型还没适应。”

4.4 自动化流水线：GitHub Actions实现“提交即上线”

我们用GitHub Actions构建CI/CD流水线，核心思想是：任何代码变更，必须经过“契约验证→模型测试→服务部署→金丝雀验证”四道门。.github/workflows/ci-cd.yml关键步骤：

name: ML Model CI/CD on: push: branches: [main] paths: - 'src/**' - 'models/**' - 'Dockerfile' jobs: # 第一道门：契约验证（检查特征代码、模型代码是否符合Schema） validate-contract: runs-on: ubuntu-latest steps: - uses: actions/checkout@v3 - name: Run schema validation run: python src/validate_contract.py # 第二道门：模型测试（用合成数据跑通端到端预测） test-model: needs: validate-contract runs-on: ubuntu-latest steps: - uses: actions/checkout@v3 - name: Test prediction run: | docker-compose up -d sleep 10 curl -s http://localhost:8080/predict -H "Content-Type: application/json" \ -d '{"features": [0.1,0.2,...,0.9]}' | jq '.score' # 第三道门：构建并推送镜像（打Git Tag） build-and-push: needs: test-model runs-on: ubuntu-latest steps: - uses: actions/checkout@v3 - name: Build and push Docker image uses: docker/build-push-action@v4 with: push: true tags: ghcr.io/your-org/model-service:${{ github.sha }} # 第四道门：金丝雀部署（仅对1%流量） canary-deploy: needs: build-and-push runs-on: ubuntu-latest steps: - name: Deploy to canary run: | # 调用网关API，将1%流量切到新版本 curl -X POST https://gateway/api/v1/routing \ -H "Authorization: Bearer ${{ secrets.GATEWAY_TOKEN }}" \ -d '{"model": "fraud-v3.2", "weight": 0.01}'

实操心得：金丝雀部署后，我们不会等24小时再全量。而是设置自动决策开关：如果新版本P99延迟>旧版本20%，或KS漂移分数>0.2，流水线自动回滚（调用网关API把权重设为0%）。这把“人工判断”变成了“机器决策”，把故障止损时间从小时级压缩到秒级。

5. 常见问题与排查技巧实录：那些凌晨三点教会我的事

5.1 “模型预测结果全为0”——不是模型坏了，是特征管道断了

现象：线上服务突然返回大量{"score": 0.0}，监控显示prediction_latency_p99飙升，但CPU和GPU使用率正常。
排查路径：

查/health端点，发现feature_pipeline.stale_seconds为12480（3.47小时），远超300秒阈值；
登录特征存储（Redis），执行KEYS *user*，发现user_features:U123456这类Key全部消失；
检查上游ETL任务日志，发现其依赖的数据库连接池耗尽，任务卡在“waiting for connection”；
根因：上游DBA调整了连接池参数，但未通知ML团队，ETL任务失败后未告警，特征管道静默中断。

解决：

立即在网关将流量切回旧版模型（旧版特征缓存仍在）；
在ETL任务中增加feature_pipeline_health_check，失败时主动写入Redis一个feature_pipeline_deadman_switchKey，并触发PagerDuty告警；
教训：特征管道的健康度，必须比模型本身更受关注。我们后来把feature_pipeline.stale_seconds的告警级别设为P0，比模型延迟告警还高一级。

5.2 “服务启动后立即OOM”——不是内存不够，是ONNX Runtime没配对

现象：K8s Pod反复CrashLoopBackOff，日志只有一行Killed process 123 (python) total-vm:4567890kB, anon-rss:3210987kB, file-rss:0kB。
排查路径：

kubectl describe pod看到OOMKilled事件；
进入容器kubectl exec -it <pod> -- sh，运行top，发现Python进程RSS高达3.1GB；
检查ONNX模型大小：ls -lh models/fraud_v3.2.onnx→1.8GB；
根因：ONNX Runtime默认启用内存映射（mmap），但K8s Pod的memory.limit设为4GB，而mmap会预分配虚拟内存，触发Linux OOM Killer。

解决：

在ONNX Runtime Session初始化时，禁用mmap：

session = ort.InferenceSession( "/models/fraud_v3.2.onnx", providers=['CPUExecutionProvider'], sess_options=ort.SessionOptions() ) session.disable_mem_pattern = True # 关键！

将Pod内存limit提高到6GB（留出缓冲）；
教训：ONNX Runtime的disable_mem_pattern是救命开关，但文档藏得很深。我们把它写进了团队《ONNX Runtime避坑指南》第一条。

5.3 “A/B测试结果矛盾”——不是模型不准，是特征版本没对齐

现象：A/B测试显示新模型AUC提升0.02，但业务方反馈“新模型拦截了更多正常用户”，人工抽检发现误拦率上升15%。
排查路径：

对比A/B两组用户的特征数据，发现user_active_days字段在A组（新模型）平均值为12.3，在B组（旧模型）为8.7；
检查特征工程代码，发现新模型使用的feat-v2.3.1版本，把user_active_days计算逻辑从“登录次数”改为“活跃天数”，而旧模型用的feat-v2.2.0仍是登录次数；
根因：A/B测试流量路由基于模型版本，但特征计算却用了不同版本的代码，导致两组输入数据根本不在同一分布上，AUC比较失去意义。

解决：