Sam3 ONNX 导出与推理指南-洪萨配资

使用Segment Anything (SAM)模型并将其导出为ONNX格式时遇到了挑战。主要痛点在于：

核心问题：官方导出方法仅导出了mask_decoder部分（掩码解码器）。要实际使用导出的ONNX模型，仍然需要依赖原始的PyTorch SAM包来执行以下操作：
- 运行image_encoder（图像编码器）来生成图像嵌入。
- 使用其内部的prompt_encoder（提示编码器）来处理用户输入的点、框等提示信息。
问题带来的矛盾：ONNX的主要优势在于能够在脱离Python和PyTorch的环境中部署模型（如C++服务、移动端、嵌入式设备）。然而，根据当前官方的方法，即使使用了ONNX，生产环境仍需安装PyTorch和SAM库才能准备必要的输入（图像嵌入和编码后的提示），这违背了使用ONNX的初衷。
您的目标：您希望找到一种方法，能够将完整的推理流程（图像编码 + 提示准备 + 掩码解码）都封装在ONNX模型中，或者通过标准ONNX运行时可以处理的组件来实现，从而完全摆脱对原始PyTorch/SAM包的依赖。
您的研究发现：
- SAM模型包含三个主要部分：image_encoder、prompt_encoder、mask_decoder。
- 官方导出仅涉及mask_decoder。
- 您认识到image_encoder是一个标准的PyTorch模块，理论上可以独立导出为ONNX。
- 您还注意到prompt_encoder的功能相对简单（特别是对于点提示），可能可以用纯NumPy操作在ONNX运行时环境中模拟或替代。
您提出的解决方案方向：
- 导出image_encoder: 您展示了如何将sam.image_encoder作为一个独立的PyTorch模块导出为ONNX模型。该模型接受一个形状为(1, 3, 1024, 1024)的张量作为输入（代表一张预处理后的1024x1024 RGB图像），并输出图像嵌入(embeddings)。
- 导出mask_decoder: 您参考了官方方法（使用SamOnnxModel）来导出mask_decoder。该ONNX模型需要图像嵌入和编码后的提示作为输入。
- 关键缺口：如何在不使用SAM的prompt_encoder（及其PyTorch依赖）的情况下，为导出的mask_decoder准备编码后的提示输入（point_coords,point_labels等）。您提到提示编码“可以在没有神经网络的情况下进行编码”，暗示可以用NumPy实现其逻辑。

总结来说，问题的核心是：如何实现SAM模型的完全ONNX化部署，包括独立导出image_encoder，用非PyTorch方式准备mask_decoder所需的提示输入，以及正确导出和使用mask_decoder，最终达到无需安装PyTorch或SAM包即可运行整个分割流程的目标。您已经成功解决了image_encoder的导出问题，并计划解决提示编码的问题。

Sam3 ONNX 导出与推理指南

以下是一个结构清晰的指南，帮助您完成 Sam3 模型的 ONNX 导出、推理和 TensorRT 引擎导出。基于您提供的项目描述，我将逐步解释关键步骤和注意事项。

1. 环境准备

首先，确保您的系统满足以下要求：

Python ≥ 3.9。
可选 GPU 支持（推荐使用 ONNXRuntime CUDA）。

安装必要的依赖：

pip install -U torch transformers onnxruntime onnx opencv-python regex

模型文件需放置在models/目录下，包括：
- Sam3 权重文件（如models/sam3）。
- 处理器文件（如models/processor）。
- 文本词表文件（models/vocab.json和models/merges.txt）。

您可以通过以下链接下载模型文件：

网盘链接：models（提取码：1pn6）。

2. 目录结构说明

项目目录应组织如下：

onnx_export/：包含 ONNX 导出脚本。
- export_detect_onnx.py：导出 ONNX 模型。
- test_onnx.py：验证输出形状。
- zidane.jpg：示例图片。
onnx_detect/：推理相关脚本。
- onnx_detect.py：推理入口。
- image_preprocess.py：图像预处理（转为 NCHW 格式和 1008×1008 分辨率）。
- simplify_tokenizer.py：生成input_ids和attention_mask。
- detect_postprocess.py：后处理（分数筛选、掩码可视化）。
onnx2engine/：TensorRT 导出修正。
- modify_onnx.py：修正 ONNX 模型（解决 Squeeze 输出问题）。
- onnx2engine.sh：导出 TensorRT engine。
models/：放置模型文件、权重和导出的 ONNX 文件（如onnx_detect/sam3.onnx）。

3. 快速开始指南

按照以下步骤操作：

步骤 1: 导出 ONNX 模型运行脚本生成 ONNX 文件（输出到models/onnx_detect/sam3.onnx）：

python onnx_export/export_detect_onnx.py

注意：

ONNX 文件可能超过 2GB，需使用external_data=True参数分割导出。
脚本会封装Sam3Model并输出三路结果，同时验证 I/O 形状。

步骤 2: 运行 ONNX 推理执行推理脚本生成可视化结果（输出vis.png）：

python onnx_detect/onnx_detect.py

流程包括：

图像预处理。
文本编码。
ONNXRuntime 推理。
后处理（分数筛选和可视化）。

步骤 3: 修正 ONNX 模型直接导出 TensorRT engine 可能失败（如错误提示error.png），需先修正 ONNX：

python onnx2engine/modify_onnx.py

这会生成修正后的 ONNX 文件（如models/onnx_detect_modify/sam3.onnx）。

步骤 4: 导出 TensorRT engine确保本机已安装 TensorRT 和trtexec，然后运行：

bash onnx2engine/onnx2engine.sh

4. 注意事项与建议

ONNX 导出：确保export_detect_onnx.py正确封装模型。如果 ONNX 文件过大，使用external_data=True分割导出。
TensorRT 导出：必须先修正 ONNX 模型（步骤 3），否则导出可能失败。
推理流程：图像需预处理为 1008×1008 分辨率，文本编码需匹配词表。
性能优化：使用 GPU 加速推理（如 ONNXRuntime CUDA）。

5. C++ 推理编译指南

如果您需要 C++ 实现，请按以下步骤操作：

步骤 1: 环境准备确保已安装：

XMake。
TensorRT。
CUDA / cuDNN。
OpenCV。

步骤 2: 配置路径编辑cpp_src/xmake.lua文件，根据您的环境修改路径：

local trt_include_dir = "/path/to/TensorRT/include" local trt_lib_dir = "/path/to/TensorRT/lib" local cudnn_include_dir = "/path/to/cudnn/include" local cudnn_lib_dir = "/path/to/cudnn/lib"

步骤 3: 编译与运行进入cpp_src目录并编译：

cd cpp_src xmake

运行编译后的程序：

xmake run

6. 参考资源

官方仓库：facebook/sam3。
相关实现：skane1024/transformer_CLIPTokenizer_cpp_implement 和 dataplayer12/SAM3-TensorRT。
致谢：感谢 https://github.com/Zhangx221/sam3-onnxruntime+naonao-cola 提供的 C++ 代码支持。

如果您在操作中遇到问题，请检查路径设置和依赖安装。确保所有文件放置在正确目录下，并参考官方文档获取更新。

1、问题是什么？

如果你尝试将 Segment Anything 模型导出到 ONNX，然后使用官方笔记本中的指南将其部署到生产中，你会发现不能只使用导出的 ONNX 模型，仍然还需要使用带有 PyTorch 的 Segment Anything 包来准备来自输入图像的嵌入，并且仍然需要使用此包中的函数来编码提示。

当我第一次遇到这种情况时，我问自己：“如果我仍然需要使用原始的 PyTorch 模型，为什么要将模型导出到 ONNX？”。

ONNX 的主要优势之一是能够在没有 Python 和 PyTorch 的环境中运行模型。但是，根据官方文档，我无法使用 Segment Anything 做到这一点。即使使用 ONNX，我也需要在生产服务器或设备上安装整个 PyTorch 环境。

我不是唯一遇到这个问题的人，很多人在论坛或项目 GitHub 中寻求解决方案，但没有明确的答案。最后，我决定自己深入研究 Segment Anything 源代码并填补这个空白。

在本文中，我将展示如何导出完整的 SAM 模型以及如何仅使用 ONNX 模型而不使用其他繁重的依赖项来分割图像。

2、深入研究 SAM 模型结构

在介绍 ONNX 之前，让我们使用其官方 API 了解 SAM 模型结构。

Segment Anything 具有transformer神经网络架构，包含以下部分：图像编码器、提示编码器和掩码解码器。

这张来自 SAM 官方论文的图片展示了分割掩码推理过程。现在让我们看看使用官方 API 实现此流程的代码。

本文中的所有代码示例都使用以下图像，名为cat_dog.jpg：

from segment_anything import sam_model_registry, SamPredictor import numpy as np import cv2 # 1. Load the image img = cv2.imread("cat_dog.jpg") img = cv2.cvtColor(img,cv2.COLOR_BGR2RGB) # 2. Load the Segment anything model sam = sam_model_registry["vit_b"](checkpoint="./sam_vit_b_01ec64.pth") # 3. Put the model to the SamPredictor helper object predictor = SamPredictor(sam) # 4. Encode the image to embeddings. predictor.set_image(img) # 5. Prepare the prompt input_point = np.array([[321,230]]) input_label = np.array([1]) # 6. Decode masks masks = predictor.predict(input_point, input_label)

以下是此流程的分解说明：

首先，它使用 OpenCV 将图像加载为 HWC 形状（高度、宽度、通道）的 Numpy 数组。你也可以使用任何其他库（如 Pillow）执行此操作。
然后，它将 SAM 模型加载到sam变量。sam是Sam类的对象，在 sam.py 文件中定义。这个类包含图像编码器和掩码解码器部分。如果打开此文件并查看__init__构造函数，你会发现编码器在image_encoder属性中初始化，解码器在mask_decoder属性中初始化。它们都是标准的 PyTorch 神经网络模块。
然后，代码初始化辅助SamPredictor对象，该对象用作创建的 Sam 模型的包装器。它包含辅助方法来准备输入图像、将图像编码为嵌入、对提示进行编码并将它们都传递给mask_decoder以获取分割掩码。
整个代码中最重要的一行是predictor.set_image(img)。此方法用于预处理输入图像并使用它运行 SAM 编码器网络。在底层，它使用预处理后的图像运行以下行：predictor.features = sam.image_encoder(input_image)。此行将图像传递通过编码器神经网络以获取嵌入并将其保存到SamPredictor对象的features属性。官方导出到 ONNX 函数不会导出此神经网络，因此即使使用导出的 ONNX 模型，你仍然需要运行它。
然后，你在图像上定义点，该点将用作解码分割掩码的提示和该点的标签：1 表示该点属于你要提取的对象，0 表示该点不属于该对象。
最后，你执行了predictor.predict(input_point, input_label)方法。此时，预测器对提示进行编码，并将保存在features属性中的两个图像嵌入和编码的提示传递给掩码解码器，这是一个sam.mask_decoder神经网络。然后，此方法返回生成的输出张量，然后对其进行后处理以返回掩码。

这就是官方 API 的工作原理。Segment Anything 实际上是两个神经网络：image_encoder和mask_decoder，它们一个接一个地单独执行。它首先运行sam.image_encoder网络将图像编码为嵌入，然后运行 sam.mask_decoder网络使用提示将嵌入解码为掩码。提示也使用提示编码器进行编码，但在许多情况下，提示可以在没有神经网络的情况下进行编码。但是，当你将 sam 模型导出到 ONNX 时，它只导出mask_decoder，你仍然需要使用官方 API 为导出的 ONNX 模型准备图像嵌入并对提示进行编码。

幸运的是，image_encoder是一个普通的 PyTorch 神经网络模块，可以使用此处介绍的标准 PyTorch 功能自行将其导出到 ONNX。该提示也可以仅使用 Numpy 进行编码。我将在下一节中为你填补这些空白。

将 SAM 导出到 ONNX - 正确的方法

要独立于 PyTorch 和/或 Python 使用 Segment Anything 网络，你需要将两个模型导出到 ONNX：图像编码器和掩码解码器。官方文档显示了如何仅导出掩码解码器。在本教程中，我将向你展示如何导出和使用这两个部分，而不依赖于 PyTorch 和 SAM 官方 API。

3、导出图像编码器

要将任何 PyTorch 模型导出到 ONNX，你需要知道此模型所需的输入张量的形状。Segment Anything 中使用的图像编码器模型是 ViT 神经网络的经过修改的编码器部分。它在 image_encoder.py 中的ImageEncoderViT类中定义。通过分析此文件的源代码，很容易理解这个神经网络模块需要以下形状(1,3,1024,1024)的输入张量，这是一批 1024x1024 大小的图像。因此，要将单个图像传递给图像编码器，你需要将其编码为此形状的浮点张量。

这是将图像编码器导出到 ONNX 的完整代码。我假设你将在 Jupyter Notebook 中运行它：

!pip install git+https://github.com/facebookresearch/segment-anything.git !pip install onnx !pip install torch from segment_anything import sam_model_registry import torch # Download SAM model checkpoint !pip install wget !python -m wget https://dl.fbaipublicfiles.com/segment_anything/sam_vit_b_01ec64.pth # Load SAM model sam = sam_model_registry["vit_b"](checkpoint="./sam_vit_b_01ec64.pth") # Export images encoder from SAM model to ONNX torch.onnx.export( f="vit_b_encoder.onnx", model=sam.image_encoder, args=torch.randn(1, 3, 1024, 1024), input_names=["images"], output_names=["embeddings"], export_params=True )

此代码首先安装并导入所有必需的包。也许你已经拥有所有这些包，但我添加了这些行以防万一。
然后，它会下载模型权重并用它们加载 sam 模型。我使用了最小的Vit-B版本，但你可以将其替换为Vit-L或Vit-H，然后从此处下载适当的权重。
最后，标准torch.onnx.export函数用于将sam.image_encoder导出到vit_b_encoder.onnx文件。生成的 ONNX 模型有一个名为images的输入，它接受(1,3,1024,1024)形状的输入张量。此外，它将有一个名为embedddings的单个输出，其中包含提供的输入图像的嵌入。

太棒了！运行此文件后，你将获得vit_b_encoder.onnx文件。导出工作的最大部分已经完成！

4、导出掩码解码器

在本节中，我基本上是重复官方笔记本中已经写好的代码。为了保持一致性，我对其进行了少许修改：

!pip3 install git+https://github.com/facebookresearch/segment-anything.git !pip3 install onnx !pip3 install torch from segment_anything import sam_model_registry from segment_anything.utils.onnx import SamOnnxModel import torch # Download SAM model checkpoint !pip install wget !python -m wget https://dl.fbaipublicfiles.com/segment_anything/sam_vit_b_01ec64.pth # Load SAM model sam = sam_model_registry["vit_b"](checkpoint="./sam_vit_b_01ec64.pth") # Export masks decoder from SAM model to ONNX onnx_model = SamOnnxModel(sam, return_single_mask=True) embed_dim = sam.prompt_encoder.embed_dim embed_size = sam.prompt_encoder.image_embedding_size mask_input_size = [4 * x for x in embed_size] dummy_inputs = { "image_embeddings": torch.randn(1, embed_dim, *embed_size, dtype=torch.float), "point_coords": torch.randint(low=0, high=1024, size=(1, 5, 2), dtype=torch.float), "point_labels": torch.randint(low=0, high=4, size=(1, 5), dtype=torch.float), "mask_input": torch.randn(1, 1, *mask_input_size, dtype=torch.float), "has_mask_input": torch.tensor([1], dtype=torch.float), "orig_im_size": torch.tensor([1500, 2250], dtype=torch.float), } output_names = ["masks", "iou_predictions", "low_res_masks"] torch.onnx.export( f="vit_b_decoder.onnx", model=onnx_model, args=tuple(dummy_inputs.values()), input_names=list(dummy_inputs.keys()), output_names=output_names, dynamic_axes={ "point_coords": {1: "num_points"}, "point_labels": {1: "num_points"} }, export_params=True, opset_version=17, do_constant_folding=True )

此代码首先安装并导入所有必需的包。也许你已经拥有所有这些包，但我添加了这些行以防万一。
然后，它会下载模型权重并用它们加载 sam 模型。我使用了最小的Vit-B版本，但你可以将其替换为Vit-L或Vit-H，然后从此处下载适当的权重。
最后，它使用标准torch.onnx.export函数将sam.mask_decoder导出到vit_b_decoder.onnx文件。生成的 ONNX 模型有六个输入。其中最重要的是：image_embeddings将接收vit_b_encoder.onnx模型的输出作为图像嵌入，point_coords和point_masks将接收编码提示。此外，解码器模型需要orig_im_size，它是一个原始输入图像大小，作为 Numpy 数组，包含两个项目：[height, width]，以正确缩放生成的掩码。

太棒了！现在，我们已经掌握了拼图的所有部分：

vit_b_encoder.onnx- 创建图像嵌入
vit_b_decoder.onnx- 使用嵌入和提示解码分割掩码。

为了方便起见，我将所有 ONNX 导出代码放入了 sam_onnx_export.ipynb 笔记本中。

但是，在没有官方 API 的情况下使用这些模型有点复杂，因为你需要自己预处理输入图像并编码提示。没有关于这些要点的任何文档。我将在下一节中展示如何执行此操作。

使用 ONNX 生成图像分割蒙版

要使用上面导出的 ONNX 模型获取图像中感兴趣对象的分割蒙版，你需要执行以下操作：

预处理输入图像
将预处理后的图像传递给vit_b_encoder.onnx模型以生成图像嵌入
创建提示并对其进行编码
将图像嵌入和提示传递给vit_b_decoder.onnx模型并接收分割蒙版
对蒙版进行后处理并可选择将其可视化

在接下来的部分中，我将逐一实现这些步骤。我假设你将使用 Jupyter Notebook 按照我的代码进行操作，并且你的笔记本文件夹中有vit_b_encoder.onnx和vit_b_decoder.onnx文件。此外，在示例中，我将使用 cat_dog.jpg 图像，您可以在本文开头下载该图像并将其放在同一文件夹中。

5、预处理输入图像

如上所述，编码器模型需要(1,3,1024,1024)大小的输入张量。因此，你需要正确调整输入图像的大小为 1024x1024 并保留纵横比，将其转换为数字张量并规范化该张量。

让我们首先加载图像，我们将为此使用 Pillow 包：

!pip install Pillow from PIL import Image img = Image.open("cat_dog.jpg") img = img.convert("RGB") img.size orig_width, orig_height = img.size print(img.size) (612, 415)

此代码加载图像，将其转换为 RGB 并保存原始大小，稍后你将需要它。

然后，我们需要调整此图像的大小，并使用 1024 作为长边保留纵横比。这意味着，我们需要将长边设置为 1024，然后设置短边以保持纵横比。以下代码可用于此目的：

resized_width, resized_height = img.size if orig_width > orig_height: resized_width = 1024 resized_height = int(1024 / orig_width * orig_height) else: resized_height = 1024 resized_width = int(1024 / orig_height * orig_width) img = img.resize((resized_width, resized_height), Image.Resampling.BILINEAR) print(img.size) (1024, 694)

因此，此代码确定了哪条边最长，并据此计算出最短边的新大小。在这种情况下，最长边是宽度，最短边是高度，它们缩放到(1024,694)并保存到resized_width和resized_height变量中。

然后，需要将其转换为张量。Numpy 允许在一行中完成此操作：

!pip install numpy import numpy as np input_tensor = np.array(img) input_tensor.shape (694, 1024, 3)

input_tensor包含三个图像像素颜色矩阵。第一个矩阵包含红色分量，第二个矩阵包含绿色分量，第三个矩阵包含蓝色分量。每种颜色的范围是 0 到 255。但是，Segment Anything 模型需要标准化数字。要获得标准化数字，我们需要从每个数字中减去平均颜色，然后将其除以标准差。有多种计算平均颜色和标准差的方法，但 Segment Anything 包已为每个颜色分量提供了计算好的平均值和偏差。我们需要初始化它们：

mean = np.array([123.675, 116.28, 103.53]) std = np.array([[58.395, 57.12, 57.375]])

因此，现在我们需要从每个红色分量中减去 123.765，然后除以 58.395。同样，对于蓝色，你需要从绿色矩阵的每个分量中减去 116.28，然后除以 57.12，依此类推。可以使用 Numpy 在一行代码中完成所有这些操作：

input_tensor = (input_tensor - mean) / std

现在我们已经标准化了输入张量，但其形状不正确：(694, 1024, 3)。你需要将其更改为(1,color_channels,height,width)的形式。在本例中，它应该是(1, 3, 694, 1024)：

input_tensor = input_tensor.transpose(2,0,1)[None,:,:,:].astype(np.float32) input_tensor.shape (1, 3, 694, 1024)

最后一步是将其转换为(1, 3, 1024, 1024)。为此，我们需要用零填充短边：

if resized_height < resized_width: input_tensor = np.pad(input_tensor,((0,0),(0,0),(0,1024-resized_height),(0,0))) else: input_tensor = np.pad(input_tensor,((0,0),(0,0),(0,0),(0,1024-resized_width))) input_tensor.shape (1, 3, 1024, 1024)

np.pad函数接收需要用零填充的输入张量，然后，对于每个轴，它接收在现有值之前和之后添加多少个零。在这种情况下，你需要在末尾添加1024-resized_height行的零。如果最短边是宽度，那么必须对最后一个轴执行此操作。

就是这样，现在我们有了图像编码器模型的正确input_tensor。

6、从输入图像生成嵌入

需要做的第一件事是导入 onnxruntime 库并使用它加载vit_b_encoder.onnx模型：

!pip install onnxruntime import onnxruntime as ort encoder = ort.InferenceSession("vit_b_encoder.onnx")

然后，以input_tensor作为输入图像运行模型以生成嵌入：

outputs = encoder.run(None, {"images": input_tensor}) embeddings = outputs[0] embeddings.shape (1, 256, 64, 64)

如果你还记得，在将图像编码器导出到 ONNX 时，我们指定此模型应具有一个名为“images”的输入和一个名为“embeddings”的输出。在这里，我们已将input_tensor作为“images”输入传递。ONNX 模型的run方法将输出作为数组返回，即使输出是单个的。这就是为什么嵌入位于此数组的第一项中的原因。

太好了，现在我们有了嵌入。这是第一个输入，我们将需要它用于掩码解码器模型。下一个输入是提示，我们也需要准备它。

7、对提示进行编码

提示有助于正确找到所需对象的分割掩码。提示可以是属于对象的单个图像点，也可以是该对象周围的边界框，也可以是多个点。为了对所有这些选项进行编码，Segment Anything 使用类似的算法。让我们从一个点开始：

input_point = np.array([[321,230]]) input_label = np.array([1])

在此代码中，我们定义了一个x=321, y=230的点。此外，我们还为此点定义了一个标签，即1。此标签表示该点属于该对象。使用此定义，掩码解码器将尝试找到包含此点的对象的分割掩码。但是，我们需要将此点编码为掩码解码器所需的格式。为此使用下一行代码：

from copy import deepcopy onnx_coord = np.concatenate([input_point, np.array([[0.0, 0.0]])], axis=0)[None, :, :] onnx_label = np.concatenate([input_label, np.array([-1])])[None, :].astype(np.float32) coords = deepcopy(onnx_coord).astype(float) coords[..., 0] = coords[..., 0] * (resized_width / orig_width) coords[..., 1] = coords[..., 1] * (resized_height / orig_height) onnx_coord = coords.astype("float32") onnx_coord array([[[537.098 , 384.6265], [ 0. , 0. ]]], dtype=float32)

SAM 掩码解码器需要将输入点缩放为 1024x1024 图像大小，并将其转换为浮点张量。这里我使用图像的original_width、original_height、resized_width和resized_height来缩放坐标。

我不会详细解释此代码的每一行，因为我只是从源代码的transform.apply_coords函数中重用了它，并进行了一些修改以使其更简单。这只是掩码解码器模型的要求。

如果你需要发送边界框作为提示，则可以使用类似的代码：

input_box = np.array([132, 157, 256, 325]).reshape(2,2) input_labels = np.array([2,3]) onnx_coord = input_box[None, :, :] onnx_label = input_labels[None, :].astype(np.float32) coords = deepcopy(onnx_coord).astype(float) coords[..., 0] = coords[..., 0] * (resized_width / orig_width) coords[..., 1] = coords[..., 1] * (resized_height / orig_height) onnx_coord = coords.astype("float32") onnx_coord array([[[220.86275, 262.5494 ], [428.33987, 543.49396]]], dtype=float32)

此代码用于对提示进行编码，以获取位于框内的对象的掩码，该框的左上角位于x=132,y=157，右下角位于x=256,y=325。

如果想要对包含边界框和点的提示进行编码，则可以使用以下代码：

input_box = np.array([132, 157, 256, 325]).reshape(2,2) box_labels = np.array([2,3]) input_point = np.array([[140, 160]]) input_label = np.array([0]) onnx_coord = np.concatenate([input_point, input_box], axis=0)[None, :, :] onnx_label = np.concatenate([input_label, box_labels], axis=0)[None, :].astype(np.float32) coords = deepcopy(onnx_coord).astype(float) coords[..., 0] = coords[..., 0] * (resized_width / orig_width) coords[..., 1] = coords[..., 1] * (resized_height / orig_height) onnx_coord = coords.astype("float32") onnx_coord

此代码包括input_box和input_point以及它们的标签。请注意，此处的input_label包含 0，这意味着点(140,160)不属于你要提取的对象。此提示将引导模型分割位于(132,157,256,325)框内但不在(140,160)点中的对象。

你可以构建非常具体的提示来获得所需的结果（就像使用 ChatGPT 一样）。

所以，现在我们已经正确编码了onnx_coord和onnx_label以传递给掩码解码器。我们现在就开始吧。

8、运行掩码解码器

现在，当我们有了嵌入onnx_coord和onnx_label时，没有什么可以阻止我们运行掩码解码器模型来获取分割掩码。

让我们先加载模型：

decoder = ort.InferenceSession("vit_b_decoder.onnx")

并将所有编码数据传递给它：

onnx_mask_input = np.zeros((1, 1, 256, 256), dtype=np.float32) onnx_has_mask_input = np.zeros(1, dtype=np.float32) outputs = decoder.run(None,{ "image_embeddings": embeddings, "point_coords": onnx_coord, "point_labels": onnx_label, "mask_input": onnx_mask_input, "has_mask_input": onnx_has_mask_input, "orig_im_size": np.array([orig_height, orig_width], dtype=np.float32) }) masks = outputs[0] masks.shape (1, 1, 415, 612)

此代码使用编码的image_embeddings、point_coords和point_labels运行模型。此外，我为mask_input和has_mask_input提供了虚拟掩码，并为orig_im_size参数提供了原始图像大小。

该模型返回 3 个输出，分割掩码数组是其中的第一个。对于输入图像，它返回(1, 415, 612)形状的张量，这是一个单通道分割掩码。

剩下的唯一步骤是对其进行后处理。

9、后处理和可视化分割掩码

分割掩码是一个像素数组，但是，每个像素不包含颜色，而是包含一些数字。如果这个数字大于 0，则该像素属于对象，否则不属于对象。因此，要将其转换为真实像素颜色，你可以运行以下代码：

mask = masks[0][0] mask = (mask > 0).astype('uint8')*255

此代码从掩码(415x612)中提取像素矩阵，将所有正值转换为 True，将所有负值转换为 False。然后它将所有数字转换为 8 位整数。此后，所有 True 值变为 1，所有 False 值变为 0。然后，我将矩阵乘以 255，将所有 True 像素转换为白色。最后，我们将得到一个单通道黑白图像，可以通过许多图像库轻松可视化。例如，可以使用 Pillow 以这种方式对其进行可视化：

img = Image.fromarray(mask,'L') img

万岁！现在我们可以仅使用 ONNX 进行 Segment Anything 图像分割。

这是我们旅程的结束。你可以在存储库中的 sam_onnx_inference.ipynb 笔记本中找到本节的所有源代码。

10、结束语

在本文中，我展示了如何填补 Segment Anything 模型的 ONNX 导出功能官方实现中的空白。然后，我们学习如何使用导出的 ONNX 模型进行基于提示的图像分割。

你可以在此存储库中找到所有源代码。

在这里我只使用了 Python，但现在，有了完整的 ONNX 模型，你可以做更多的事情。你可以在 ONNX 运行时支持的任何编程语言上运行 Segment Anything 模型。如果你知道如何预处理输入和后处理输出的算法，则可以将此模型集成到用任何编程语言编写的大多数生产系统中。例如，你可以将其嵌入到用 C/C++、Go 或 Rust 编写的软件中，或用 JavaScript 编写的网站中。