news 2026/7/6 4:10:06

.NET如何实现向量语义分析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
.NET如何实现向量语义分析

二、LLamaEmbedder 为什么不准?(核心原因)

它是 LLM 大语言模型,不是向量模型,不是专门为语义向量训练的,向量质量远不如 Sentence-BERT、BGE、m3e 这类专业模型。
中文支持极差LlamaEmbedder 原生对中文短文本、口语化问句几乎不优化。
输出的向量没有归一化、没有对齐语义导致余弦相似度乱跳:
同义句分数低
无关句分数高
速度慢、占用高对比专业向量模型,完全不适合做匹配。

二、.net 真正准的语义向量方案(中文最强)

有两种向量模型方案:
方案 1:BGE 向量模型(国内最准)
方案 2:m3e 向量模型(轻量、超快、中文专门训练)

三、如何使用BGE 向量模型做向量语义分析

下载这个:b

然后可以封装成以下代码:需要通过nuget引用下载Microsoft.ML.OnnxRuntime和Microsoft.ML.Tokenizers

public class OnnxBgeEmbeddingService : IDisposable { private readonly InferenceSession _session; private readonly BertTokenizer _tokenizer; // 使用 BertTokenizer // 模型输入名称(动态获取或硬编码) private readonly string _inputNameIds; private readonly string _inputNameMask; private readonly string _inputNameTokenType; // 新增:token_type_ids 名称 private readonly string _outputName; // BGE 模型配置 private const int MaxLength = 512; private const int PadTokenId = 0; private const int TokenTypeId = 0; // BGE/BERT 单句输入通常全为 0 public OnnxBgeEmbeddingService(string modelPath, string vocabPath) { // 1. 初始化 ONNX 会话 var sessionOptions = new SessionOptions(); sessionOptions.InterOpNumThreads = 4; sessionOptions.IntraOpNumThreads = 4; _session = new InferenceSession(modelPath, sessionOptions); // 2. 初始化分词器 _tokenizer = BertTokenizer.Create(vocabPath); // 3. 获取模型输入输出名称 var inputKeys = _session.InputMetadata.Keys.ToList(); _inputNameIds = inputKeys.FirstOrDefault(k => k.Contains("input_ids")) ?? "input_ids"; _inputNameMask = inputKeys.FirstOrDefault(k => k.Contains("attention_mask")) ?? "attention_mask"; // 关键修复:查找 token_type_ids 或 token_type_ids 类似的键 _inputNameTokenType = inputKeys.FirstOrDefault(k => k.Contains("token_type")) ?? "token_type_ids"; if (_session.OutputMetadata.Count == 0) throw new InvalidOperationException("Model has no outputs."); _outputName = _session.OutputMetadata.Keys.First(); } public float[] GenerateEmbedding(string text) { if (string.IsNullOrWhiteSpace(text)) throw new ArgumentException("Text cannot be null or empty"); // 1. 分词并预处理 (截断 + 填充) var (inputIds, attentionMask, tokenTypeIds) = EncodeAndPreprocess(text); // 2. 构建输入张量 // 注意:大多数 BGE ONNX 模型接受 int64 (long),部分优化模型接受 int32 (int) // 如果报错 Type Mismatch,请将 DenseTensor<long> 改为 DenseTensor<int> var inputIdsTensor = new DenseTensor<long>(inputIds, new[] { 1, inputIds.Length }); var attentionMaskTensor = new DenseTensor<long>(attentionMask, new[] { 1, attentionMask.Length }); var tokenTypeIdsTensor = new DenseTensor<long>(tokenTypeIds, new[] { 1, tokenTypeIds.Length }); var inputs = new List<NamedOnnxValue> { NamedOnnxValue.CreateFromTensor(_inputNameIds, inputIdsTensor), NamedOnnxValue.CreateFromTensor(_inputNameMask, attentionMaskTensor), NamedOnnxValue.CreateFromTensor(_inputNameTokenType, tokenTypeIdsTensor) // 关键修复:添加此输入 }; // 3. 执行推理 using var results = _session.Run(inputs); // 4. 提取结果 var rawOutput = results.First().AsTensor<float>(); // 关键修复:正确获取维度 // rawOutput 形状通常为 [1, seq_len, hidden_size] // Dimensions 是一个 int[] 数组,例如 [1, 512, 384] if (rawOutput.Rank != 3) throw new InvalidOperationException($"Expected 3D output, got {rawOutput.Rank}D"); int seqLen = rawOutput.Dimensions.Length; // 序列长度 int hiddenSize = rawOutput.Dimensions.Length; // 向量维度 float[] embedding = new float[hiddenSize]; // 5. 平均池化 (Mean Pooling) int validTokenCount = 0; for (int i = 0; i < seqLen; i++) { // 只有当 attention mask 为 1 时才参与计算 if (attentionMask[i] == 1) { for (int j = 0; j < hiddenSize; j++) { // 累加每个维度的值 embedding[j] += rawOutput[0, i, j]; } validTokenCount++; } } // 求平均 if (validTokenCount > 0) { for (int i = 0; i < hiddenSize; i++) { embedding[i] /= validTokenCount; } } // 6. L2 归一化 Normalize(embedding); return embedding; } /// <summary> /// 编码并预处理:截断、填充、生成 Mask 和 Token Type IDs /// </summary> private (long[] InputIds, long[] AttentionMask, long[] TokenTypeIds) EncodeAndPreprocess(string text) { // 使用 BertTokenizer 编码 // EncodeToIds 返回 ReadOnlyMemory<int> int[] originalIds = _tokenizer.EncodeToIds(text).ToArray(); int currentLen = originalIds.Length; // 1. 截断 (Truncation) if (currentLen > MaxLength) { Array.Resize(ref originalIds, MaxLength); currentLen = MaxLength; } // 2. 填充 (Padding) if (currentLen < MaxLength) { int oldLen = originalIds.Length; Array.Resize(ref originalIds, MaxLength); // 将新增部分填充为 PadTokenId (0) for (int i = oldLen; i < MaxLength; i++) { originalIds[i] = PadTokenId; } } // 3. 生成 Attention Mask 和 Token Type IDs long[] attentionMask = new long[MaxLength]; long[] tokenTypeIds = new long[MaxLength]; for (int i = 0; i < MaxLength; i++) { // Mask: 非 Padding 位为 1,Padding 位为 0 attentionMask[i] = (originalIds[i] != PadTokenId) ? 1 : 0; // Token Type IDs: BGE 单句任务通常全为 0 tokenTypeIds[i] = TokenTypeId; } // 将 int[] 转换为 long[] 以匹配 ONNX 输入要求 long[] finalInputIds = Array.ConvertAll(originalIds, x => (long)x); return (finalInputIds, attentionMask, tokenTypeIds); } private void Normalize(float[] vector) { float sum = 0; foreach (var v in vector) { sum += v * v; } float norm = (float)Math.Sqrt(sum); if (norm > 0) { for (int i = 0; i < vector.Length; i++) { vector[i] /= norm; } } } public void Dispose() { _session?.Dispose(); } }

以下是调用:

var onnxBgeEmbeddingService = new OnnxBgeEmbeddingService("Models/model.onnx", "Models/vocab.txt") onnxBgeEmbeddingService .GenerateEmbedding("微服务是什么")

以下就是用向量语义分析检索出来的AI对话结果

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/6 4:07:50

道路安全锥交通锥检测数据集7091张VOC+YOLO格式

道路安全锥交通锥检测数据集7091张VOCYOLO格式 数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;7091 标注数量(xml文件个数)&#xff1a;70…

作者头像 李华
网站建设 2026/7/6 4:07:38

SolonCode CLI 的心智记忆功能:让 AI 编程助手越用越懂你

一、SolonCode CLI 是什么&#xff1f;如果你还没听说过 SolonCode&#xff0c;先花一分钟了解一下。SolonCode 是 Solon 生态 的命令行 AI 编程助手&#xff0c;基于 Solon AI 框架构建&#xff0c;底层采用了 Harness 智能体架构。它不是一个 IDE 插件&#xff0c;而是一个独…

作者头像 李华
网站建设 2026/7/6 4:06:36

Spring AI Advisor 与安全 Tool Calling:调用链追踪、权限和硬边界

Spring AI Advisor 与安全 Tool Calling&#xff1a;给 AI 调用链加追踪、权限和硬边界 前面的学习已经完成了 ChatClient、Memory、RAG 和 Tool Calling。 但把这些能力串起来以后&#xff0c;新的问题也出现了&#xff1a; 一次 AI 调用怎么生成统一的 traceId&#xff1b;Pr…

作者头像 李华
网站建设 2026/7/6 4:05:53

图生视频模型训练数据集

1. 模型总览与训练数据对比 1.1 核心对比表 模型开发者发布时间参数规模训练数据规模数据来源数据筛选方法字幕生成方法开源程度SVDStability AI2023.11~1.5BLVD: ~577M clips; LVD-F: ~144M clips网络视频多级场景分割 四维评分筛选(CLIP/美学/OCR/光流)CoCa V-BLIP LLM融…

作者头像 李华
网站建设 2026/7/6 4:04:46

时间序列分解实战:STL与经典法选型及参数调优指南

1. 项目概述&#xff1a;时间序列分解不是“拆积木”&#xff0c;而是给数据做一次精准的病理切片你手头有一组连续记录的销售数据、服务器CPU使用率、某地每日气温&#xff0c;或者用户App打开次数——它们都属于时间序列。表面看是一条上下起伏的曲线&#xff0c;但真正驱动它…

作者头像 李华
网站建设 2026/7/6 4:04:22

【Bug已解决】Claude Team Plan 购买席位报错 Payment failed 解决方案

【Bug已解决】Claude Team Plan 购买席位报错 Payment failed 解决方案 1. 问题描述 企业管理员在 Claude 控制台为团队计划&#xff08;Team Plan&#xff09;增购席位时&#xff0c;反复遇到支付失败的报错&#xff1a; Payment failed It looks like your payment method…

作者头像 李华