news 2026/4/15 1:15:00

ML.NET实现人名、地名的提取

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ML.NET实现人名、地名的提取

ML.NET 可以通过文本分类或命名实体识别(NER)任务实现人名、地名的提取。以下是使用 ML.NET 实现该功能的核心思路和步骤:

核心原理

提取人名、地名属于命名实体识别(NER) 任务,本质是对文本中的每个词或字符进行分类(如“人名”“地名”“其他”)。ML.NET 可通过以下两种方式实现:

使用预训练模型:利用已训练好的 NER 模型直接进行预测(需配合支持实体识别的模型格式,如 ONNX)。
自定义训练:若有标注数据,可通过 ML.NET 的文本处理管道训练专属模型。

步骤示例(使用预训练模型)

1. 安装必要包

在项目中安装 ML.NET 核心包及 ONNX 模型支持包:

Install-Package Microsoft.ML
Install-Package Microsoft.ML.OnnxRuntime
Install-Package Microsoft.ML.OnnxTransformer


2. 准备预训练模型

获取支持中文命名实体识别的 ONNX 模型(如 bert-base-chinese-ner 转换的 ONNX 模型),放置在项目目录下。

3. 定义数据结构

// 输入数据:待处理的文本
public class TextInput
{
public string Text { get; set; }
}

// 输出数据:识别出的实体(包含实体类型和内容)
public class EntityOutput
{
public string EntityType { get; set; } // 如 "人名"、"地名"
public string EntityValue { get; set; } // 实体内容
}


4. 构建 ML 管道并预测

using Microsoft.ML;
using Microsoft.ML.Data;

class Program
{
static void Main()
{
// 初始化 ML 环境
var mlContext = new MLContext();

// 加载预训练的 ONNX 模型
var modelPath = "path/to/ner-model.onnx";

// 定义管道:加载模型并配置输入输出
var pipeline = mlContext.Transforms.ApplyOnnxModel(
outputColumnNames: new[] { "outputs" }, // 模型输出列名(需与模型匹配)
inputColumnNames: new[] { "inputs" }, // 模型输入列名(需与模型匹配)
modelFile: modelPath);

// 创建测试数据
var testData = mlContext.Data.LoadFromEnumerable(new[] {
new TextInput { Text = "张三在上海工作,李四来自北京。" }
});

// 加载模型并创建预测引擎
var model = pipeline.Fit(mlContext.Data.LoadFromEnumerable(new TextInput[0]));
var engine = mlContext.Model.CreatePredictionEngine<TextInput, EntityOutput>(model);

// 预测并提取实体
var result = engine.Predict(testData.First());
Console.WriteLine($"识别结果:{result.EntityType} - {result.EntityValue}");
// 预期输出类似:人名 - 张三;地名 - 上海;人名 - 李四;地名 - 北京
}
}


关键说明

- 模型选择:ML.NET 本身不自带预训练 NER 模型,需从第三方获取(如 Hugging Face 下载后转换为 ONNX 格式)。
- 自定义训练:若需针对特定场景优化,可准备标注数据(如用 [人名]张三[/人名]在[地名]上海[/地名] 格式标注),通过 TextFeaturizer 提取文本特征,配合 LightGbm 等算法训练分类模型。
- 局限性:相比 Python 的 NLP 库(如 spaCy、Hugging Face),ML.NET 在 NER 任务的生态和预训练模型丰富度上稍弱,适合已有 .NET 技术栈且需轻量集成的场景。

通过以上步骤,可基于 ML.NET 实现基础的人名、地名提取功能,实际应用中需根据模型类型调整输入输出配置。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/13 17:58:41

2025.12.16新闻

百度首页 哈哈哈分享万岁 人民币,大涨!对美元将“破7”? 每日经济新闻 2025-12-16 00:18每日经济新闻官方账号 已关注 12月15日,人民币对美元汇率显著走强,更多反映国际投资者预期的离岸人民币于盘中升破7.05,在岸、离岸人民币汇率双双达到去年10月中旬以来的高点。…

作者头像 李华
网站建设 2026/4/14 8:41:28

LobeChat会议通知模板自动生成

LobeChat&#xff1a;让AI真正“动手”的智能办公入口 在一家快速扩张的科技公司里&#xff0c;行政助理小李每天要处理十几场会议安排。过去&#xff0c;她需要反复确认时间、手动撰写通知、逐个发送邮件——繁琐且容易出错。如今&#xff0c;她的工作方式变了&#xff1a;“只…

作者头像 李华
网站建设 2026/4/15 5:29:53

LobeChat能否连接Airtable?轻量级后台管理系统集成

LobeChat 能否连接 Airtable&#xff1f;轻量级后台管理系统集成 在 AI 应用快速落地的今天&#xff0c;一个常见但棘手的问题浮出水面&#xff1a;我们有了强大的大语言模型&#xff0c;也部署了美观流畅的聊天界面&#xff0c;可一旦涉及“记录留存”、“任务追踪”或“团队协…

作者头像 李华
网站建设 2026/4/13 19:27:40

LobeChat儿童节亲子活动策划

LobeChat儿童节亲子活动策划 在儿童节这样一个充满欢笑与期待的日子里&#xff0c;越来越多的家庭开始尝试将科技融入亲子互动。然而&#xff0c;市面上大多数智能语音助手虽然能回答问题&#xff0c;却往往缺乏个性、不够安全&#xff0c;甚至可能输出不适合儿童的内容。如何为…

作者头像 李华
网站建设 2026/4/11 9:02:29

LobeChat能否接入Pinterest API?视觉灵感内容推荐

LobeChat能否接入Pinterest API&#xff1f;视觉灵感内容推荐 在设计师和内容创作者越来越依赖视觉素材激发创意的今天&#xff0c;如何用一句话就找到符合心境的设计灵感&#xff0c;成了一个值得深思的技术命题。传统的图像搜索往往需要精准关键词、复杂的筛选条件&#xff…

作者头像 李华
网站建设 2026/4/13 5:37:33

LobeChat实验设计建议生成器开发

LobeChat 实验设计建议生成器开发&#xff1a;从界面到智能科研协作者 在科研领域&#xff0c;一个常见的场景是&#xff1a;研究生面对导师布置的课题——“研究某基因在某种癌症中的功能”——却不知从何下手。文献浩如烟海&#xff0c;实验方法繁杂&#xff0c;统计设计易出…

作者头像 李华