news 2026/3/2 10:27:19

特征工程十年演进(2015–2025)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
特征工程十年演进(2015–2025)

特征工程十年演进(2015–2025)

一句话总论:
2015年特征工程还是“手工统计+领域专家经验+低维特征拼接”的工程时代,2025年已进化成“万亿级多模态VLA大模型原生特征+实时意图级自适应表示+量子鲁棒自进化+全域具身零样本特征”的普惠智能时代,中国从跟随手工特征跃升全球领跑者(华为盘古、阿里通义千问、百度文心、DeepSeek、小鹏/银河VLA等主导),特征工程渗透率从>90%降至<10%(新项目),手工特征从必备到几乎消失,特征质量从~80%泛化率飙升至>99%全场景零样本,推动AI从“专家手工调参”到“大模型原生意图级表示”的文明跃迁。

十年演进时间线总结
年份核心范式跃迁代表技术/工具特征质量(泛化提升)/自动化程度主要应用/渗透率中国贡献/里程碑
2015手工统计+领域专家手工统计特征 + One-hot~70–80% / 手工为主表格/图像特征阿里/腾讯手工特征工程,中国Kaggle中国队起步
2017自动化初步+嵌入表示Featuretools / Entity Embedding~80–85% / 半自动类别/序列特征华为/百度初代嵌入特征,中国产业化起步
2019深度特征+学习表示爆发CNN/RNN自动特征 + TabNet~85–90% / 初步自动图像/文本深度特征Momenta/地平线车载深度特征量产
2021大模型预训练特征元年BERT/GPT嵌入 + LoRA微调~90–93% / 大模型辅助少样本迁移华为盘古 + 小鹏智驾大模型特征
2023多模态VLA原生特征元年CLIP/VLA Embed + UniFeature~95–97% / 大模型原生跨模态意图特征阿里通义千问 + 百度文心一格 + DeepSeek多模态特征
2025VLA自进化+量子鲁棒终极形态Grok-4 Embed / DeepSeek-Feature>99% / 全域自进化(量子鲁棒)全域社交意图零样本特征华为盘古特征 + DeepSeek万亿 + 小鹏/银河量子级特征
1.2015–2018:手工统计+领域专家时代
  • 核心特征:特征工程以手工统计(均值/方差/分桶)+One-hot编码+领域专家经验为主,低维拼接,泛化率70–85%,完全依赖专家。
  • 关键进展
    • 2015年:Kaggle竞赛手工特征霸榜。
    • 2016–2017年:Entity Embedding类别嵌入初步。
    • 2018年:Featuretools自动化规则初步。
  • 挑战与转折:手工重、泛化弱;深度学习+自动化特征兴起。
  • 代表案例:阿里淘宝/京东手工特征工程,中国电商推荐领先。
2.2019–2022:深度特征+自动化时代
  • 核心特征:CNN/RNN/TabNet自动特征提取+Featuretools/Deep Feature Synthesis自动化,泛化率85–93%,实时化初探。
  • 关键进展
    • 2019年:TabNet注意力表格特征。
    • 2020–2021年:DeepFM/FiGNN深度特征融合。
    • 2022年:Momenta/地平线车载深度特征量产。
  • 挑战与转折:手工仍重;大模型预训练特征需求爆发。
  • 代表案例:小鹏NGP + 华为ADS 2.0深度特征感知。
3.2023–2025:多模态VLA原生自进化时代
  • 核心特征:万亿级多模态大模型+VLA端到端原生特征+意图级动态表示+量子辅助鲁棒,自进化(越用越准),泛化率>99%。
  • 关键进展
    • 2023年:CLIP Embed多模态+VLA原生特征,阿里通义千问/百度文心一格首发。
    • 2024年:DeepSeek/Grok-4专用特征,量子混合精度。
    • 2025年:华为盘古特征 + DeepSeek万亿 + 通义千问量子级,全域社交意图零样本特征+行动直出,普惠7万级智驾/机器人。
  • 挑战与转折:黑箱/长尾;量子+大模型自进化标配。
  • 代表案例:比亚迪天神之眼(7万级多模态意图级特征),银河通用2025人形(VLA动态意图特征)。
一句话总结

从2015年手工统计拼接的“专家特征工程”到2025年VLA量子自进化的“全域意图级原生表示”,十年间特征工程由手工规则转向多模态语义闭环,中国主导深度特征→预训练嵌入→VLA原生特征创新+万亿实践+普惠下沉,推动AI从“特征调参地狱”到“大模型零样本意图级理解”的文明跃迁,预计2030年手工特征工程渗透率<1%+全域永不失真自愈。

数据来源于arXiv综述、IROS 2025及中国厂商技术白皮书。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/17 9:36:40

警惕!运输振动=医疗产品“隐形杀手”?ASTM D999标准强势护航

对于医疗器械、生物制药、疫苗、无菌敷料等企业而言&#xff0c;产品从生产车间到医院临床的运输环节&#xff0c;是保障产品质量的“最后一公里”。而运输途中不可避免的振动&#xff0c;堪称医疗产品的“隐形杀手”——精密医疗器械可能因振动偏离精度参数&#xff0c;冷链疫…

作者头像 李华
网站建设 2026/2/27 21:08:35

Vue3 Hooks入门:5分钟学会创建你的第一个Hook

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 请创建一个最简单的Vue3 Hooks教学示例&#xff0c;适合完全新手学习。要求&#xff1a;1. 实现一个计数器Hooks 2. 包含增加、减少和重置功能 3. 代码极度简化但完整 4. 添加逐行…

作者头像 李华
网站建设 2026/2/28 8:03:16

SAM模型对比传统CV方法:效率提升10倍的秘密

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 创建一个性能对比测试工具&#xff0c;功能&#xff1a;1. 加载SAM和传统CV算法(如Mask R-CNN)&#xff1b;2. 在COCO数据集上运行基准测试&#xff1b;3. 比较推理速度、mAP指标和…

作者头像 李华
网站建设 2026/3/1 0:48:48

AI万能分类器性能优化:提升推理速度的3种方法

AI万能分类器性能优化&#xff1a;提升推理速度的3种方法 在当前AI应用快速落地的背景下&#xff0c;零样本文本分类技术因其“无需训练、即定义即用”的特性&#xff0c;正被广泛应用于智能客服、工单归类、舆情监控等场景。其中&#xff0c;基于 StructBERT 的 AI 万能分类器…

作者头像 李华
网站建设 2026/2/25 6:33:38

零基础用SORA V2搭建第一个官网指南

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 设计一个新手友好的官网构建向导&#xff1a;1. 分步引导界面&#xff0c;共5个简单步骤 2. 可视化模板选择器 3. 拖拽式内容编辑器 4. 实时预览功能 5. 一键发布指导。要求完全不…

作者头像 李华
网站建设 2026/3/1 5:14:32

Zynq UltraScale+中多通道VDMA的应用场景完整示例

Zynq UltraScale中多通道VDMA实战&#xff1a;打造高效嵌入式视觉系统你有没有遇到过这样的场景&#xff1f;摄像头数据哗哗地进来&#xff0c;CPU却卡在搬运图像上动弹不得&#xff1b;或者AI推理刚跑一半&#xff0c;画面就撕裂了——这其实是典型的“带宽高、负载重、同步难…

作者头像 李华