news 2026/6/22 18:08:50

自监督与半监督:AI学习的两种智慧

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
自监督与半监督:AI学习的两种智慧

总结区分

  • 自监督(Self-Supervised Learning)
    没有人工标注,标签是从数据自己构造出来的

  • 半监督(Semi-Supervised Learning)
    一小部分有人工标注 + 大量无标注数据


一、自监督是什么?

核心思想

用数据本身来“出题考自己”

不找人打标签,而是:

  • 从原始数据里人为制造一个任务

  • 这个任务的“正确答案”可以自动得到

模型通过做这些“自问自答”的任务学到有用表示。


典型例子

1.NLP(文本)
  • 任务:预测被遮住的词

我今天去___吃饭→ 正确答案:食堂

BERT、GPT 的预训练都是自监督

2.图像
  • 遮住一块图像,让模型补全

  • 把图像打乱顺序,让模型还原


3.对比学习(现在很火)
  • 同一张图片的不同增强 → 应该“相似”

  • 不同图片 → 应该“不同”

SimCLR、MoCo 都是自监督

二、半监督是什么?

核心思想

用少量标注数据带着大量无标注数据一起学

现实中:

  • 标注很贵

  • 无标注数据很多

那就:

  • 先用少量标注数据“指路”

  • 再把无标注数据也利用起来


典型例子

图像分类
  • 100 张图片有标签(猫 / 狗)

  • 10 万张图片没标签

方法:

  1. 先用有标签数据训练模型

  2. 给无标签数据“猜标签”

  3. 把猜得很准的也当作训练数据(伪标签)


常见方法

  • Pseudo Label(伪标签)

  • Consistency Regularization(一致性约束)

  • FixMatch / Mean Teacher


特点总结

  • 用到了人工标注

  • 提升标注效率

  • 依赖初始标签质量

  • 任务通常是明确的下游任务


三、自监督 vs 半监督(对照表)

维度自监督半监督
是否需要人工标签需要(少量)
标签来源数据自己构造人工 + 模型预测
主要用途预训练 / 表征学习具体任务训练
常见位置训练前训练中
代表模型BERT、SimCLRFixMatch
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/14 0:52:14

385 涡流室式柴油机机体设计及动力计算

385涡流室式柴油机机体设计及动力计算 一、设计背景与意义 385涡流室式柴油机作为小型动力机械的核心装备,广泛应用于农业机械、工程机械及发电机组等领域,其机体作为关键承载部件,需同时满足结构强度、密封性能与动力传递效率的要求。传统…

作者头像 李华
网站建设 2026/6/18 21:49:06

315吨液压机总体及机械系统设计

315吨液压机总体及机械系统设计 一、设计背景与意义 液压机作为金属成形、材料压制等领域的核心设备,凭借压力输出稳定、承载能力强等优势,广泛应用于机械制造、汽车零部件加工、航空航天等行业。315吨级液压机因适配中等载荷加工需求,成为中…

作者头像 李华
网站建设 2026/6/13 14:33:30

收藏备用|大模型就业+保研全攻略(小白/程序员必看)

近期,大模型相关的就业前景成为科技圈热议的焦点,更是戳中了不少程序员、计算机专业学子的核心关切。一方面,作为当下技术前沿的核心赛道,大模型吸引着无数科技从业者、学习者躬身入局;另一方面,现实就业中…

作者头像 李华
网站建设 2026/6/16 15:46:23

干货!2026 程序员 12 个高含金量证书:职场加分 + 薪资提升全解析

前言 近来IT行业成为了发展前景好高薪资的大热门,越来越多的人选择参加各种各样的计算机考试,就是为了拿含金量高的证书,提升自己的职场竞争力。 那么程序员有哪些含金量高的证书可以考?下面小编将详细介绍一下含金量高的IT证书…

作者头像 李华
网站建设 2026/6/22 17:34:29

SCI论文投稿AI率超标被退?这款降AI工具帮你一次过

上个月投Nature子刊的稿子被退回来了。 编辑的理由是:“检测到显著的AI生成痕迹,请修改后重新提交。” 我当时人都傻了。那篇论文是我自己写的,用AI只是润色了几个句子。但编辑不管这些,AI率超标就是退稿,没有商量余…

作者头像 李华
网站建设 2026/6/16 23:35:02

论文AI率90%怎么办?这5款工具帮你降到15%以下

论文AI率90%怎么办?这5款工具帮你降到15%以下 99%。 这是我室友用DeepSeek帮他润色论文后,知网给出的AIGC检测结果。他当时差点哭出来,因为答辩只剩一周了。 后来我帮他用比话降AI处理了一遍,结果降到了3%。没骗你,…

作者头像 李华