news 2026/4/15 20:20:51

一文讲清:从像素到认知:CNN让机器“看见”世界

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
一文讲清:从像素到认知:CNN让机器“看见”世界

深度学习入门这一系列课程中,我们第一课就分享了前馈神经网络,介绍了全连接层的概念。全连接网络是“通用逼近器”,作为神经网络家族中最基础的成员,构成深度学习的基石。虽然理论上全连接能拟合任何函数,但也存在着效率低、易过拟合等问题,这催生了CNN、RNN、Transformer等更专门的架构。CNN和RNN是对全连接网络的改进:CNN引入空间局部性和平移不变性,专治图像;RNN引入时间依赖性,专治序列(Transformer出现后,RNN 在主流NLP序列建模中逐渐被取代)。

今天,我们就来一起聊聊CNN(Convolutional Neural Network,卷积神经网络)。

一、全连接网络:处理图像有致命伤

在没有CNN之前,用FNN来处理图像,它的逻辑很简单:就是把图像拉成一维向量,然后让每个像素连接到下一层的每个神经元。听起来很“全面”,但真相是:

(1)参数爆炸:一张1000×1000像素的图片,如果第一层有1000个神经元,则仅一层就需要10亿个参数!(输入=1000×1000=100万维,输出=1000,合计=100万×1000=10亿)海量参数不仅需要巨大的计算资源,还极易导致过拟合。

(2)空间信息丢失:将二维图像拉成一维向量,就像把图像撕碎,碎片倒进袋子里——碎片之间的相对位置关系完全丢失了。又好比让一个人通过背诵电话号码簿来理解城市地图——信息是在,但结构尽失。

(3)局部性盲视:图像中相邻像素往往强相关(比如颜色相近),但FNN对所有像素一视同仁,一个像素与千里之外的像素被同等对待。

FNN把世界当作一堆孤立的点,但人类看世界的方式是从局部到整体,从细节到意义。你不是记住“每一片树叶的形状”,再拼出“树木和森林”;而是看到了“某一片叶子”,就联想到了“树木和森林”。

最近两年,大家都可以看到AI的发展有多快,我国超10亿参数的大模型,在短短一年之内,已经超过了100个,现在还在不断的发掘中,时代在瞬息万变,我们又为何不给自己多一个选择,多一个出路,多一个可能呢?

与其在传统行业里停滞不前,不如尝试一下新兴行业,而AI大模型恰恰是这两年的大风口,整体AI领域2025年预计缺口1000万人,其中算法、工程应用类人才需求最为紧迫!

学习AI大模型是一项系统工程,需要时间和持续的努力。但随着技术的发展和在线资源的丰富,零基础的小白也有很好的机会逐步学习和掌握。【点击蓝字获取】

【2025最新】AI大模型全套学习籽料(可白嫖):LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等,从入门到进阶再到精通,超全面存下吧!

二、CNN的诞生:向大脑偷师

神经科学家发现:人类视觉皮层的神经元并非“全局扫描”,而是对局部区域敏感。比如,某些神经元只对“水平边缘”有反应,另一些只对“圆形”敏感,它们像一群分工明确的“小探头”,共同构建出对世界的认知。

CNN正是模仿了这一机制,它用三个核心设计,解决了FNN的致命缺陷:

(1)局部连接:每个神经元只“看”图像的一小块(如3×3像素),而非整张图。

(2)权值共享:使用同一个“特征探测器”(卷积核)在整个图像上滑动,寻找相同模式,这极大减少了参数数量。

(3)层次化特征:浅层识别边缘,中层组合纹理,深层识别物体。像小孩学画画,先画“线条”,再画“形状”,最后画“猫”。CNN的每一层,都在构建更高阶的“认知积木”。

三、CNN的原理:卷积与池化

1、卷积核:图像“探测器”

卷积核就像一个专门负责寻找某种特定图案(特征)的小型探测器。它在图片上滑动巡逻,每到一个地方就问:“我这里有没有我要找的那个图案?”然后根据“像不像”的程度,在新的特征图上做一个强弱标记。

我们举例来看,假设你有下面的一种“边缘检测器”:

[ -1 -1 -1 ]

[ 0 0 0 ]

[ 1 1 1 ]

这个特征探测器会在图像上滑动。每到一处,就计算重叠区域的像素值乘积和。按照上述卷积核,这其实是一个水平边缘检测器(更准确地说,是检测从暗到亮的水平方向突变)。

我们可以来简单算一下,这个核的上半部分是-1,下半部分是+1,中间一行是0。当它滑过图像时,会计算:(下方像素值之和) − (上方像素值之和),遇到水平边缘(比如上半部分是黑色/暗,下半部分是白色/亮),上方像素值小(比如接近0),下方像素值大(比如接近255),得到的结果会是一个较大的数 → 就代表响应强 → 即被检测为“有水平边缘”。

要提示的是:深度学习中的“卷积” ≠ 数学中的卷积

数学卷积需将模板翻转再滑动,而深度学习中不翻转(直接滑动),但历史习惯保留了“卷积”这个名字。数学上卷积是描述信号系统(需翻转),而CNN技术上其实是“互相关”,因为深度学习中的卷积核是学习出来的,不需要人为设定数值,翻转反而增加了计算复杂度,所以从实用主义角度来看,翻转意义不大。

2、池化:图像“压缩瘦身”

池化如同把高清照片压缩成缩略图,在保留特征的同时,有控制地简化空间信息,进行“有损压缩”,池化可以大幅降低数据维度,减少计算量。池化层就像段落摘要——我们不需要记住每个字的确切位置,只需把握段落主旨。最大池化保留最显著特征,平均池化则考虑整体趋势。

与卷积层不同,池化层通常没有可学习的参数(权重或偏差),聚合函数(如最大值或平均值)是固定的,这使得它们更简单且计算成本更低。

池化层不是必须的,它在传统卷积神经网络(CNN)中曾扮演重要角色。但研究发现,池化的功能可以被其他机制替代,甚至做得更好。它的必要性已被重新审视——在很多现代架构中,池化层甚至被完全弃用。

四、CNN的架构

CNN的典型架构:

1.输入层:原始图像(如224×224像素)。

2.卷积层:用多个卷积核扫描图像,生成特征图(如检测边缘、纹理)。

3.激活与池化层:激活函数作用于卷积层后,在通过池化压缩特征图,保留关键信息。

4.深度堆叠:连续多层的卷积、激活、池化。

5.全连接层:将特征图“拼回”为分类输出(如“猫”或“狗”)。

五、CNN的局限

尽管CNN是革命性的,但它仍有“看不清”的地方:

(1)对旋转/尺度敏感:猫在图中转个身,CNN可能认不出(需额外数据增强)。

CNN依赖训练数据中包含各种姿态、尺度、光照的变化(即“数据增强”),来暴力覆盖所有可能情况——这是一种数据驱动的补救,而非结构上的智慧。因此CNN训练依赖大量数据。

对比人类视觉来看,人看到旋转的猫,不会困惑,因为我们具备空间推理能力和理解“物体恒常性”,知道“这是同一个物体,只是视角变了”。但CNN只是在像素层面做模式匹配。

(2)结构依赖:CNN是“为图像而生”的特化架构。对于非图像数据(如时序数据、文本等)效果差(需RNN/Transformer)。

CNN 的核心假设是:数据具有平移不变的局部邻域结构(即“附近像素相关,远处无关”)。这个假设在图像中成立,但在其他数据中可能完全失效。CNN 是一种带有强烈归纳偏置(inductive bias)的模型——它预设了“局部性 + 平移对称性”。这种偏置让它在图像上高效,但也锁死了它的通用性。

综合来看,CNN 的根本局限在于:它是一种“感知型”模型,而非“推理型”模型。CNN让机器拥有了可靠的“视觉感知”能力,它是深度学习革命的引擎,但它终究是一个特征提取器,而非完整智能体。

CNN是伟大的“眼睛”,不是“大脑”。

CNN可以作为“感官模块”,嵌入到能思考、能推理、能理解世界的更大架构中——那时,机器才不只是“看见”,而是真正“理解”。

最近两年,大家都可以看到AI的发展有多快,我国超10亿参数的大模型,在短短一年之内,已经超过了100个,现在还在不断的发掘中,时代在瞬息万变,我们又为何不给自己多一个选择,多一个出路,多一个可能呢?

与其在传统行业里停滞不前,不如尝试一下新兴行业,而AI大模型恰恰是这两年的大风口,整体AI领域2025年预计缺口1000万人,其中算法、工程应用类人才需求最为紧迫!

学习AI大模型是一项系统工程,需要时间和持续的努力。但随着技术的发展和在线资源的丰富,零基础的小白也有很好的机会逐步学习和掌握。【点击蓝字获取】

【2025最新】AI大模型全套学习籽料(可白嫖):LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等,从入门到进阶再到精通,超全面存下吧!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 3:46:48

AI产品经理 扫盲,一篇搞定AI的RAG

作为产品经理(PM),你是不是也和我一样,被各种技术新词搞得头晕脑胀?一边是老板“我们产品也要接入大模型”的殷切期盼,一边是自己看着RAG、Fine-tuning、Agent这些词汇,感觉“每个字都认识&…

作者头像 李华
网站建设 2026/4/8 20:53:32

16、Linux系统中进程识别与日志文件使用指南

Linux系统中进程识别与日志文件使用指南 1. Linux进程的层次结构 在Linux系统中,进程呈现出树形的层次结构。一个运行中的Linux系统通常会有数十甚至数百个进程同时运行。每个进程都有与之关联的进程ID(PID),PID从1开始,通常 init 进程的PID为1。此外,每个进程还有一个…

作者头像 李华
网站建设 2026/3/30 23:39:10

网安自学不看学历!专本科必看的高效方法,带你少走几年弯路

前言 “网络安全只有计算机高材生才能学?” “没有名校背景,根本进不了这个行业?” “普通专科生、本科生、非科班出身想要自学网络安全,难度太大了吧?” 如果你也有这样的疑问? 那么恭喜你&#xff0…

作者头像 李华
网站建设 2026/4/12 14:03:49

磁耦合谐振无线电能传输系统仿真研究:基于负载估算与移相控制的发射端优化及高清仿真图片资料

磁耦合谐振无线电能传输系统仿真 通过负载估算和移相控制的发射端控制方案来调整SS/SP谐振拓扑的无线供电系统的输出电压和电流。 避免了常规无线电能传输系统中发射端与接收端的实时无线通讯,同时,减少了在发射端或接收端添加升压或降压控制电路&#x…

作者头像 李华
网站建设 2026/4/11 8:59:38

26、Linux 用户、组管理及文件权限设置全解析

Linux 用户、组管理及文件权限设置全解析 1. 用户与组管理基础 在 Linux 系统中,用户和组的管理是系统管理的重要部分。可以通过命令行工具对用户和组进行添加、修改和删除等操作。 1.1 组的删除 在 shell 中删除组可以使用 groupdel 命令,该命令只需要一个组名作为参数…

作者头像 李华
网站建设 2026/4/10 15:55:03

5分钟搞定Windows文件夹视图统一配置:WinSetView终极指南

5分钟搞定Windows文件夹视图统一配置:WinSetView终极指南 【免费下载链接】WinSetView Globally Set Explorer Folder Views 项目地址: https://gitcode.com/gh_mirrors/wi/WinSetView 还在为Windows资源管理器中每个文件夹显示不同视图而烦恼吗?…

作者头像 李华