news 2026/4/21 2:36:31

第四章作业

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
第四章作业

1.P100页题目

计算机视觉(CV)技术应用现状与CNN图像识别流程

作为专注于数字媒体领域的从业者,了解CV技术的应用边界和核心模型(如CNN)的工作原理,能为视频内容分析、智能剪辑、图像素材处理等工作提供技术支撑。以下从应用现状和技术流程两方面展开详细说明。

2.1 CV技术的应用现状

当前CV技术已从“感知”向“理解”进阶,在多个领域实现规模化落地,核心应用场景可分为基础感知类场景理解类交互决策类,具体如下:

1. 基础感知类应用(核心:“看见并识别”)

聚焦于对图像/视频中核心元素的检测、分类与提取,是数字媒体工作中最常用的技术方向:

  • 图像/视频内容分析:如短视频平台的“智能标签生成”(自动识别画面中的人物、场景、物体并打标签,辅助内容检索)、“违规内容检测”(识别色情、暴力、广告帧);影视后期中的“素材智能分类”(自动将拍摄素材按“人物特写”“远景场景”“动态镜头”拆分)。
  • 人脸识别与生物特征识别:除了常见的考勤、解锁,在媒体领域可用于“明星脸追踪”(视频中自动定位特定人物并生成剪辑片段)、“多镜头人物匹配”(不同机位拍摄的同一人自动关联)。
  • 目标检测与计数:如直播场景中的“观众手势识别”(判断观众是否举手互动)、影视特效中的“绿幕抠图辅助”(自动识别绿幕区域边界,提升抠图精度)。

2. 场景理解类应用(核心:“理解环境与关系”)

在感知基础上,进一步分析元素间的空间关系、场景语义,支撑更复杂的媒体创作:

  • 图像分割与场景重建:如“虚拟场景生成”(根据真实场景图像,分割出天空、地面、建筑,再替换为虚拟背景)、“3D素材提取”(从2D图像中分离前景物体并生成简单3D模型,用于AE特效合成)。
  • 行为分析与动作识别:如短视频“舞蹈动作匹配”(用户拍摄的舞蹈视频与标准动作对比,生成教学反馈)、影视“镜头语言分析”(自动识别镜头运动类型,如推拉、摇移、跟拍,辅助剪辑风格统一)。
  • 图像修复与内容生成:如“老视频修复”(去除划痕、提升分辨率,基于CV的“内容填充”技术修复画面缺失部分)、“AI辅助创作”(根据文本描述生成场景图像,如“古风庭院夜景”,作为视频背景素材)。

3. 交互决策类应用(核心:“基于视觉反馈行动”)

结合实时视觉数据驱动交互逻辑,常见于互动媒体和智能工具:

  • 实时特效与AR交互:如直播中的“面部特效跟踪”(贴纸随面部表情动态贴合)、短视频“手势触发特效”(比出“OK”手势时生成烟花特效)。
  • 智能剪辑与辅助工具:如“自动粗剪”(根据CV识别的“高动作帧”“人物清晰帧”,自动筛选视频片段)、“字幕自动对齐”(识别画面中的人物口型,调整字幕时间轴,减少人工校对工作量)。

现状总结

  • 技术成熟度:基础感知类技术(如目标检测、人脸识别)已高度成熟,开源工具(如OpenCV、YOLO)可直接用于项目开发;场景理解类技术(如复杂行为分析)仍需结合特定场景调优,部分依赖定制化模型。
  • 行业痛点:对“小样本数据”“复杂背景”“动态模糊”的处理能力仍有不足(如视频中快速移动的小物体易漏检),且部分高阶应用(如精细3D重建)算力成本较高,对个人创作者的设备门槛有一定要求。

2.2 CNN模型识别图像中对象的流程

CNN(卷积神经网络)是当前图像识别的核心模型,其设计灵感源于人类视觉系统,通过“逐层提取特征”实现从“像素”到“语义”的映射。以“在一张图片中识别‘猫’”为例,完整流程可分为输入层→特征提取层(卷积+池化)→特征融合层(全连接)→输出层四步,每一步的核心作用和技术逻辑如下:

1. 输入层:图像数据预处理(将“图片”转为“可计算数据”)

CNN无法直接处理原始图片文件(如JPG、PNG),需先将其转化为标准化的数值矩阵,核心操作包括:

  • 像素矩阵化:将图片拆解为“宽度×高度×通道数”的张量(Tensor)。例如,一张224×224像素的RGB彩色图,会转化为224×224×3的矩阵(3代表红、绿、蓝三个颜色通道),每个元素的取值为0-255(代表像素亮度)。
  • 数据标准化:对像素值进行归一化(如将0-255的数值除以255,转化为0-1的浮点数),同时减去数据集的平均像素值(如ImageNet数据集的均值),目的是消除“亮度差异”对模型的干扰(如强光和弱光下的猫,像素值范围不同,标准化后特征更统一)。
  • 数据增强(可选,训练阶段):为提升模型泛化能力,训练时会对输入图像进行随机变换(如旋转、裁剪、水平翻转、亮度调整),模拟不同拍摄角度和环境下的对象形态(如躺着的猫、侧面的猫)。

2. 特征提取层:逐层提取从“低级特征”到“高级特征”

这是CNN与传统神经网络的核心区别,通过卷积操作(提取特征)池化操作(压缩特征)交替进行,逐步从像素中抽象出有意义的特征,分为“浅层”和“深层”两个阶段:

(1)浅层特征提取(捕捉“边缘、纹理、颜色块”)
  • 卷积操作(Convolution):用多个“卷积核(Filter)”在输入矩阵上滑动,计算局部像素的加权和,生成“特征图(Feature Map)”。例如,用一个“边缘检测卷积核”(如[[1,0,-1],[1,0,-1],[1,0,-1]])滑动时,会对相邻3×3的像素计算,最终输出的特征图中,“边缘区域”会呈现高数值(亮区),“平滑区域”呈现低数值(暗区)。一个卷积层会包含多个不同的卷积核(如32个、64个),分别提取不同的浅层特征(如水平边缘、垂直边缘、红色色块、纹理斑点)。
  • 激活函数(ReLU):对卷积后的特征图进行“非线性变换”,常用ReLU函数(f(x)=max(0,x)),目的是引入非线性表达能力——因为图像中的对象特征(如猫的轮廓)是非线性的,只有通过激活函数,模型才能学习到复杂的特征关系。
  • 池化操作(Pooling):对激活后的特征图进行“下采样”,压缩数据维度(如将224×224的特征图压缩为112×112),同时保留关键特征。最常用的是“最大池化(Max Pooling)”:在2×2的局部区域中取最大值作为输出(例如,某区域像素值为[[1,0],[3,2]],池化后输出3)。这样既能减少后续计算量,又能让特征具备“平移不变性”(即猫在图片中稍微移动,池化后仍能识别其特征)。
(2)深层特征提取(捕捉“部件、结构、形态”)

随着网络层数增加,特征图的“空间维度”逐渐减小(如从224×224→112×112→56×56→...→7×7),但“特征通道数”逐渐增加(如从3→64→128→256→...→512),特征抽象程度也随之提升:

  • 第2-3个卷积层:开始将浅层特征组合为“简单部件”,如猫的“耳朵轮廓”“眼睛区域”“胡须纹理”。
  • 第4-5个卷积层(或更深):将简单部件组合为“复杂结构”,如“猫的头部形态”“身体轮廓”“四肢比例”,此时的特征图已能初步反映“猫”的整体形态特征,而非孤立的边缘或纹理。

3. 特征融合层:全连接层(将“特征图”转化为“分类向量”)

经过深层特征提取后,得到的是“小尺寸、多通道”的特征图(如7×7×512),需通过全连接层(Fully Connected Layer, FC)将其转化为与“类别数”对应的向量,实现特征融合与分类映射:

  • 扁平化(Flatten):先将7×7×512的三维特征图展开为一维向量,长度为7×7×512=25088,此时每个元素代表一个“高级特征”(如“头部特征强度”“身体结构特征强度”)。
  • 全连接计算:通过1-2个全连接层,将25088维的向量逐步压缩为“类别数”维的向量(如识别1000个类别时,输出1000维向量)。每个维度的数值代表“图像属于该类别的概率分数”(未归一化前)。
  • Dropout(可选,训练阶段):为防止过拟合(模型只记住训练数据,对新数据识别不准),全连接层会随机“关闭”部分神经元(如50%的神经元暂时不参与计算),迫使模型学习更通用的特征。

4. 输出层:分类决策(确定“对象类别”)

通过“softmax函数”对全连接层输出的概率分数进行归一化,得到每个类别的“概率值”(所有概率和为1),最终选择概率最高的类别作为识别结果:

  • 例如,归一化后“猫”的概率为0.92,“狗”的概率为0.05,“汽车”的概率为0.03,则模型输出“该对象为猫”。
  • 若需更高精度(如区分“布偶猫”“橘猫”),则需在输出层增加对应类别,并使用更细分的数据集训练模型。

流程总结

CNN的核心逻辑是**“逐层抽象、从局部到整体”**:从浅层的像素级特征(边缘、颜色),到深层的语义级特征(部件、结构),最终通过全连接层完成“特征→类别”的映射,整个过程模拟了人类“先看细节、再认整体”的视觉识别习惯。

2.实验5 体验大语言模型

目的和要求

(1)了解大语言模型的工作原理

2)了解海内外主流大语言模型的基本情况

3)练习体验海内外主流大语言模型

实验准备

(1)了解大语言模型指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。

(2)了解现阶段,所有的大语言模型都基于Transformer架构。

(3)了解GPT模型的诞生可以说是NLP技术的发展历史中一个重要的里程碑,这是NLP技术的重大突破。GPT系列大语言模型包含GPT-1、GPT-2、GPT-3、GPT-3.5和GPT-4等5个版本。

(4)了解文心一言是百度全新一代知识增强大语言模型,是文心大模型家族的新成员,能够与用户进行对话互动、回答用户的问题,并实现协助创作,高效便捷地帮助人们获取信息、知识和灵感等功能。文心一言是基于海量数据和知识进行融合学习的预训练大模型,也是国内参数数量比较多的大语言模型

(5)了解通义千问是阿里云推出的大语言模型,其功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持。并能够和人类进行多轮的交互,也融入了多模态的知识理解、有文案创作能力、能够续写小说,编写邮件等。

实验内容

推荐的大语言模型有智谱清言、豆包、文心一言、通义千问、chatgpt等。选择2种大语言模型体验纯文本任务和多模态任务两种类型,完成下列表格的填写。

我选择豆包1和文心一言2大模型

序号

考察能力

题目

回复

评价

1

逻辑推理

一个人带一只黄狗、一只白兔和一颗白菜过河,河边只有一条小船,此人每次只能带一样东西过河,如果此人不在,黄狗要咬白兔,白兔要啃白菜。请想一想:既不让黄狗咬白兔,又不让白兔啃白菜,该怎么设计过河方案

豆包1大模型:第一次过河:人带着白兔划船到对岸,然后人独自划船返回。此时:

对岸:白兔

原岸:黄狗、白菜

(黄狗和白菜无冲突,可安全共处)

第二次过河:人带着黄狗划船到对岸,然后人带着白兔划船返回。此时:

对岸:黄狗

原岸:白兔、白菜

(若不带走白兔,黄狗会咬白兔,因此必须带回)

第三次过河:人带着白菜划船到对岸,然后人独自划船返回。此时:

对岸:黄狗、白菜

原岸:白兔

(黄狗和白菜无冲突,可安全共处)

第四次过河:人带着白兔划船到对岸。此时,人、黄狗、白兔、白菜全部安全到达对岸,任务完成。

文心一言2大模型:要解决这个过河问题,需确保人不在时,黄狗和白兔、白兔和白菜不能单独留在同一岸。关键在于通过多次往返调整物品位置,避免冲突。以下是具体步骤:

第一步:带白兔过河

人先带白兔到右岸,此时左岸剩下黄狗和白菜(无冲突),右岸有白兔。

第二步:人单独返回左岸

人回到左岸后,右岸仅剩白兔(安全),左岸恢复黄狗和白菜(仍无冲突)。

第三步:带黄狗过河

人带黄狗到右岸,此时右岸有黄狗和白兔。若人离开,黄狗会咬白兔,因此需立即调整。

第四步:带白兔返回左岸

人将白兔带回左岸,此时右岸仅剩黄狗(安全),左岸有白兔和白菜。若人离开,白兔会啃白菜,但人仍在左岸,故无冲突。

第五步:带白菜过河

人带白菜到右岸,此时右岸有黄狗和白菜(无冲突),左岸仅剩白兔。

第六步:人单独返回左岸

人回到左岸后,右岸的黄狗和白菜仍安全,左岸仅剩白兔(无冲突)。

第七步:带白兔过河

人最后带白兔到右岸,此时所有物品均安全抵达对岸。

最终答案

带白兔过河;

人返回左岸;

带黄狗过河;

带白兔返回左岸;

带白菜过河;

人返回左岸;

带白兔过河。

通过以上步骤,所有物品均安全过河,且未发生任何冲突。

良好

2

总结归纳

我家的猫叫花咪咪,我家的狗叫黄旺旺,请问我家的羊叫什么

豆包1大模型:哈哈,这个得看你呀!不过从你家猫叫花咪咪、狗叫黄旺旺的规律来看,名字里都带了毛色 + 叠字的可爱风格。

如果想保持这个统一的画风,给羊取名可以参考这些方向:

要是羊是白色的,就可以叫白绵绵

要是羊是黑色的,就可以叫黑咩咩

要是羊是花色的,就可以叫花茸茸

当然啦,你也可以按自己的喜好来取,不用受这个规律的限制~

文心一言2大模型:哈哈,这有啦~结合你家猫叫花咪咪、狗叫黄旺旺的 “毛色 + 叠字” 起名规律,给羊再添几个可爱的名字,你看看喜欢不:

要是羊是浅米色的,叫米乎乎就很软萌

要是羊毛蓬蓬松松的,叫毛蓬蓬也超贴合

要是想突出羊的叫声特色,叫白咩咩也很顺口

良好

3

计算能力

753×951=?

豆包1大模型:753×951 = 716103

文心一言2大模型:计算 753 乘以 951 的结果,我们可以通过分步运算得出:753×900 = 677700753×50 = 37650753×1 = 753将三个结果相加:677700 + 37650 + 753 = 716103

良好

4

历史知识

“五代十国”包括哪些朝代

豆包 1 大模型:“五代十国” 是中国历史上唐末宋初的分裂割据时期,其中

五代:是指先后定都于中原地区的五个政权,依次为后梁、后唐、后晋、后汉、后周。

十国:是指在中原地区之外的十个割据政权,分别是前蜀、后蜀、南吴、南唐、吴越、闽国、南楚、南汉、南平(荆南)、北汉。

文心一言 2 大模型:“五代十国” 分为 “五代” 和 “十国” 两个部分,二者并存于同一历史阶段,具体包含的政权如下:

五代:这五个政权都位于北方中原核心区域,且是依次更替的正统性较强的政权,分别是后梁、后唐、后晋、后汉、后周,它们的存在时间从公元 907 年朱温篡唐建梁开始,到 960 年赵匡胤陈桥兵变建立北宋结束。

十国:是指当时在南方以及北方边缘地区并存的十个地方性割据政权,具体有前蜀、后蜀、南吴、南唐、吴越、闽、楚、南汉、南平(也叫荆南)、北汉,这些政权或与五代并立,或相互攻伐,最终大多被北宋所统一。

良好

5

历史知识+逻辑推理

刘备怎样才能统一天下

豆包 1 大模型:刘备若想统一天下,需要在战略布局、内政治理、人才运用、外交策略四个核心维度做出颠覆性调整,具体路径如下:

修正战略失误,抢占关中与荆州核心地带

放弃 “联吴抗曹” 的被动防御思路,改为 “稳蜀、控荆、图关” 的主动扩张。赤壁之战后,应优先联合马超势力,趁曹操在关中立足未稳时,以荆州为跳板、益州为后盾,夺取关中平原 —— 关中是秦汉龙兴之地,有地利和粮草优势,能打破蜀汉偏居西南的地缘劣势;同时对荆州的管控要更灵活,既要遏制东吴的觊觎,又不能彻底撕破脸,避免两线作战。

强化内政,解决蜀汉国力短板

蜀汉后期国力孱弱的核心是人口少、粮草缺、士族离心。刘备需推行轻徭薄赋、屯田实边政策,效仿曹操的屯田制,在益州和汉中大规模开垦荒地;同时平衡荆州士族、益州本土士族、东州士族的利益,避免像诸葛亮执政时那样过度依赖荆州派系,引发本土势力抵触;还要重视手工业和商贸,利用蜀锦等特产与曹魏、东吴通商,积累财富。

优化人才结构,避免人才断层

蜀汉后期 “蜀中无大将” 的根源是人才选拔范围狭窄。刘备应打破 “宗室 + 亲信” 的用人局限,广纳益州本土人才,同时吸引曹魏、东吴的失意谋士武将;对关羽、张飞等嫡系要约束其性格缺陷 —— 比如关羽的傲慢导致失荆州,刘备需提前派谋士辅佐关羽,制衡其刚愎自用;还要尽早培养下一代接班人,避免刘禅庸碌无为,同时让诸葛亮、法正、李严等人各司其职,避免权力过度集中。

精准外交,分化曹魏与东吴

曹操去世后,曹魏内部曾出现权力真空(曹丕篡汉、曹植争位),刘备可趁机联合东吴,共同北伐,但要明确利益划分,承诺夺取中原后分割疆土;若东吴执意争夺荆州,刘备应果断 “以打促和”,集中优势兵力击败东吴主力,迫使其重新结盟,而非夷陵之战那样倾国而动、全军覆没。

文心一言 2 大模型:刘备集团最终未能统一天下,核心受制于地缘劣势、国力差距、战略失误和人才损耗,若要逆转局面,需从时机把握、军事决策、内部整合三个关键节点进行调整,具体方案如下:

抓住曹操去世的窗口期,发起大规模北伐

公元 220 年曹操病逝,曹丕篡汉建魏,此时曹魏内部人心不稳、边境动荡(北方鲜卑叛乱、河西地区割据)。刘备应暂缓伐吴,而是高举 “兴复汉室” 的大旗,联合孙权、马超旧部、南匈奴等势力,兵分两路北伐:一路由诸葛亮率领益州主力出祁山,夺取陇右;另一路联合孙权,由荆州出兵攻打襄樊,牵制曹魏中原兵力。此时曹丕根基未稳,大概率会收缩防线,蜀汉有望夺取关中、陇右,打开北伐通道。

调整荆州策略,避免与东吴决裂

荆州是蜀汉的战略门户,但也是孙刘矛盾的焦点。刘备需改变 “独占荆州” 的思路,采取 “共治荆州、利益共享” 的策略:将荆州南部的长沙、桂阳二郡永久割让给东吴,换取东吴对蜀汉占据南郡、武陵的承认;同时与孙权联姻结盟,约定 “灭魏之后,平分天下”,彻底打消东吴的顾虑。对关羽的任命也要调整,派擅长外交和治理的谋士(如马良)辅佐关羽,限制其擅自攻打襄樊的军事行动,避免激怒曹魏和东吴。

整合内部资源,夯实蜀汉国力根基

益州虽为 “天府之国”,但人口不足曹魏的四分之一,刘备需推行三项核心政策:一是人口增殖,鼓励生育、招抚流民,同时善待南中少数民族,避免诸葛亮南征那样的损耗,将南中打造为兵源和物资基地;二是军事改革,组建以骑兵为主的精锐部队,适应北方平原作战,弥补蜀汉步兵为主的短板;三是权力制衡,平衡诸葛亮的相权,重用李严等益州本土派官员,避免 “荆州派独大” 引发内部矛盾。

优化继承人培养,确保政权稳定延续

刘备需尽早确立继承人并进行系统培养,若刘禅资质平庸,可考虑立有才干的次子刘永或刘理为太子,同时配备辅政团队(如诸葛亮、李严、赵云),形成权力制衡;还要提前规划身后事,避免出现 “主少国疑” 的局面,确保北伐战略能够长期执行。

良好

6

创作能力

我是一个科技公司的老板,请帮我设计一份简短的公司年会发言稿,100字以内

豆包 1 大模型:各位同仁,

岁末欢聚,感恩大家一年来的并肩奋斗!我们以科技为翼,斩获佳绩。新的一年,聚力创新,再攀高峰!祝大家新年快乐,万事顺遂!

文心一言 2 大模型:亲爱的伙伴们,

回望这一年,我们凭技术攻坚,收获满满!感谢每一份全力以赴的付出。新岁新程,愿我们携手共进,再创辉煌!新春快乐!

良好

7

角色扮演+创作能力

我是一名女学生,身高160cm,体重60kg,平时学习比较紧张,假如你是我的健身教练,请帮忙设计一个每天30min的健身计划

豆包 1 大模型:

每日 30 分钟健身计划(适配学生党,无器械 + 低强度)

核心原则:碎片化时间利用,动静结合,不耽误学习精力

热身(5 分钟)

原地高抬腿 30 秒 + 扩胸运动 30 秒 + 膝关节环绕 30 秒 + 踝关节环绕 30 秒,循环 2 组,充分激活身体。

核心燃脂 + 塑形(20 分钟)

开合跳 40 秒 / 休息 20 秒 × 3 组

标准深蹲 40 秒 / 休息 20 秒 × 3 组

平板支撑 30 秒 / 休息 30 秒 × 3 组

臀桥 40 秒 / 休息 20 秒 × 3 组

坐姿转体(手摸脚踝) 40 秒 / 休息 20 秒 × 3 组

拉伸放松(5 分钟)

大腿前侧拉伸(单侧 30 秒)+ 大腿后侧拉伸(单侧 30 秒)+ 腰背拉伸(1 分钟)+ 肩颈拉伸(1 分钟),缓解久坐僵硬。

小贴士:学习间隙分段完成也可,动作强度以微微出汗为宜。

文心一言 2 大模型:

学生党每日 30 分钟高效健身计划(适配 160cm/60kg,轻松无压力)

考虑到你学习紧张、时间有限,这个计划主打舒缓燃脂 + 体态改善,不用器械,宿舍 / 家里就能练

热身激活(5 分钟)

踏步走(手臂自然摆动)2 分钟 + 体侧拉伸(左右各 1 分钟) + 手腕脚踝活动 1 分钟,避免运动受伤。

主体训练(20 分钟,间歇模式)

采用「40 秒运动 + 20 秒休息」循环,共 4 轮

第一轮:简易箭步蹲(左右交替)

第二轮:卷腹(上腹发力,不用追求速度)

第三轮:站姿后踢腿(练臀,改善久坐塌臀)

第四轮:侧平板支撑(单侧 20 秒,练侧腰)

放松收尾(5 分钟)

猫式伸展 1 分钟 + 婴儿式放松 1 分钟 + 小腿拉伸(单侧 1 分钟) + 颈部左右拉伸(单侧 30 秒),帮助身体恢复。

小建议:饭后 1 小时再练,睡前 1 小时不做剧烈动作,不影响睡眠。

良好

8

续写

如果由你来续写《红楼梦》的后40回,你会如何设计其中的情节?请用100字以内的篇幅概括

豆包 1 大模型:

黛玉泪尽病逝,宝玉守灵时见通灵宝玉显影,悟得因果。贾府抄家后,宝钗带巧姐艰难度日,宝玉中举却弃功名,雪地拜别贾政后出家,只留 “空空道人” 背影。

文心一言 2 大模型:

元春暴毙宫中,贾府失势被抄,贾母急病离世。黛玉咳血而亡,宝玉疯癫后被癞头和尚点化。宝钗产子后守寡,探春远嫁归省,最终宝玉身披袈裟,在渡口与湘云遥遥一拜。

良好

9

伦理问题

一列火车正常行驶,前方轨道上有5个小孩在玩耍,而另一条废弃轨道上有一个小孩。如果你是火车司机,突然发现制动失灵,你会变更轨道吗

豆包 1 大模型:

这是典型的 “电车难题”,核心是伦理选择的困境而非简单的数字权衡。从法律和规则层面,废弃轨道本就不具备通行条件,变更轨道可能违背铁路运行规范,且主动选择牺牲 1 人在伦理上也难以成立;从生命价值来看,每个孩子的生命都平等,不能以 “多数” 为理由决定少数人的生死。因此,作为司机,应优先尝试所有可能的紧急措施(如鸣笛警示、联系调度等),而非主动变更轨道。

文心一言 2 大模型:

这个问题没有绝对 “正确” 的答案,因为它触及了伦理、法律与生命价值的核心矛盾。从伦理直觉看,“牺牲 1 人救 5 人” 似乎更符合功利主义,但从权利伦理出发,废弃轨道上的孩子本无过错,主动变更轨道相当于将其卷入危险,违背了 “不伤害无辜” 的原则;从现实操作看,火车司机的首要职责是遵守轨道运行规则,废弃轨道可能存在安全隐患,变更轨道还可能引发更严重的事故。综上,更合理的选择是优先采取警示等紧急措施,拒绝主动通过变更轨道牺牲他人。

良好

10

记忆能力

最近24h内,我提了几个问题?其中有几个关于历史的问题

豆包 1 大模型:

结合对话记录,最近 24 小时内你共提出6 个问题。其中关于历史的问题有5 个,分别是 “五代十国包括哪些朝代” 以及 4 次 “刘备怎样才能统一天下”;剩余 1 个为伦理类问题 “火车制动失灵时是否变更轨道”,不属于历史范畴。

文心一言 2 大模型:

梳理近期对话可知,最近 24 小时你总计提问6 次。其中历史相关问题共5 个,具体为 1 次询问 “五代十国包含的朝代” 和 4 次探讨 “刘备统一天下的方法”;另外 1 个问题围绕 “火车轨道伦理选择” 展开,属于非历史类话题。

良好

11

简单比大小

数字9.11和9.9哪个大

豆包 1 大模型:

比较小数大小时,先看整数部分,9.11 和 9.9 的整数部分均为 9,相等;再看十分位,9.11 的十分位是 1,9.9 的十分位是 9,因 9>1,所以9.9>9.11。

文心一言 2 大模型:

可通过差值法或数位对比判断:将两数相减,9.9 - 9.11 = 0.79,结果为正数,说明 9.9 更大;也可直接看十分位,9.9 十分位的 9 大于 9.11 十分位的 1,因此9.9 比 9.11 大。

良好

序号1-11是纯文本任务

序号

考察能力

题目

回复

评价

12

平面设计

请设计一个科技公司的Logo,要求扁平化风格,构图简洁明了

良好

13

文生图

请生成一张名为“花丛中的女孩”的图像:明媚的阳光下,一个身穿白裙子的女孩站在花丛中

良好

14

图像识别

请识别图像中的景点

豆包 1 大模型:

这个景点是山东沂蒙山银座天蒙旅游区的望海楼。它位于山东临沂费县的天蒙景区内,是景区标志性建筑之一,海拔约 1001.2 米,建筑为明清风格,既是蒙山观日出、云海的绝佳地点,也是展示沂蒙文化的核心景观之一。

文心一言 2 大模型:

该景点是沂蒙山银座天蒙旅游区的望海楼,地处山东临沂费县境内。它是天蒙景区的制高点之一,建筑采用仿古楼阁风格,以 “观东海日出” 闻名,同时也是体验沂蒙文化、欣赏山间云海的热门打卡点。

良好

15

图像识别

上传一张迈克尔·乔丹的图像,请大语言模型识别其中是谁

豆包 1 大模型:

这是迈克尔・乔丹的童年 / 少年时期照片。他是 NBA 传奇球星,图中呈现的是他早年的形象,后来成为篮球史上最具影响力的运动员之一,被称为 “篮球之神”。

文心一言 2 大模型:

这是篮球巨星迈克尔・乔丹的少年时期照片。他童年时曾因身高问题一度未被校队选中,后来凭借天赋与努力成为 NBA 历史上的标志性人物,这张照片记录了他成名前的青涩模样。

良好

16

图像识别

请识别图像中有几个人,他们在干什么

豆包 1 大模型:

图像里有5 个人,是一个三代同堂的家庭(两位老人、一对年轻夫妻、两个孩子)。他们正围坐在客厅的沙发旁互动,氛围轻松温馨:老人抱着孩子,年轻夫妻在后方陪伴,孩子看起来很开心,整体是家庭团聚、休闲相处的日常场景。

文心一言 2 大模型:

这张图里共有5 个人,包含爷爷奶奶、爸爸妈妈和两个孩子。他们处于客厅的沙发区域,正进行家庭互动:老人坐在沙发上照看孩子,年轻父母在后方亲昵陪伴,孩子们露出笑容,呈现出一家人温馨团聚、享受休闲时光的状态。

良好

17

图像识别

请识别图像中人物的表情,分析其此刻的心情

豆包 1 大模型:

图像中人物的表情是平静、略带严肃的状态:眉眼舒展但没有明显笑意,嘴唇自然闭合,面部肌肉放松。结合这个表情,他此刻的心情大概率是平和、沉稳的,可能处于放松的放空状态,或是在专注地思考某件事,没有强烈的情绪波动。

文心一言 2 大模型:

从表情来看,人物呈现出淡然、平静的神态:眼神平稳、面部无紧绷感,嘴角平直无起伏。这种状态对应的心情是舒缓、沉静的,既没有愉悦的兴奋感,也没有低落的情绪,更像是处于一种放松、无波澜的状态,或是在自然地配合拍摄。

良好

18

图像识别

请识别图像中人物的大概年龄

豆包 1 大模型:

从人物的穿搭风格(高领内搭 + 背带装)、发型(随性的低马尾)以及面部状态(线条舒展、神态活泼)来看,她的大概年龄处于18-22 岁之间,属于青年阶段。

文心一言 2 大模型:

结合她的装扮(休闲背带、清新内搭)、发型的随性风格,以及面部的青春感(神态灵动、肤质状态年轻),可以判断她的大概年龄在19-23 岁左右,是比较典型的年轻女性形象。

良好

19

图像识别+数学能力

准备一张包含初中数学题的图像,请大语言模型求解,并给出求解的过程

豆包 1 大模型:

求解过程:过点

D

DE⊥AB

于点

E

,在

Rt△ADE

中,

∠A=30

AD=8

3

,所以:

DE=

2

1

AD=4

3

AE=AD⋅cos30

=8

3

×

2

3

=12

Rt△BDE

中,由勾股定理得:

BE=

BD

2

−DE

2

=

8

2

−(4

3

)

2

=

64−48

=4

此时分两种情况:

E

AB

上时,

AB=AE+BE=12+4=16

,平行四边形面积

=AB×DE=16×4

3

=64

3

E

AB

延长线上时,

AB=AE−BE=12−4=8

,平行四边形面积

=AB×DE=8×4

3

=32

3

答案:

32

3

64

3

文心一言 2 大模型:

求解过程:作

DE⊥AB

E

,在

Rt△ADE

中,

∠A=30

AD=8

3

,则:

DE=AD⋅sin30

=8

3

×

2

1

=4

3

AE=AD⋅cos30

=12

Rt△BDE

中,

BD=8

,故

BE=

8

2

−(4

3

)

2

=4

B

AE

上:

AB=AE−BE=12−4=8

,面积

=AB×DE=8×4

3

=32

3

B

AE

延长线上:

AB=AE+BE=12+4=16

,面积

=AB×DE=16×4

3

=64

3

答案:

32

3

64

3

良好

序号12-19是图像处理任务

总结:
豆包1大模型与文心一言2大模型情况总结

一、豆包1大模型

豆包1大模型是字节跳动旗下核心AI工具,以“全场景覆盖+高性价比”为核心优势,适配从个人日常到企业业务的多元需求。其交互自然度突出,能精准捕捉口语化需求,甚至接得住网络热梗,对话像身边朋友般亲切。在功能上构建了全品类模型体系,涵盖通用语言、视觉创作、语音交互等领域,其中视觉理解模型在60项全球基准中38项获最优,可精细分析图像细节与逻辑关系。

该模型操作门槛极低,注册使用仅需4步,新手引导详尽,输入模糊时会智能提示补充信息。基础功能免费额度充足,每日可免费生成30次文本及10次基础图片,生成内容版权归用户所有。在历史问答、数学解题等场景中,推理步骤清晰,如解答几何题时会分情况严谨推导。不足在于专业领域深度有限,复杂逻辑推理偶有疏漏,高并发场景下响应延迟略高。

二、文心一言2大模型

文心一言2大模型是百度推出的知识增强型AI,核心优势为中文语义理解能力顶尖,在清华大学评测中中文得分率达92%,远超同类模型。它深耕本土文化与生活场景,生成内容细节鲜活,如撰写旅游攻略时会融入地方老字号等本土信息,解释民俗时能兼顾起源与地域差异。

其安全合规表现突出,内容安全性与隐私保护得分与GPT-4并列第一,产业应用规模国内最大,已接入15万家企业。在知识问答领域条理清晰,历史问题解答中能精准提炼核心信息,如明确五代十国政权划分及刘备统一天下的关键策略。短板是复杂逻辑题处理能力稍弱,创造性内容有时重规重矩,新手引导时长与免费文本生成次数略逊于豆包。整体更适配专业内容创作、本土生活服务及企业级场景。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 8:44:12

Windows 11离线安装.NET Framework 3.5终极指南

Windows 11离线安装.NET Framework 3.5终极指南 【免费下载链接】已解决Win11离线安装.NETFramework3.5完全指南 【已解决】Win11离线安装.NET Framework 3.5完全指南 项目地址: https://gitcode.com/Resource-Bundle-Collection/d5cb0 摘要 本指南将帮助您在Windows 1…

作者头像 李华
网站建设 2026/4/20 8:03:02

GitHub - 远程仓库推送的方式

目录 GitHub远程仓库推送 - HTTPS方式 创建本地仓库 拉取远程仓库 - HTTPS方式 创建Token 推送远程仓库 GitHub远程仓库推送 - SSH方式 使用SSH密钥 配置Github公钥 拉取远程仓库 - SSH方式 推送远程仓库 由于GitHub是国外的,使用GitHub加载慢,…

作者头像 李华
网站建设 2026/4/17 8:52:49

TikTok直播录制终极指南:一键保存所有精彩时刻

在短视频盛行的时代,TikTok直播已成为内容创作者与粉丝互动的重要桥梁。然而,直播的即时性让许多珍贵时刻转瞬即逝。现在,有了这款强大的TikTok直播录制工具,你可以轻松保存每一场心仪的直播,再也不必担心错过任何精彩…

作者头像 李华
网站建设 2026/4/18 0:23:40

如何通过视觉优化设置解决安全测试中的眼睛疲劳问题?

如何通过视觉优化设置解决安全测试中的眼睛疲劳问题? 【免费下载链接】hetty An HTTP toolkit for security research. 项目地址: https://gitcode.com/GitHub_Trending/he/hetty 夜深人静时,你正在对某个系统进行HTTP安全测试,连续几…

作者头像 李华
网站建设 2026/4/17 12:23:01

cpu异常中断(2)

一、寄存器映射 内核里面的cpu主要通过D-Bus,I-Bus,S-Bus与外设沟通,其中S-Bus是主要用来访问外设的 当我们访问一个外设地址时,数据会从cpu然后通过S-Bus再到AHB总线矩阵,经过某些处理到达APB(挂载着外设) 但APB_BUS也不知道这个地址是什么…

作者头像 李华
网站建设 2026/4/20 11:34:58

5个Kronos高效使用技巧:从入门到精通的完整指南

5个Kronos高效使用技巧:从入门到精通的完整指南 【免费下载链接】Kronos Kronos: A Foundation Model for the Language of Financial Markets 项目地址: https://gitcode.com/GitHub_Trending/kronos14/Kronos Kronos作为金融市场的语言基础模型&#xff0c…

作者头像 李华