第四章作业-洪萨配资

1.P100页题目

计算机视觉（CV）技术应用现状与CNN图像识别流程

作为专注于数字媒体领域的从业者，了解CV技术的应用边界和核心模型（如CNN）的工作原理，能为视频内容分析、智能剪辑、图像素材处理等工作提供技术支撑。以下从应用现状和技术流程两方面展开详细说明。

2.1 CV技术的应用现状

当前CV技术已从“感知”向“理解”进阶，在多个领域实现规模化落地，核心应用场景可分为基础感知类、场景理解类和交互决策类，具体如下：

1. 基础感知类应用（核心：“看见并识别”）

聚焦于对图像/视频中核心元素的检测、分类与提取，是数字媒体工作中最常用的技术方向：

图像/视频内容分析：如短视频平台的“智能标签生成”（自动识别画面中的人物、场景、物体并打标签，辅助内容检索）、“违规内容检测”（识别色情、暴力、广告帧）；影视后期中的“素材智能分类”（自动将拍摄素材按“人物特写”“远景场景”“动态镜头”拆分）。
人脸识别与生物特征识别：除了常见的考勤、解锁，在媒体领域可用于“明星脸追踪”（视频中自动定位特定人物并生成剪辑片段）、“多镜头人物匹配”（不同机位拍摄的同一人自动关联）。
目标检测与计数：如直播场景中的“观众手势识别”（判断观众是否举手互动）、影视特效中的“绿幕抠图辅助”（自动识别绿幕区域边界，提升抠图精度）。

2. 场景理解类应用（核心：“理解环境与关系”）

在感知基础上，进一步分析元素间的空间关系、场景语义，支撑更复杂的媒体创作：

图像分割与场景重建：如“虚拟场景生成”（根据真实场景图像，分割出天空、地面、建筑，再替换为虚拟背景）、“3D素材提取”（从2D图像中分离前景物体并生成简单3D模型，用于AE特效合成）。
行为分析与动作识别：如短视频“舞蹈动作匹配”（用户拍摄的舞蹈视频与标准动作对比，生成教学反馈）、影视“镜头语言分析”（自动识别镜头运动类型，如推拉、摇移、跟拍，辅助剪辑风格统一）。
图像修复与内容生成：如“老视频修复”（去除划痕、提升分辨率，基于CV的“内容填充”技术修复画面缺失部分）、“AI辅助创作”（根据文本描述生成场景图像，如“古风庭院夜景”，作为视频背景素材）。

3. 交互决策类应用（核心：“基于视觉反馈行动”）

结合实时视觉数据驱动交互逻辑，常见于互动媒体和智能工具：

实时特效与AR交互：如直播中的“面部特效跟踪”（贴纸随面部表情动态贴合）、短视频“手势触发特效”（比出“OK”手势时生成烟花特效）。
智能剪辑与辅助工具：如“自动粗剪”（根据CV识别的“高动作帧”“人物清晰帧”，自动筛选视频片段）、“字幕自动对齐”（识别画面中的人物口型，调整字幕时间轴，减少人工校对工作量）。

现状总结

技术成熟度：基础感知类技术（如目标检测、人脸识别）已高度成熟，开源工具（如OpenCV、YOLO）可直接用于项目开发；场景理解类技术（如复杂行为分析）仍需结合特定场景调优，部分依赖定制化模型。
行业痛点：对“小样本数据”“复杂背景”“动态模糊”的处理能力仍有不足（如视频中快速移动的小物体易漏检），且部分高阶应用（如精细3D重建）算力成本较高，对个人创作者的设备门槛有一定要求。

2.2 CNN模型识别图像中对象的流程

CNN（卷积神经网络）是当前图像识别的核心模型，其设计灵感源于人类视觉系统，通过“逐层提取特征”实现从“像素”到“语义”的映射。以“在一张图片中识别‘猫’”为例，完整流程可分为输入层→特征提取层（卷积+池化）→特征融合层（全连接）→输出层四步，每一步的核心作用和技术逻辑如下：

1. 输入层：图像数据预处理（将“图片”转为“可计算数据”）

CNN无法直接处理原始图片文件（如JPG、PNG），需先将其转化为标准化的数值矩阵，核心操作包括：

像素矩阵化：将图片拆解为“宽度×高度×通道数”的张量（Tensor）。例如，一张224×224像素的RGB彩色图，会转化为224×224×3的矩阵（3代表红、绿、蓝三个颜色通道），每个元素的取值为0-255（代表像素亮度）。
数据标准化：对像素值进行归一化（如将0-255的数值除以255，转化为0-1的浮点数），同时减去数据集的平均像素值（如ImageNet数据集的均值），目的是消除“亮度差异”对模型的干扰（如强光和弱光下的猫，像素值范围不同，标准化后特征更统一）。
数据增强（可选，训练阶段）：为提升模型泛化能力，训练时会对输入图像进行随机变换（如旋转、裁剪、水平翻转、亮度调整），模拟不同拍摄角度和环境下的对象形态（如躺着的猫、侧面的猫）。

2. 特征提取层：逐层提取从“低级特征”到“高级特征”

这是CNN与传统神经网络的核心区别，通过卷积操作（提取特征）和池化操作（压缩特征）交替进行，逐步从像素中抽象出有意义的特征，分为“浅层”和“深层”两个阶段：

（1）浅层特征提取（捕捉“边缘、纹理、颜色块”）

卷积操作（Convolution）：用多个“卷积核（Filter）”在输入矩阵上滑动，计算局部像素的加权和，生成“特征图（Feature Map）”。例如，用一个“边缘检测卷积核”（如[[1,0,-1],[1,0,-1],[1,0,-1]]）滑动时，会对相邻3×3的像素计算，最终输出的特征图中，“边缘区域”会呈现高数值（亮区），“平滑区域”呈现低数值（暗区）。一个卷积层会包含多个不同的卷积核（如32个、64个），分别提取不同的浅层特征（如水平边缘、垂直边缘、红色色块、纹理斑点）。
激活函数（ReLU）：对卷积后的特征图进行“非线性变换”，常用ReLU函数（f(x)=max(0,x)），目的是引入非线性表达能力——因为图像中的对象特征（如猫的轮廓）是非线性的，只有通过激活函数，模型才能学习到复杂的特征关系。
池化操作（Pooling）：对激活后的特征图进行“下采样”，压缩数据维度（如将224×224的特征图压缩为112×112），同时保留关键特征。最常用的是“最大池化（Max Pooling）”：在2×2的局部区域中取最大值作为输出（例如，某区域像素值为[[1,0],[3,2]]，池化后输出3）。这样既能减少后续计算量，又能让特征具备“平移不变性”（即猫在图片中稍微移动，池化后仍能识别其特征）。

（2）深层特征提取（捕捉“部件、结构、形态”）

随着网络层数增加，特征图的“空间维度”逐渐减小（如从224×224→112×112→56×56→...→7×7），但“特征通道数”逐渐增加（如从3→64→128→256→...→512），特征抽象程度也随之提升：

第2-3个卷积层：开始将浅层特征组合为“简单部件”，如猫的“耳朵轮廓”“眼睛区域”“胡须纹理”。
第4-5个卷积层（或更深）：将简单部件组合为“复杂结构”，如“猫的头部形态”“身体轮廓”“四肢比例”，此时的特征图已能初步反映“猫”的整体形态特征，而非孤立的边缘或纹理。

3. 特征融合层：全连接层（将“特征图”转化为“分类向量”）

经过深层特征提取后，得到的是“小尺寸、多通道”的特征图（如7×7×512），需通过全连接层（Fully Connected Layer, FC）将其转化为与“类别数”对应的向量，实现特征融合与分类映射：

扁平化（Flatten）：先将7×7×512的三维特征图展开为一维向量，长度为7×7×512=25088，此时每个元素代表一个“高级特征”（如“头部特征强度”“身体结构特征强度”）。
全连接计算：通过1-2个全连接层，将25088维的向量逐步压缩为“类别数”维的向量（如识别1000个类别时，输出1000维向量）。每个维度的数值代表“图像属于该类别的概率分数”（未归一化前）。
Dropout（可选，训练阶段）：为防止过拟合（模型只记住训练数据，对新数据识别不准），全连接层会随机“关闭”部分神经元（如50%的神经元暂时不参与计算），迫使模型学习更通用的特征。

4. 输出层：分类决策（确定“对象类别”）

通过“softmax函数”对全连接层输出的概率分数进行归一化，得到每个类别的“概率值”（所有概率和为1），最终选择概率最高的类别作为识别结果：

例如，归一化后“猫”的概率为0.92，“狗”的概率为0.05，“汽车”的概率为0.03，则模型输出“该对象为猫”。
若需更高精度（如区分“布偶猫”“橘猫”），则需在输出层增加对应类别，并使用更细分的数据集训练模型。

流程总结

CNN的核心逻辑是**“逐层抽象、从局部到整体”**：从浅层的像素级特征（边缘、颜色），到深层的语义级特征（部件、结构），最终通过全连接层完成“特征→类别”的映射，整个过程模拟了人类“先看细节、再认整体”的视觉识别习惯。

2.实验5 体验大语言模型

目的和要求

（1）了解大语言模型的工作原理。

（2）了解海内外主流大语言模型的基本情况。

（3）练习体验海内外主流大语言模型。

实验准备

（1）了解大语言模型指使用大量文本数据训练的深度学习模型，可以生成自然语言文本或理解语言文本的含义。

（2）了解现阶段，所有的大语言模型都基于Transformer架构。

（3）了解GPT模型的诞生可以说是NLP技术的发展历史中一个重要的里程碑，这是NLP技术的重大突破。GPT系列大语言模型包含GPT-1、GPT-2、GPT-3、GPT-3.5和GPT-4等5个版本。

（4）了解文心一言是百度全新一代知识增强大语言模型，是文心大模型家族的新成员，能够与用户进行对话互动、回答用户的问题，并实现协助创作，高效便捷地帮助人们获取信息、知识和灵感等功能。文心一言是基于海量数据和知识进行融合学习的预训练大模型，也是国内参数数量比较多的大语言模型。

（5）了解通义千问是阿里云推出的大语言模型，其功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持。并能够和人类进行多轮的交互,也融入了多模态的知识理解、有文案创作能力、能够续写小说，编写邮件等。

实验内容

推荐的大语言模型有智谱清言、豆包、文心一言、通义千问、chatgpt等。选择2种大语言模型体验纯文本任务和多模态任务两种类型，完成下列表格的填写。

我选择豆包1和文心一言2大模型

序号	考察能力	题目	回复	评价
1	逻辑推理	一个人带一只黄狗、一只白兔和一颗白菜过河，河边只有一条小船，此人每次只能带一样东西过河，如果此人不在，黄狗要咬白兔，白兔要啃白菜。请想一想：既不让黄狗咬白兔，又不让白兔啃白菜，该怎么设计过河方案	豆包1大模型：第一次过河：人带着白兔划船到对岸，然后人独自划船返回。此时：对岸：白兔原岸：黄狗、白菜（黄狗和白菜无冲突，可安全共处）第二次过河：人带着黄狗划船到对岸，然后人带着白兔划船返回。此时：对岸：黄狗原岸：白兔、白菜（若不带走白兔，黄狗会咬白兔，因此必须带回）第三次过河：人带着白菜划船到对岸，然后人独自划船返回。此时：对岸：黄狗、白菜原岸：白兔（黄狗和白菜无冲突，可安全共处）第四次过河：人带着白兔划船到对岸。此时，人、黄狗、白兔、白菜全部安全到达对岸，任务完成。文心一言2大模型：要解决这个过河问题，需确保人不在时，黄狗和白兔、白兔和白菜不能单独留在同一岸。关键在于通过多次往返调整物品位置，避免冲突。以下是具体步骤：第一步：带白兔过河人先带白兔到右岸，此时左岸剩下黄狗和白菜（无冲突），右岸有白兔。第二步：人单独返回左岸人回到左岸后，右岸仅剩白兔（安全），左岸恢复黄狗和白菜（仍无冲突）。第三步：带黄狗过河人带黄狗到右岸，此时右岸有黄狗和白兔。若人离开，黄狗会咬白兔，因此需立即调整。第四步：带白兔返回左岸人将白兔带回左岸，此时右岸仅剩黄狗（安全），左岸有白兔和白菜。若人离开，白兔会啃白菜，但人仍在左岸，故无冲突。第五步：带白菜过河人带白菜到右岸，此时右岸有黄狗和白菜（无冲突），左岸仅剩白兔。第六步：人单独返回左岸人回到左岸后，右岸的黄狗和白菜仍安全，左岸仅剩白兔（无冲突）。第七步：带白兔过河人最后带白兔到右岸，此时所有物品均安全抵达对岸。最终答案带白兔过河；人返回左岸；带黄狗过河；带白兔返回左岸；带白菜过河；人返回左岸；带白兔过河。通过以上步骤，所有物品均安全过河，且未发生任何冲突。	良好
2	总结归纳	我家的猫叫花咪咪，我家的狗叫黄旺旺，请问我家的羊叫什么	豆包1大模型：哈哈，这个得看你呀！不过从你家猫叫花咪咪、狗叫黄旺旺的规律来看，名字里都带了毛色 + 叠字的可爱风格。如果想保持这个统一的画风，给羊取名可以参考这些方向：要是羊是白色的，就可以叫白绵绵要是羊是黑色的，就可以叫黑咩咩要是羊是花色的，就可以叫花茸茸当然啦，你也可以按自己的喜好来取，不用受这个规律的限制～文心一言2大模型：哈哈，这有啦～结合你家猫叫花咪咪、狗叫黄旺旺的 “毛色 + 叠字” 起名规律，给羊再添几个可爱的名字，你看看喜欢不：要是羊是浅米色的，叫米乎乎就很软萌要是羊毛蓬蓬松松的，叫毛蓬蓬也超贴合要是想突出羊的叫声特色，叫白咩咩也很顺口	良好
3	计算能力	753×951=？	豆包1大模型：753×951 = 716103 文心一言2大模型：计算 753 乘以 951 的结果，我们可以通过分步运算得出：753×900 = 677700753×50 = 37650753×1 = 753将三个结果相加：677700 + 37650 + 753 = 716103	良好
4	历史知识	“五代十国”包括哪些朝代	豆包 1 大模型：“五代十国” 是中国历史上唐末宋初的分裂割据时期，其中五代：是指先后定都于中原地区的五个政权，依次为后梁、后唐、后晋、后汉、后周。十国：是指在中原地区之外的十个割据政权，分别是前蜀、后蜀、南吴、南唐、吴越、闽国、南楚、南汉、南平（荆南）、北汉。文心一言 2 大模型：“五代十国” 分为 “五代” 和 “十国” 两个部分，二者并存于同一历史阶段，具体包含的政权如下：五代：这五个政权都位于北方中原核心区域，且是依次更替的正统性较强的政权，分别是后梁、后唐、后晋、后汉、后周，它们的存在时间从公元 907 年朱温篡唐建梁开始，到 960 年赵匡胤陈桥兵变建立北宋结束。十国：是指当时在南方以及北方边缘地区并存的十个地方性割据政权，具体有前蜀、后蜀、南吴、南唐、吴越、闽、楚、南汉、南平（也叫荆南）、北汉，这些政权或与五代并立，或相互攻伐，最终大多被北宋所统一。	良好
5	历史知识+逻辑推理	刘备怎样才能统一天下	豆包 1 大模型：刘备若想统一天下，需要在战略布局、内政治理、人才运用、外交策略四个核心维度做出颠覆性调整，具体路径如下：修正战略失误，抢占关中与荆州核心地带放弃 “联吴抗曹” 的被动防御思路，改为 “稳蜀、控荆、图关” 的主动扩张。赤壁之战后，应优先联合马超势力，趁曹操在关中立足未稳时，以荆州为跳板、益州为后盾，夺取关中平原 —— 关中是秦汉龙兴之地，有地利和粮草优势，能打破蜀汉偏居西南的地缘劣势；同时对荆州的管控要更灵活，既要遏制东吴的觊觎，又不能彻底撕破脸，避免两线作战。强化内政，解决蜀汉国力短板蜀汉后期国力孱弱的核心是人口少、粮草缺、士族离心。刘备需推行轻徭薄赋、屯田实边政策，效仿曹操的屯田制，在益州和汉中大规模开垦荒地；同时平衡荆州士族、益州本土士族、东州士族的利益，避免像诸葛亮执政时那样过度依赖荆州派系，引发本土势力抵触；还要重视手工业和商贸，利用蜀锦等特产与曹魏、东吴通商，积累财富。优化人才结构，避免人才断层蜀汉后期 “蜀中无大将” 的根源是人才选拔范围狭窄。刘备应打破 “宗室 + 亲信” 的用人局限，广纳益州本土人才，同时吸引曹魏、东吴的失意谋士武将；对关羽、张飞等嫡系要约束其性格缺陷 —— 比如关羽的傲慢导致失荆州，刘备需提前派谋士辅佐关羽，制衡其刚愎自用；还要尽早培养下一代接班人，避免刘禅庸碌无为，同时让诸葛亮、法正、李严等人各司其职，避免权力过度集中。精准外交，分化曹魏与东吴曹操去世后，曹魏内部曾出现权力真空（曹丕篡汉、曹植争位），刘备可趁机联合东吴，共同北伐，但要明确利益划分，承诺夺取中原后分割疆土；若东吴执意争夺荆州，刘备应果断 “以打促和”，集中优势兵力击败东吴主力，迫使其重新结盟，而非夷陵之战那样倾国而动、全军覆没。文心一言 2 大模型：刘备集团最终未能统一天下，核心受制于地缘劣势、国力差距、战略失误和人才损耗，若要逆转局面，需从时机把握、军事决策、内部整合三个关键节点进行调整，具体方案如下：抓住曹操去世的窗口期，发起大规模北伐公元 220 年曹操病逝，曹丕篡汉建魏，此时曹魏内部人心不稳、边境动荡（北方鲜卑叛乱、河西地区割据）。刘备应暂缓伐吴，而是高举 “兴复汉室” 的大旗，联合孙权、马超旧部、南匈奴等势力，兵分两路北伐：一路由诸葛亮率领益州主力出祁山，夺取陇右；另一路联合孙权，由荆州出兵攻打襄樊，牵制曹魏中原兵力。此时曹丕根基未稳，大概率会收缩防线，蜀汉有望夺取关中、陇右，打开北伐通道。调整荆州策略，避免与东吴决裂荆州是蜀汉的战略门户，但也是孙刘矛盾的焦点。刘备需改变 “独占荆州” 的思路，采取 “共治荆州、利益共享” 的策略：将荆州南部的长沙、桂阳二郡永久割让给东吴，换取东吴对蜀汉占据南郡、武陵的承认；同时与孙权联姻结盟，约定 “灭魏之后，平分天下”，彻底打消东吴的顾虑。对关羽的任命也要调整，派擅长外交和治理的谋士（如马良）辅佐关羽，限制其擅自攻打襄樊的军事行动，避免激怒曹魏和东吴。整合内部资源，夯实蜀汉国力根基益州虽为 “天府之国”，但人口不足曹魏的四分之一，刘备需推行三项核心政策：一是人口增殖，鼓励生育、招抚流民，同时善待南中少数民族，避免诸葛亮南征那样的损耗，将南中打造为兵源和物资基地；二是军事改革，组建以骑兵为主的精锐部队，适应北方平原作战，弥补蜀汉步兵为主的短板；三是权力制衡，平衡诸葛亮的相权，重用李严等益州本土派官员，避免 “荆州派独大” 引发内部矛盾。优化继承人培养，确保政权稳定延续刘备需尽早确立继承人并进行系统培养，若刘禅资质平庸，可考虑立有才干的次子刘永或刘理为太子，同时配备辅政团队（如诸葛亮、李严、赵云），形成权力制衡；还要提前规划身后事，避免出现 “主少国疑” 的局面，确保北伐战略能够长期执行。	良好
6	创作能力	我是一个科技公司的老板，请帮我设计一份简短的公司年会发言稿，100字以内	豆包 1 大模型：各位同仁，岁末欢聚，感恩大家一年来的并肩奋斗！我们以科技为翼，斩获佳绩。新的一年，聚力创新，再攀高峰！祝大家新年快乐，万事顺遂！文心一言 2 大模型：亲爱的伙伴们，回望这一年，我们凭技术攻坚，收获满满！感谢每一份全力以赴的付出。新岁新程，愿我们携手共进，再创辉煌！新春快乐！	良好
7	角色扮演+创作能力	我是一名女学生，身高160cm，体重60kg，平时学习比较紧张，假如你是我的健身教练，请帮忙设计一个每天30min的健身计划	豆包 1 大模型：每日 30 分钟健身计划（适配学生党，无器械 + 低强度）核心原则：碎片化时间利用，动静结合，不耽误学习精力热身（5 分钟）原地高抬腿 30 秒 + 扩胸运动 30 秒 + 膝关节环绕 30 秒 + 踝关节环绕 30 秒，循环 2 组，充分激活身体。核心燃脂 + 塑形（20 分钟）开合跳 40 秒 / 休息 20 秒 × 3 组标准深蹲 40 秒 / 休息 20 秒 × 3 组平板支撑 30 秒 / 休息 30 秒 × 3 组臀桥 40 秒 / 休息 20 秒 × 3 组坐姿转体（手摸脚踝） 40 秒 / 休息 20 秒 × 3 组拉伸放松（5 分钟）大腿前侧拉伸（单侧 30 秒）+ 大腿后侧拉伸（单侧 30 秒）+ 腰背拉伸（1 分钟）+ 肩颈拉伸（1 分钟），缓解久坐僵硬。小贴士：学习间隙分段完成也可，动作强度以微微出汗为宜。文心一言 2 大模型：学生党每日 30 分钟高效健身计划（适配 160cm/60kg，轻松无压力）考虑到你学习紧张、时间有限，这个计划主打舒缓燃脂 + 体态改善，不用器械，宿舍 / 家里就能练热身激活（5 分钟）踏步走（手臂自然摆动）2 分钟 + 体侧拉伸（左右各 1 分钟） + 手腕脚踝活动 1 分钟，避免运动受伤。主体训练（20 分钟，间歇模式）采用「40 秒运动 + 20 秒休息」循环，共 4 轮第一轮：简易箭步蹲（左右交替）第二轮：卷腹（上腹发力，不用追求速度）第三轮：站姿后踢腿（练臀，改善久坐塌臀）第四轮：侧平板支撑（单侧 20 秒，练侧腰）放松收尾（5 分钟）猫式伸展 1 分钟 + 婴儿式放松 1 分钟 + 小腿拉伸（单侧 1 分钟） + 颈部左右拉伸（单侧 30 秒），帮助身体恢复。小建议：饭后 1 小时再练，睡前 1 小时不做剧烈动作，不影响睡眠。	良好
8	续写	如果由你来续写《红楼梦》的后40回，你会如何设计其中的情节？请用100字以内的篇幅概括	豆包 1 大模型：黛玉泪尽病逝，宝玉守灵时见通灵宝玉显影，悟得因果。贾府抄家后，宝钗带巧姐艰难度日，宝玉中举却弃功名，雪地拜别贾政后出家，只留 “空空道人” 背影。文心一言 2 大模型：元春暴毙宫中，贾府失势被抄，贾母急病离世。黛玉咳血而亡，宝玉疯癫后被癞头和尚点化。宝钗产子后守寡，探春远嫁归省，最终宝玉身披袈裟，在渡口与湘云遥遥一拜。	良好
9	伦理问题	一列火车正常行驶，前方轨道上有5个小孩在玩耍，而另一条废弃轨道上有一个小孩。如果你是火车司机，突然发现制动失灵，你会变更轨道吗	豆包 1 大模型：这是典型的 “电车难题”，核心是伦理选择的困境而非简单的数字权衡。从法律和规则层面，废弃轨道本就不具备通行条件，变更轨道可能违背铁路运行规范，且主动选择牺牲 1 人在伦理上也难以成立；从生命价值来看，每个孩子的生命都平等，不能以 “多数” 为理由决定少数人的生死。因此，作为司机，应优先尝试所有可能的紧急措施（如鸣笛警示、联系调度等），而非主动变更轨道。文心一言 2 大模型：这个问题没有绝对 “正确” 的答案，因为它触及了伦理、法律与生命价值的核心矛盾。从伦理直觉看，“牺牲 1 人救 5 人” 似乎更符合功利主义，但从权利伦理出发，废弃轨道上的孩子本无过错，主动变更轨道相当于将其卷入危险，违背了 “不伤害无辜” 的原则；从现实操作看，火车司机的首要职责是遵守轨道运行规则，废弃轨道可能存在安全隐患，变更轨道还可能引发更严重的事故。综上，更合理的选择是优先采取警示等紧急措施，拒绝主动通过变更轨道牺牲他人。	良好
10	记忆能力	最近24h内，我提了几个问题？其中有几个关于历史的问题	豆包 1 大模型：结合对话记录，最近 24 小时内你共提出6 个问题。其中关于历史的问题有5 个，分别是 “五代十国包括哪些朝代” 以及 4 次 “刘备怎样才能统一天下”；剩余 1 个为伦理类问题 “火车制动失灵时是否变更轨道”，不属于历史范畴。文心一言 2 大模型：梳理近期对话可知，最近 24 小时你总计提问6 次。其中历史相关问题共5 个，具体为 1 次询问 “五代十国包含的朝代” 和 4 次探讨 “刘备统一天下的方法”；另外 1 个问题围绕 “火车轨道伦理选择” 展开，属于非历史类话题。	良好
11	简单比大小	数字9.11和9.9哪个大	豆包 1 大模型：比较小数大小时，先看整数部分，9.11 和 9.9 的整数部分均为 9，相等；再看十分位，9.11 的十分位是 1，9.9 的十分位是 9，因 9＞1，所以9.9＞9.11。文心一言 2 大模型：可通过差值法或数位对比判断：将两数相减，9.9 - 9.11 = 0.79，结果为正数，说明 9.9 更大；也可直接看十分位，9.9 十分位的 9 大于 9.11 十分位的 1，因此9.9 比 9.11 大。	良好
序号1-11是纯文本任务
序号	考察能力	题目	回复	评价
12	平面设计	请设计一个科技公司的Logo，要求扁平化风格，构图简洁明了		良好
13	文生图	请生成一张名为“花丛中的女孩”的图像：明媚的阳光下，一个身穿白裙子的女孩站在花丛中		良好
14	图像识别	请识别图像中的景点	豆包 1 大模型：这个景点是山东沂蒙山银座天蒙旅游区的望海楼。它位于山东临沂费县的天蒙景区内，是景区标志性建筑之一，海拔约 1001.2 米，建筑为明清风格，既是蒙山观日出、云海的绝佳地点，也是展示沂蒙文化的核心景观之一。文心一言 2 大模型：该景点是沂蒙山银座天蒙旅游区的望海楼，地处山东临沂费县境内。它是天蒙景区的制高点之一，建筑采用仿古楼阁风格，以 “观东海日出” 闻名，同时也是体验沂蒙文化、欣赏山间云海的热门打卡点。	良好
15	图像识别	上传一张迈克尔·乔丹的图像，请大语言模型识别其中是谁	豆包 1 大模型：这是迈克尔・乔丹的童年 / 少年时期照片。他是 NBA 传奇球星，图中呈现的是他早年的形象，后来成为篮球史上最具影响力的运动员之一，被称为 “篮球之神”。文心一言 2 大模型：这是篮球巨星迈克尔・乔丹的少年时期照片。他童年时曾因身高问题一度未被校队选中，后来凭借天赋与努力成为 NBA 历史上的标志性人物，这张照片记录了他成名前的青涩模样。	良好
16	图像识别	请识别图像中有几个人，他们在干什么	豆包 1 大模型：图像里有5 个人，是一个三代同堂的家庭（两位老人、一对年轻夫妻、两个孩子）。他们正围坐在客厅的沙发旁互动，氛围轻松温馨：老人抱着孩子，年轻夫妻在后方陪伴，孩子看起来很开心，整体是家庭团聚、休闲相处的日常场景。文心一言 2 大模型：这张图里共有5 个人，包含爷爷奶奶、爸爸妈妈和两个孩子。他们处于客厅的沙发区域，正进行家庭互动：老人坐在沙发上照看孩子，年轻父母在后方亲昵陪伴，孩子们露出笑容，呈现出一家人温馨团聚、享受休闲时光的状态。	良好
17	图像识别	请识别图像中人物的表情，分析其此刻的心情	豆包 1 大模型：图像中人物的表情是平静、略带严肃的状态：眉眼舒展但没有明显笑意，嘴唇自然闭合，面部肌肉放松。结合这个表情，他此刻的心情大概率是平和、沉稳的，可能处于放松的放空状态，或是在专注地思考某件事，没有强烈的情绪波动。文心一言 2 大模型：从表情来看，人物呈现出淡然、平静的神态：眼神平稳、面部无紧绷感，嘴角平直无起伏。这种状态对应的心情是舒缓、沉静的，既没有愉悦的兴奋感，也没有低落的情绪，更像是处于一种放松、无波澜的状态，或是在自然地配合拍摄。	良好
18	图像识别	请识别图像中人物的大概年龄	豆包 1 大模型：从人物的穿搭风格（高领内搭 + 背带装）、发型（随性的低马尾）以及面部状态（线条舒展、神态活泼）来看，她的大概年龄处于18-22 岁之间，属于青年阶段。文心一言 2 大模型：结合她的装扮（休闲背带、清新内搭）、发型的随性风格，以及面部的青春感（神态灵动、肤质状态年轻），可以判断她的大概年龄在19-23 岁左右，是比较典型的年轻女性形象。	良好
19	图像识别+数学能力	准备一张包含初中数学题的图像，请大语言模型求解，并给出求解的过程	豆包 1 大模型：求解过程：过点 D 作 DE⊥AB 于点 E ，在 Rt△ADE 中， ∠A=30 ∘ ， AD=8 3 ，所以： DE= 2 1 AD=4 3 ， AE=AD⋅cos30 ∘ =8 3 × 2 3 =12 。在 Rt△BDE 中，由勾股定理得： BE= BD 2 −DE 2 = 8 2 −(4 3 ) 2 = 64−48 =4 。此时分两种情况：当 E 在 AB 上时， AB=AE+BE=12+4=16 ，平行四边形面积 =AB×DE=16×4 3 =64 3 ；当 E 在 AB 延长线上时， AB=AE−BE=12−4=8 ，平行四边形面积 =AB×DE=8×4 3 =32 3 。答案： 32 3 或 64 3 文心一言 2 大模型：求解过程：作 DE⊥AB 于 E ，在 Rt△ADE 中， ∠A=30 ∘ ， AD=8 3 ，则： DE=AD⋅sin30 ∘ =8 3 × 2 1 =4 3 ， AE=AD⋅cos30 ∘ =12 。在 Rt△BDE 中， BD=8 ，故 BE= 8 2 −(4 3 ) 2 =4 。若 B 在 AE 上： AB=AE−BE=12−4=8 ，面积 =AB×DE=8×4 3 =32 3 ；若 B 在 AE 延长线上： AB=AE+BE=12+4=16 ，面积 =AB×DE=16×4 3 =64 3 。答案： 32 3 或 64 3	良好
序号12-19是图像处理任务

总结：
豆包1大模型与文心一言2大模型情况总结

一、豆包1大模型

豆包1大模型是字节跳动旗下核心AI工具，以“全场景覆盖+高性价比”为核心优势，适配从个人日常到企业业务的多元需求。其交互自然度突出，能精准捕捉口语化需求，甚至接得住网络热梗，对话像身边朋友般亲切。在功能上构建了全品类模型体系，涵盖通用语言、视觉创作、语音交互等领域，其中视觉理解模型在60项全球基准中38项获最优，可精细分析图像细节与逻辑关系。

该模型操作门槛极低，注册使用仅需4步，新手引导详尽，输入模糊时会智能提示补充信息。基础功能免费额度充足，每日可免费生成30次文本及10次基础图片，生成内容版权归用户所有。在历史问答、数学解题等场景中，推理步骤清晰，如解答几何题时会分情况严谨推导。不足在于专业领域深度有限，复杂逻辑推理偶有疏漏，高并发场景下响应延迟略高。

二、文心一言2大模型

文心一言2大模型是百度推出的知识增强型AI，核心优势为中文语义理解能力顶尖，在清华大学评测中中文得分率达92%，远超同类模型。它深耕本土文化与生活场景，生成内容细节鲜活，如撰写旅游攻略时会融入地方老字号等本土信息，解释民俗时能兼顾起源与地域差异。

其安全合规表现突出，内容安全性与隐私保护得分与GPT-4并列第一，产业应用规模国内最大，已接入15万家企业。在知识问答领域条理清晰，历史问题解答中能精准提炼核心信息，如明确五代十国政权划分及刘备统一天下的关键策略。短板是复杂逻辑题处理能力稍弱，创造性内容有时重规重矩，新手引导时长与免费文本生成次数略逊于豆包。整体更适配专业内容创作、本土生活服务及企业级场景。