news 2026/5/2 1:40:21

城市级实景三维底座建设:从倾斜摄影到数字孪生的完整工程解构(WORD)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
城市级实景三维底座建设:从倾斜摄影到数字孪生的完整工程解构(WORD)

导读:这是一份关于城市级GIS平台建设与倾斜摄影高质量三维数据集生产的详细工程方案拆解。项目涵盖从政策背景、数据采集、三维重建,到GIS平台架构、空间分析应用的全链路。文章较长,但工程干货密度极高——如果你在做智慧城市、数字孪生或空间数据治理相关的项目,这篇值得认真读完。


一、问题的根源:为什么二维地图已经撑不住城市管理了

先说一个很多人视而不见的现实。

过去二十年,我们的城市管理系统,基本是建立在"二维电子地图 + 属性数据库"这套基础设施之上的。城市规划用CAD平面图,管线管理用二维矢量图层,应急指挥用二维GIS叠加。这套体系,在城市空间利用率还比较低的时候,勉强够用。

但现在不一样了。

城市在往天上扩——50层以上的超高层越来越普遍;城市也在往地下扩——地铁隧道、综合管廊、地下商业空间大规模开发。原来那张扁平的二维地图,开始显示出它的致命局限:

  • 无法表达建筑物的立面信息和垂直空间关系,高层建筑之间的遮挡、压迫感根本看不出来;
  • 城市规划审批时,新建项目对周边日照、景观、视廊的影响,二维图根本无法量化;
  • 应急管理中,高层火灾的蔓延路径、地下空间的积水演进,二维底图完全没有表达能力;
  • 涉河项目审查时,拟建构筑物是否侵占行洪断面、是否破坏岸坡稳定性,单靠二维图纸判断,风险极大。

这种"降维"表达带来的不是简单的信息缺失,而是决策颗粒度的粗糙化。政府部门在处理立体空间矛盾时,面对的是信息不对称的困境,最终导致的是规划冲突频发、行洪安全风险被忽视、运维成本居高不下。

这就是为什么国家要推"实景三维中国"——这不是一个技术部门的游戏,而是城市空间治理现代化的必然要求。


二、政策窗口与建设驱动:实景三维中国的战略意图

2022年,自然资源部发布《关于全面推进实景三维中国建设的通知》(自然资办发〔2022〕7号),明确要求到2025年,50%以上的地级以上城市需完成城市级实景三维建设

这个指标背后的战略意图是什么?

传统"4D产品"(DEM数字高程模型、DOM数字正射影像、DLG数字线划图、DRG数字栅格地图)已经不足以支撑当前的城市精细化治理需求。国家要的是"时空基准统一、物理空间还原、属性信息关联"的新型空间底座——也就是实景三维。

实景三维是数字孪生城市的核心生产要素,不是可有可无的锦上添花。 它的价值体现在三个层面:

第一,精准还原:通过高精度点云为城市资产管理提供数字底账,每一栋建筑、每一条管线、每一段河岸,都有厘米级精度的数字对应体。

第二,语义赋能:通过对地理实体进行单体化切割与语义挂接,三维模型从"一张皮"变成了可计算、可分析的"数据体"。你不仅能看到这栋楼长什么样,还能知道它属于哪个产权单位、建于哪一年、结构是否符合规范。

第三,支撑仿真:为自动驾驶高精地图、智慧水务流体仿真、城市风场模拟等高阶应用提供物理边界约束,没有这个底座,这些应用就是无本之木。


三、项目建设目标:不是画大饼,是有硬指标的

这个项目最值得学习的地方之一,是它把建设目标做了严格的量化拆解,而不是停留在"构建高精度智慧城市底座"这种空洞表述上。

数据精度与覆盖:核心建成区(450平方公里)地面分辨率(GSD)优于2厘米,非核心区优于5厘米;50处关键交通枢纽及地下管廊节点,点云密度不低于100点/平方米,绝对空间位置精度偏差控制在±5厘米以内。

三级建模体系:L3级精细模型覆盖核心区120平方公里,实现单体化表达与楼层户型关联;L2级标准模型覆盖其余建成区;同步完成15个大型地标项目的BIM模型(LOD300以上)轻量化处理。

系统性能:平台支持500个以上并发用户实时渲染,百兆专线环境下首屏加载时间小于3秒,三维场景帧率稳定在45FPS以上;IoT动态数据实现秒级接入、毫秒级渲染响应。

业务成效:将空间数据更新周期由传统的按年更新缩短至按季度动态更新;防汛排涝等应急场景下平台实时模拟积水演进路径,将应急响应决策时间缩短40%以上;减少15%的施工返工率。

这些指标,既是工程建设的目标导向,也是最终验收的硬性口径。这种可量化、可验收的目标设定方式,是大型数字化项目管理中极其重要的基础能力——很多项目最后"说不清楚做了什么",根本原因就是从一开始就没有建立清晰的量化目标。


四、系统总体架构:五层两柱,撑起万级并发的底座

整个系统采用"五层两柱"标准架构模型,这是整套方案中最核心的工程设计原则:

五层(从底到顶):

  1. 基础设施层:依托国产化云底座实现计算、存储与网络资源的池化调度;
  2. 数据层:通过分布式数据库与存算分离架构确保数据强一致性与高吞吐;
  3. 支撑平台层:整合微服务治理、消息中间件及低代码引擎,提供核心公共能力;
  4. 业务逻辑层:承载领域驱动设计(DDD)拆分后的原子化服务;
  5. 多端应用层:实现业务场景的统一触达。

两柱(纵向贯穿):

  • 安全保障柱:确保全生命周期的合规性;
  • 运维监控柱:确保全生命周期的可观测性。

这个架构设计的精髓在于解耦。底层基础设施与上层业务逻辑完全分离,任何一层的升级改造不影响其他层的稳定运行。这对于一个需要持续迭代的城市级平台来说,是非常重要的架构质量。

技术栈选型:不追新潮,选主流稳定版本

技术选型这件事,我见过两种极端错误:一种是"永远用最稳定的老版本",结果用着十年前的框架做新业务,各种别扭;另一种是"永远追最新的技术",结果踩坑不断,维护成本高得离谱。

这个方案的选型策略是:聚焦当前主流稳定版本,优先信创适配

  • 后端:Spring Boot 3.4+ + JDK 21(LTS),利用虚拟线程提升高并发处理效能;
  • 数据库:国产TiDB分布式集群 + Redis 7.2多级缓存架构;
  • 消息中间件:Kafka 3.8+承担异步解耦与流量削峰;
  • 容器编排:Kubernetes 1.30+;
  • 前端:Vue 3.5+ + TypeScript;
  • 三维渲染引擎:Cesium.js(对3D Tiles规范的深度支持,能高效处理TB级倾斜摄影和BIM数据)。

值得特别关注的是数据库侧的多模态设计:PostGIS承载矢量数据和空间拓扑运算,TimescaleDB处理海量传感器时序数据,MongoDB处理非结构化的设备元数据和告警快照。每种数据用最合适的存储引擎,而不是强行塞进一个关系型数据库。这种多模态存储策略,是真正理解了不同数据特性之后的选择。


五、数据采集方案:外业是整个工程质量的天花板

所有的三维重建和应用分析,质量上限都取决于原始数据的质量。内业处理再精妙,也无法弥补外业采集的先天缺陷。这是一个很多项目容易忽视的基本规律。

倾斜摄影:五镜头是标配,参数设计是门学问

本方案采用多旋翼无人机搭载五镜头倾斜相机——一个下视镜头 + 四个倾斜镜头(前后左右各一)。这种配置能在单次飞行中同时获取地物顶面信息和四个方向的侧面纹理,从根本上解决了传统正射航摄在建筑立面还原和遮挡区域处理上的局限性。

相机参数设计有几个关键点值得记:

  • 单镜头像素不低于4500万,总像素规模达2.25亿,确保在不同飞行高度下GSD优于3cm;
  • 焦距采用非对称方案:下视镜头35mm,倾斜镜头50mm。为什么倾斜镜头要用更长焦距?因为倾斜视角下相机到地物的实际距离更大,更长焦距能补偿距离增加导致的分辨率损失,确保侧视影像纹理与正视影像保持一致;
  • 快门采用机械快门,消除高速飞行中的果冻效应(电子快门在飞行中会产生几何畸变);
  • 所有镜头通过高精度检校场进行几何参数标定,将内方位元素写入EXIF元数据。

航线重叠度设计也有明确要求:航向重叠度≥80%,旁向重叠度≥70%(城市密集区分别提升至85%/80%)。高重叠度确保地物在多个镜头中获得5次以上有效观测,是降低高层建筑密集区"拉花"和"破洞"概率的关键参数。

飞行高度按公式H = ( f × G S D ) / a H = (f \times GSD) / aH=(f×GSD)/a计算,在GSD≤3cm前提下,标准相对飞行高度区间设定为180-220米。地形起伏区域启用仿地飞行模式,利用高精度DEM动态调整航高,保持影像分辨率恒定。

机载LiDAR:不是倾斜摄影的竞争对手,而是必要补充

很多人有一个误区:有了倾斜摄影,还需要激光雷达吗?

必须需要。

倾斜摄影的核心弱点是被动光学采集:树木茂密的地方,冠层遮挡地面;高层建筑之间的"城市峡谷",相机视角无法覆盖;桥梁、隧道等结构的背面和内部,光学影像完全无能为力。

激光雷达(LiDAR)是主动探测,激光脉冲能穿透植被覆盖层获取真实地表高程,能对高层建筑侧面进行高密度扫描,能在阴影区获取可靠的几何信息。

本方案激光采集的关键参数:

  • 脉冲发射频率300kHz-600kHz,确保高速飞行下的高采样率;
  • 平均点云密度≥50点/平方米,重点建筑区域局部密度提升至80点/平方米以上;
  • 多次回波模式(≥4次):第一回波获取植被冠层高度,末次回波穿透枝叶缝隙获取真实地面高程;
  • 激光点绝对空间位置精度偏差控制在±5cm以内。

多源传感器时间同步:一个容易被忽视的技术难点

倾斜相机、激光雷达、GNSS/IMU,三套独立的物理采样单元,各有各的内部时钟。如果不做严格的时间同步,数据融合时就会出现空间几何错位——激光点对不准影像,影像对不准控制点,最终导致整个三维模型精度崩塌。

方案采用PPS(秒脉冲)+ NMEA报文的硬件级授时方案,以POS系统的GNSS周秒作为全局主时钟:

  • POS系统每秒发送一个上升沿陡峭度小于20ns的PPS信号至激光雷达与相机控制器;
  • 激光雷达同步精度<1μs;
  • 在航速60m/s的典型作业场景下,0.1ms的时间同步精度可将航向位移误差压低至6mm以下。

6毫米,对于城市级高精度测绘来说,这个数字才是真正的工程级控制。


六、像控点体系:三维重建绝对精度的基础保障

再好的飞行参数,如果没有高精度的地面控制点(GCP)体系,三维模型的"绝对精度"就无从保证。空中三角测量算出来的是相对位置关系,是"形状";要让这个形状落在真实的地理坐标上,需要高精度控制点来"锚定"。

像控点布设原则

不同地形特征,布设策略有显著差异:

区域类型布设密度选点要求
平坦丘陵地区每3-5平方公里1个核心控制点梅花形交错布设,确保5张以上影像清晰成像
城镇建筑密集区每1-2平方公里1个点优先选房角、固定地物交汇点,严禁在移动物体或光影剧烈变化处选点
带状/不规则边缘区双排对向布设,间距500-800m增强航向与旁向的控制强度

像控点标志采用"L"型或十字型,规格不小于60×60cm,白底黑心,确保在5cm分辨率影像中中心点占据4-9个像素。每个点必须填写《像控点点位说明表》,记录编号、示意图及实地照片,确保数据生产的可溯源性。

RTK/PPK高精度坐标采集

坐标采集采用RTK实时获取与PPK事后差分双重模式:

  • 基准站架设在高等级控制点上,采样间隔1秒,卫星截止高度角≥15°,PDOP≤4.0;
  • 流动站每个像控点进行两次独立测量,均不少于30秒,取平均值;
  • 两次测量互差超过2cm必须重新初始化;
  • 平面位置误差≤5cm,高程误差≤5cm(相对CGCS2000坐标系/1985国家高程基准)。

数据处理阶段,预留10%的像控点作为独立检查点,不参与空三平差解算,仅用于精度验核。只有当检查点残差满足5cm标准时,才能转入三维建模工序。这个10%的"留验"机制,是保证成果精度可信度的关键质控手段。


七、三维重建与模型精修:从原始数据到可用底座

数据采集完成后,进入内业处理阶段。核心流程是:空中三角测量 → 密集匹配 → 三维重建 → 模型精修 → 单体化。

常见模型病害及处理方案

自动化建模不可能完美。在城市级大规模生产中,以下几类缺陷是必然出现的:

水面破洞:水面镜面反射导致特征点匹配失效,模型出现空洞。处理方案是引入深度学习语义分割模型,在点云阶段自动识别水域边界,结合约束德洛内三角剖分(CDT)技术进行几何重构,通过高程归一化算法强制将水面平整,相对高程误差要求<0.1m。

建筑拉伸扭曲:出现在侧面及底部遮挡区,建筑物像被拉长了。处理方案采用基于GAN的纹理增强技术,AI识别拉伸率阈值(>1.5)区域,从多视角原始影像检索最佳观测角度进行局部重投影,墙面平整度偏差要求<5cm。

植被区地形缺失:树木遮挡导致地面信息丢失。这里激光雷达的价值体现出来——通过多次回波数据获取真实地表,再与倾斜摄影模型融合,补全视觉底座。

流程已从纯手工转向人机协同:AI模型负责全城缺陷初筛与自动补洞,人工专家聚焦地标性建筑及关键路口的拓扑一致性检查。建立精修知识库后,系统可根据建筑风格自动匹配修复模板。

单体化:从"一张皮"到"结构化数据体"

实景三维模型的最大价值,不在于看起来漂亮,而在于能否对单个地理实体进行查询、分析、关联。这就需要单体化——把一个连续的三维模型,切割成一个个具有独立ID和属性的地理实体。

方案提供了两条技术路线:

动态单体化:不破坏原始Mesh数据,在渲染管线中,利用二维GIS矢量边界作为"切割刀",在显存中对模型进行实时掩膜处理。用户选中建筑时,通过矢量坐标在Shader层实现高亮和属性挂接。优点是处理成本低、实施快,适合大场景资产管理;缺点是不支持精细化的BIM集成和物理仿真。

物理单体化:对原始Mesh进行拓扑分割与几何重构,利用激光点云或高分辨率DSM辅助,对建筑进行语义剥离,通过矢量边界对三角网格进行物理切割,产出拥有独立几何ID、纹理贴图和物理属性的对象。适合城市更新项目、数字孪生建设和BIM协同场景。

两条路线各有适用场景,工程实践中往往是并行部署:宏观城市展示用动态单体化,精细化管理和仿真分析用物理单体化。


八、数据架构设计:四层分治,解决海量时空数据的存储难题

城市级三维数据的体量是什么概念?一个中等城市的倾斜摄影模型,原始数据往往在数十TB量级,成品3DTiles在TB级。传统的关系型数据库单库模式,面对这种数据量,根本扛不住。

方案采用ODS-DWD-DWS-ADS四层数据仓库架构,针对时空数据特性进行了定制化设计:

贴源层(ODS):全量原始数据缓冲区,保持与源端结构一致。接收OSGB格式倾斜模型、LAS点云、IFC格式BIM模型及MQTT上报的传感数据。仅执行格式校验与入库时间戳打标,不改变原始业务逻辑。大文件实体仅存储元数据索引,二进制流存于分布式文件系统。

明细层(DWD):数据治理核心,负责坐标系转换、空间纠偏及数据轻量化。倾斜模型在此层转化为3DTiles格式;点云完成抽稀与去噪;BIM模型实现构件级语义提取。系统通过"时空实体ID"建立物理实体与数字孪生体的唯一映射。

汇总层(DWS):按业务主题域进行多维指标聚合。利用ClickHouse物化视图技术,实现亿级记录的秒级聚合响应,有效缓解应用层的计算负载。

应用层(ADS):直接对接业务终端,数据存储于高性能缓存或图数据库,支撑BIM构件间复杂的供水、供电拓扑路径追踪。

整个数据流转中,有一个关键设计:所有空间坐标在进入明细层前,必须完成CGCS2000坐标系的标准化对齐。这个强制性约束,从根源上消除了跨源数据的空间偏移问题。很多多源数据融合项目出问题,往往就是因为坐标系不统一,导致数据在地图上"对不齐"。


九、GIS平台核心功能模块:空间分析才是平台的真实价值

三维模型只是底座,真正的价值在于在这个底座上能做什么分析。这个方案在GIS平台功能上的设计,体现了对业务场景的深度理解。

空间拓扑分析与三维量算

平台提供从距离、面积到体积的完整量算工具链:

  • 精密距离量算支持空间直线距离、水平投影距离及垂直高差实时提取,底层通过Vincenty大地线算法确保在不同高程基准下的量算精度;
  • 面积计算支持多边形投影面积与表面积双重输出;
  • 体积计算采用布尔运算或高斯散度定理,针对闭合三维壳体进行积分计算,量算响应延迟控制在200ms以内。

拓扑分析方面,支持缓冲区分析(3D包围盒快速初筛 + 精确几何精筛双模式)和拓扑关系判断(通过九交模型对空间对象进行矩阵运算,实现相交、包含、重叠、邻接的自动判断)。这在地下管线碰撞检测场景下,是自动化合规审查的核心能力。

视域分析、天际线与日照模拟

这三个功能,是城市规划审批数字化的核心支撑,也是传统二维地图完全无法实现的能力。

视域分析:采用GPU射线检测(Ray Casting)技术,从观察点出发向三维视锥体发射高密度探测射线,实时判定空间可见性。利用深度缓冲区进行可见性剔除,将计算任务下放至GPU Shader单元,帧率稳定在30FPS以上。应用于监控盲区识别、景观视廊控制线划定。

天际线提取:基于屏幕空间轮廓提取算法,通过Sobel或Canny边缘检测算子识别建筑与天空的交界线,提取像素级轮廓并映射至地理坐标系。支持对天际线起伏度、破碎度、韵律感进行多维度指标计算,可交互式模拟新增建筑对既有天际线的影响,为建筑限高控制提供硬性约束指标。

日照模拟:内置基于SPA(Solar Position Algorithm)的精密公式,通过输入经纬度、日期、时区及海拔,实时计算太阳高度角与方位角,计算精度±0.0003度,符合GB 50180-2018日照分析规范。支持瞬时阴影模拟(层级阴影贴图CSM技术)与累计日照分析。可自动生成日照等时线图及分析报告,精准识别不达标区域,为旧改采光纠纷调处和新项目退让距离设计提供量化依据。


十、涉河项目审查:把传统的"人工踏勘"变成"数字化量算"

这是这个方案最具业务价值的应用场景之一。

传统的涉河建设项目审查流程是这样的:建设单位提交申请 → 行政审批人员安排工作人员现场踏勘 → 踏勘完成后撰写报告 → 组织专家论证。整个过程少则数天,遇到复杂项目拖上数周并不少见。

数字化之后的流程是这样的:建设单位提交申请,同时上传BIM模型或CAD设计图 → 系统自动将拟建项目模型套合到现有三维实景底图中 → 红线冲突检测功能自动计算项目是否侵占河道行洪断面、是否违反岸线保护区要求 → 系统基于预设业务规则引擎自动生成初审报告。

通过"实景比对 + 量化分析"模式,将传统人工现场勘查周期从数天缩短至小时级。

这里面有一个技术细节非常重要:套合精度。如果拟建项目的BIM模型坐标系和三维实景底图坐标系不一致,或者精度差异过大,套合之后的空间关系判断就会出现偏差,轻则误判,重则造成行洪安全事故。这就是为什么整个方案对坐标系统一(CGCS2000)和模型精度(平面中误差≤5cm)有如此严格的要求——那些看似技术细节的参数指标,背后连接的是真实的业务风险。


十一、网络与物理部署:政务云环境下的安全合规架构

城市级GIS平台所承载的是城市空间数据,其中包含大量敏感地理信息。因此,部署架构必须满足严格的安全合规要求。

方案采用**"两网两中心"架构**:

  • 政务外网区(Public Service Zone):承载面向公众的交互业务及跨部门协同应用;
  • 政务内网区(Internal Secure Zone):集中管理核心敏感数据。

两网边界部署下一代防火墙(NGFW)、入侵防御系统(IPS)及零信任SDP网关,通过光闸(信息单向导入系统)实现跨域受控数据交换,阻断物理层级的渗透风险。

硬件侧的关键配置:

  • GPU渲染服务器:双路国产处理器 + RTX 4090或A800(80GB)×8 + 1TB RAM,用于视频流渲染、AI模型训练和三维可视化;
  • 分布式存储节点:12×15.36TB NVMe SSD + EC纠删码 + PB级扩展能力;
  • 所有配置预留30%-50%扩展余量,支持Scale-out线性横向扩展。

值得关注的是信创适配要求:核心组件优先适配国产化操作系统(麒麟)、数据库(达梦/TiDB)及中间件,满足GB/T 22239-2019等保三级要求。 这不是可选项,而是政务系统建设的硬性合规要求。


十二、实施路径建议:分阶段推进,避免"一口吃成胖子"

根据方案的整体设计逻辑,结合实际城市级三维项目的落地经验,给出以下阶段性推进建议:

第一阶段(0-6个月):打好数据采集基础

  • 完成核心区(120平方公里)的倾斜摄影数据采集,GSD优于2cm;
  • 完成核心交通枢纽和关键节点的LiDAR点云采集;
  • 建立像控点体系和坐标系统一标准;
  • 完成数据架构设计和基础平台环境搭建。

第二阶段(6-18个月):三维重建与平台建设

  • 完成核心区三维重建和L3级精细模型生产;
  • 完成精修和单体化处理(动态单体化为主);
  • 完成GIS平台核心功能开发(量算、视域、日照分析);
  • 完成涉河项目审查模块上线,在实际业务中验证效果。

第三阶段(18个月以后):扩展覆盖与智能化升级

  • 扩展至全域非核心区的倾斜摄影建模;
  • 完成重点地标的BIM模型集成(LOD300以上);
  • 建立季度动态更新机制;
  • 接入IoT传感数据,实现城市运行态势实时感知;
  • 推进物理单体化,支撑更高精度的数字孪生应用。

尾声:数字孪生的本质是可信

做了这么多年数字化咨询,见过太多"数字孪生"项目,最后做出来的是一个好看的3D演示系统——可以旋转、缩放、切换视角,但打开属性窗口是空的,点击建筑没有任何数据,更别提做什么空间分析了。

这类项目的问题,往往不是技术能力不足,而是从一开始就没有搞清楚数字孪生的核心价值所在

数字孪生的本质,不是视觉上的逼真,而是数字空间对物理现实的可信映射

可信,意味着几何精度可量测(5cm以内);意味着属性数据真实关联(不是摆设);意味着更新机制持续有效(不是一次性建设后就静止的死数据);意味着在业务决策中被真正采用(而不是只在汇报展示时才打开)。

这个方案从数据采集的毫米级精度控制,到数据架构的四层分治,再到应用功能的量化分析——每一个设计决策背后,都指向同一个目标:让这个城市级底座,成为真正可信赖的决策支撑,而不仅仅是一道视觉盛宴。

这才是值得投入的数字化建设。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/2 1:37:24

Cursor编辑器光标样式自定义:基于规则的动态视觉反馈系统

1. 项目概述&#xff1a;一个能改变你开发体验的Cursor插件如果你和我一样&#xff0c;每天大部分时间都泡在代码编辑器里&#xff0c;那你一定对“光标”这个看似不起眼的小东西又爱又恨。爱的是&#xff0c;它是我们与代码交互的直接媒介&#xff1b;恨的是&#xff0c;当代码…

作者头像 李华
网站建设 2026/5/2 1:31:39

OpenClaw与OpenCode智能体工作流:从原理到云端部署实战

1. 项目概述&#xff1a;为OpenClaw与OpenCode构建智能体AI工作流如果你正在寻找一种方法&#xff0c;能够将OpenClaw这个强大的AI智能体框架与OpenCode的代码执行能力结合起来&#xff0c;并快速、稳定地部署到云端&#xff0c;那么你来对地方了。这个项目&#xff0c;或者说这…

作者头像 李华
网站建设 2026/5/2 1:17:26

强化学习微调提升代码生成质量:TAROT框架解析

1. 代码生成领域的强化学习微调现状与挑战在当今AI驱动的软件开发领域&#xff0c;大语言模型&#xff08;LLM&#xff09;的代码生成能力正在重塑程序员的工作方式。然而&#xff0c;生成算法复杂且健壮的代码仍然是业界面临的核心挑战。强化学习微调&#xff08;Reinforcemen…

作者头像 李华
网站建设 2026/5/2 1:14:55

DoRA:超越LoRA的高效微调方法解析

1. DoRA&#xff1a;一种超越LoRA的高效微调方法在大型预训练模型&#xff08;如LLM和VLM&#xff09;的微调领域&#xff0c;全参数微调&#xff08;Full Fine-Tuning, FT&#xff09;虽然效果显著&#xff0c;但其高昂的计算成本让许多研究者和开发者望而却步。参数高效微调&…

作者头像 李华
网站建设 2026/5/2 1:13:25

World Action Model

写在前面 从过年一直到现在,World Action Model这个概念很火,学术界有很多工作(Cosmos Policy, DreamZero, Motus, LingBot-VA, FastWAM)。感觉在短期的未来可能也是大家的交流话题,在组内和网上学到了很多,这里记录一下信息,也希望能帮助想要了解World Action Model的朋…

作者头像 李华