news 2026/4/14 23:53:58

活动推荐:1 月 24 日北京|Data for AI Meetup:Agent 时代的数据基础设施正在如何重构?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
活动推荐:1 月 24 日北京|Data for AI Meetup:Agent 时代的数据基础设施正在如何重构?

以下内容来源于DataforAI社区,作者Data for AI

当 AI 遇见数据:一场面向工程实践的技术交流

大模型并没有直接带来 AI 应用的成熟。真正决定 AI 能否规模化落地的,正在从模型本身,转移到数据、上下文与基础设施

与此同时,数据基础设施也正经历一轮深刻演进:从传统的数据湖仓,到多模态数据管理;从 SQL 查询引擎,到面向 AI 的数据解析与治理能力。这些变化,正在重新定义我们构建 AI 应用的方式。

1 月 24 日(周六)下午Data for AI 社区将携手ALC Beijing (Apache Local Community Beijing)举办Data for AI Meetup Beijing,邀请来自产业、开源社区与学术界的一线实践者,围绕AI 时代的数据基础设施演进展开深入交流。

本次 Meetup 汇聚了来自字节跳动火山引擎 / Daft 社区、OceanBase社区、北京大学、Datastrato / Apache Gravitino 社区、Zilliz / Milvus 社区的技术专家,深度剖析 AI 时代数据基础设施的技术演进路径。

📍 本次 Meetup 核心看点

  • 多模态数据处理引擎实践:

    Daft 在 AI 数据预处理与训练加载中的工程经验

  • AI 原生元数据平台:

    Apache Gravitino 1.1.0 的关键能力与治理实践

  • Agent 数据基座设计:

    记忆、检索与数据统一的工程解法

  • Data-centric AI 方法论:

    面向大模型的数据准备与质量体系

  • 混合检索实践:

    向量 + 全文检索在真实业务中的优化路径

  • 开源探索:

    Skill 驱动的上下文工程平台化可能性

  • 圆桌讨论:

    下一代面向 AI 应用的数据基础设施如何设计与落地


多模态数据处理的新范式

AI 训练对数据处理提出了全新挑战。火山引擎 AI 数据湖服务架构师 琚克俭 将分享 Daft 在多模态数据处理上的工程实践,聚焦图像、视频、文本等异构数据在统一处理、预处理与训练加载阶段的性能与架构挑战。

这一分享直面当前 AI 工程的核心痛点:传统数据引擎已难以支撑多模态 AI 工作负载,而 Daft 通过全新的架构设计,在数据预处理和训练加载环节实现了显著的性能提升。

元数据治理进入 AI 原生时代

Datastrato VP of Engineering 史少锋 将深度解析 Apache Gravitino 1.1.0 的核心升级,包括 Lance REST 支持、Generic Lakehouse Catalog、Iceberg 安全增强等关键特性。

当 AI 团队需要在多个集群间管理训练数据、推理数据和模型元数据时,传统的元数据工具往往各自为政。Apache Gravitino 1.1.0 通过统一的元数据治理架构,让跨引擎、跨存储的数据协同变得标准化、可管理,大幅降低 AI 工程中的数据协同成本。

上下文工程:Agent 落地的数据基座

OceanBase 技术专家 汤庆 将深度解析当下最热的「上下文工程」话题。他指出,企业级 Agent 面临三大核心挑战:如何让 Agent 拥有可靠的「记忆」(记忆管理)、如何让 Agent「理解」复杂文档(知识检索),以及如何统一处理向量、文本、结构化数据(数据统一)。

这三款 AI 产品的协同设计给出了答案:PowerMem 基于艾宾浩斯遗忘曲线构建智能记忆系统并支持多智能体隔离,PowerRAG 提供多引擎 OCR 与向量 + 全文的混合检索能力,seekdb 则作为 AI 原生数据库统一管理多模态数据并兼容 MySQL 生态。这套方案的核心价值在于:用数据架构的确定性,对抗 Agent 行为的不确定性。

面向大模型时代的 Data-centric AI 基础设施

北京大学助理教授 张文涛 将从学术与工程结合的视角,系统阐述 AI 从「模型为中心」到「数据为中心」的范式转变。当大模型能力趋同,数据质量正在成为决定模型性能的关键变量。

张文涛团队主导开发的 DataFlow 数据准备系统已在大模型预训练、企业知识库构建等场景得到验证。本次分享将深入解析 LLM 数据工程的完整流程:如何获取数据(爬取、解析、合成、标注),如何处理数据(过滤、改写、配比),以及如何评估数据质量。这套开源工具链与方法论,正在为 AI 开发者降低数据工程的门槛。

从向量检索到混合查询:Context Engineering 实践

Zilliz 资深解决方案架构师 刘汉卿 将系统回顾从 Prompt Engineering 到 Context Engineering 的演进路径。随着 RAG 技术从单一向量检索发展到 GraphRAG 与全文检索的混合查询阶段,检索系统已经从「找到相似内容」进化到「理解查询意图并精准召回」。

在这个演进过程中,一个关键趋势是:用向量计算代替多轮LLM推理,通过检索层的优化来提升 AI 应用的性能与稳定性。刘汉卿将结合企业知识库、推荐系统、智能助理等场景,分享混合查询的工作流搭建经验,以及在金融、医疗、法律、教育等行业的实际落地案例。

上下文工程的平台化探索

独立开源开发者 袁怿(Sam Yuan)将从前瞻视角探讨 2026 年上下文工程的技术趋势。如果说 2025 是 Agent 元年,那么随着上下文工程的快速演进,一个关键问题正在浮现:上下文能力是否应该从「各自实现」走向「横向平台化」?

袁怿将上下文工程拆解为三个维度:工具调用(空间维度)、RAG(信息密度维度)与 Memory(时间维度)。他将以最近进入 AAIF 的 Skill 机制为切入点,对比 Skill 与传统 Function Call 的本质差异,并结合他在开源社区贡献的 StructuredContextLanguage 项目,展示以渐进式加载为代表的平台化思路——让 AgentOS 像操作系统管理进程一样,统一管理上下文资源。


圆桌论坛:下一代面向 AI 应用的 Data Infra 的设计和落地

从多模态数据处理到 AI 原生元数据平台,从上下文工程到混合检索系统——本次 Meetup 的所有分享指向同一个命题:在 Agent 时代,数据不再只是「被调用的资源」,而正在成为被理解、被约束、被治理的核心能力。

越来越多团队在实践中遇到相似挑战:Agent 需要访问的数据分散在不同系统中,权限、语义与上下文边界不清;模型可以生成「看似合理」的请求,却难以保证结果的安全性与一致性。这些问题往往无法通过 Prompt 或单点优化解决。

我们特邀到前 Apple 数据与机器学习平台负责人 谭涛(Kwaai AI Lab 顾问)、Datastrato 创始人 CEO 堵俊平、北京大学助理教授 张文涛 三位圆桌嘉宾,围绕三个核心问题展开讨论:

  • 意图与执行解耦:如何让 Agent 的数据请求既灵活又可控?

  • 访问规则原生化:能否在系统层面保证数据访问的安全性与一致性?

  • 上下文边界管理:如何让 Agent Builder 在不理解底层架构的前提下获取「该拿的数据」?

这些讨论并不立马给出最终答案,而是帮助我们勾勒下一代面向 AI 应用的数据基础设施轮廓——一个更开放、更可治理、也更适合 Agent 时代的技术底座。

活动信息

时间

2026 年 1 月 24 日(周六)13:10 – 18:00

地点

北京 · 原点学堂(东升大厦 A 座 10 层)(不提供线上直播)

立即报名:

👉 访问链接:https://www.huodongxing.com/event/3843480320400

⚠ 名额有限,需审核通过(请详实填写报名信息,并通过主理人的微信添加请求,确认审核状态)

这是一场面向 AI & Data 工程实践者的技术深度交流。

无论你是正在构建企业级 Agent 系统的架构师,

还是关注 Data-centric AI 的研发工程师,

都能在这里找到有价值的技术洞察和落地经验。

Community Over Code,期待与你在北京相聚。

Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/7 14:13:28

5 款 AI 写论文哪个好?实测宏智树 AI:毕业论文写作的全能学术标杆

毕业季的论文赛道上,“5 款 AI 写论文哪个好” 的灵魂拷问,总能在高校互助群里掀起热议。不少同学踩坑无数:有的工具生成内容充斥 “文献幻觉”,有的查重结果与学校系统脱节,有的 AI 痕迹明显被检测预警。作为深耕论文…

作者头像 李华
网站建设 2026/4/3 8:19:06

【收藏必备】大模型Agent实战:从零开始掌握代理工作流(Agentic Workflows)核心技术

本文深入解析AI Agent及代理工作流的核心概念。AI Agent是结合LLMs推理能力和现实世界交互工具的系统,通过角色、目标和结构发挥作用。Agent工作流包含规划、工具使用和反思三大模式,具有灵活性、适应性和自我改进能力。文章详细介绍了其组成架构、应用场…

作者头像 李华
网站建设 2026/4/15 1:44:00

Excel-Agent永久买断,一款结合AI Agent的excel数据处理智能体

今天为大家介绍一款自主研发的支持Excel大数据量处理的AI-Agent,Excel-Agent是一个智能Excel数据处理助手,它紧跟人工智能时代,专注于通过先进的AI技术为用户提供智能化的数据处理服务。这个工具的核心优势在于能够自动化处理复杂的数据清洗、…

作者头像 李华
网站建设 2026/4/11 3:07:18

收藏!大模型入门通关全攻略:从基础到offer的实战路径

当下大模型的风口热度,早已无需过多赘述。不仅相关岗位的HC(岗位编制)数量远超传统前后端,就连应聘传统后端岗位时,面试官也常会拐弯抹角地追问大模型相关问题,本质是考察候选人对前沿技术的敏感度与学习意…

作者头像 李华
网站建设 2026/4/8 17:31:58

基于Java Web的实习招聘系统

目录基于Java Web的实习招聘系统摘要项目技术支持可定制开发之功能亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作基于Java Web的实习招聘系统摘要 实习招聘系统是为企业、学生和高校搭建的高效信息交互平台,采用Java Web技…

作者头像 李华