news 2026/6/10 7:01:12

数据编织-异构数据存储的自动化治理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
数据编织-异构数据存储的自动化治理

大约十年前,笔者曾经有过一个思考:“当时绝大多数客户都已经进行了近20年的信息化建设,拥有了数个到数十个不等的信息系统。这些信息系统会选择合适的数据存储技术来存放相关的数据。每个系统都会拥有多张不同的数据表。随着时间的迁移,客户是否还能够对数据表有清晰的了解?是否还知道数据表的用途、数据表中字段的含义以及相关性?”。当时很多客户也已经进行了相关的数据治理建设,引入了数据仓库技术,对数据进行了分层管理。少量客户也开始使用数据湖技术对全结构数据进行管理。但实际情况是,总有或这或那的原因,很多系统的数据表游离于这些治理平台之外。客户始终无法了解数据存储情况的全貌。

为此,笔者当时做了一个demo系统,能够自动化的帮助客户在单数据库中分析数据表的字段业务类型以及表间的关系。后因工作原因,此项工作就搁置一边了。直到去年,笔者团队在HuggingFists系统基本开发稳定后,重新捡起了这一理念,并重新规划了系统设计。近日,系统第一个版本的功能已经基本成型,在整理产品资料时,笔者团队突然发现,我们对产品的很多理解和定义竟然与“数据编织(Data Fabric)”的理念完美契合。为此,我们积极拥抱了这一理念,并借其阐述我们的经验与理解。

数据编织

一种以自动化、智能元数据驱动的统一数据集成与管理架构,它通过一个逻辑层连接分散在云、本地、数据库、应用中的数据,实现“在哪里都能找到、理解、访问和信任数据”,而无需物理移动数据。

核心思想为:

  • 技术驱动:依赖 AI/ML、知识图谱、主动元数据(Active Metadata)自动发现、关联和推荐数据。

  • 统一逻辑视图:构建企业级“数据地图”,屏蔽底层异构性。

  • 自动化治理:在数据被访问时自动应用安全、质量、合规策略。

  • 支持虚拟化:常与数据虚拟化(Data Virtualization)结合使用。

异构存储的自动化治理

数据编织与前面几代数据治理架构(数据仓库、数据湖、Lambda / Kappa 架构)的最大区别就是其不再寻求数据在物理层面的统一,而是更强调数据在逻辑层面的可管理性。它省去了数据的迁移成本,但将面临更为复杂的异构存储系统的应用和管理难题。

实现异构存储的自动化治理会面临以下的难点:

多样且蓬勃发展的数据存储技术

客户的实际环境中会存在各类存储技术,包括:数据库、文件系统、事件流以及应用系统等。其中数据库类型最为丰富,又包括关系库、文档库、列簇库、键值库、向量库、图库、时序库等等。数据编织系统需要有能力接入各类存储系统,且能够方便的扩展支持更多的数据存储技术。

数据表、数据字段的统一表示

分散在不同数据库中的数据表与数据字段缺乏统一表示。在对其进行治理管理时,需能方便的追溯,定位并访问到源数据库。

字段级语义识别

不同系统对同一类信息经常有不同的表达方式,时间,电话号码等信息就非常典型。时间可以表示为:2025-12-13 08:00:00,2025/12/13 08:00:00等不同形式;电话号码也可随习惯表达为:13344444444,133-4444-4444等不同格式。有效识别这些不同格式的数据类型。

数据表关系分析

基于数据表结构信息,数据信息自动识别各表之间的关系。能够获得异构数据表的结构信息及相关数据,分析出表间的关系。得到跨数据存储系统的全局表关系视图。

异构存储自动化治理实践

下面我们简单模拟一个为客户自动化治理数据的过程

接入异构数据存储系统

利用“数据源管理”系统接入用户的各类数据源,这里的数据源管理与HuggingFists系统中的一致,详见HuggingFists系统中关于数据源管理的介绍。

定义业务数据类型

业务数据类型的定义是数据治理中最核心的一个部分。不同客户由于业务的差异会拥有并关注不同的业务数据。按照客户的数据情况,为客户定制特定的业务数据类型可以产生更好的数据治理效果。当前步骤如果省略的话,可以使用系统自带的缺省规则对数据类型进行识别,效果上与定义好特定业务数据类型有一定的差距。

定义自动化治理作业

选中待治理的数据源及数据表

查看治理结果
治理后的表实体列表

表实体内信息
概览

结构

关系

结语

在数据爆炸式增长、技术架构日益多元的今天,企业面临的不再是“有没有数据”的问题,而是“能不能理解、信任并高效利用数据”的挑战。传统的数据治理模式依赖物理集中与人工标注,难以应对复杂多变的异构环境;而数据编织所倡导的逻辑统一、智能驱动、自动治理的理念,恰为这一难题提供了新的解题思路。

本文展示的自动化治理实践是我们在这一方向上的初步探索:通过主动元数据、AI辅助识别、跨源关系建模等能力,在不移动数据的前提下,构建起一张覆盖全域、语义清晰、动态演进的企业级数据地图。这不仅降低了治理门槛,也提升了数据资产的可见性与可用性。

当然,数据编织并非万能灵药——它对底层连接能力、语义理解精度、策略执行一致性提出了更高要求。未来,我们将持续优化字段级语义识别的准确性,增强跨系统关系推理的深度,并进一步融合数据质量、安全合规与访问控制策略,让“在哪里都能找到、理解、访问和信任数据”从愿景走向日常。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 22:06:14

ESP-CSI技术深度解析:无线感知的七大核心价值与应用实践

ESP-CSI技术深度解析:无线感知的七大核心价值与应用实践 【免费下载链接】esp-csi Applications based on Wi-Fi CSI (Channel state information), such as indoor positioning, human detection 项目地址: https://gitcode.com/gh_mirrors/es/esp-csi 无线…

作者头像 李华
网站建设 2026/6/6 1:24:43

仅限内部分享:量子 Agent 跨语言 API 协议转换的5种高效模式

第一章:量子 Agent 的多语言 API 适配在构建跨平台智能系统时,量子 Agent 需要与多种编程语言环境无缝交互。为此,设计一套统一的多语言 API 适配层成为关键环节。该层不仅屏蔽底层通信细节,还提供符合各语言惯用范式的接口封装。…

作者头像 李华
网站建设 2026/6/10 2:34:30

论文合集——弹道

Ballistic Missile Midcourse Intelligent Maneuver Strategy Based on PPO Algorithm本文提出了基于近点策略优化(PPO)强化学习算法的弹道导弹机动策略,使弹道导弹能够在中段规避拦截器。首先,大气层外的接触过程被建模为马尔可夫…

作者头像 李华
网站建设 2026/6/9 18:48:03

IINA:解锁macOS视频播放新境界的实用指南

IINA:解锁macOS视频播放新境界的实用指南 【免费下载链接】iina 项目地址: https://gitcode.com/gh_mirrors/iin/iina 你是否曾在macOS上为寻找一款完美的视频播放器而苦恼?不是界面丑陋,就是功能缺失,要么就是操作繁琐..…

作者头像 李华
网站建设 2026/6/10 2:56:15

MCP AI-102模型官方文档解读(从入门到精通的必备指南)

第一章:MCP AI-102模型概述MCP AI-102 是一款专为多模态内容理解与生成设计的先进人工智能模型,具备处理文本、图像及结构化数据的综合能力。该模型基于深度神经网络架构,融合了Transformer与卷积模块,在跨模态语义对齐任务中表现…

作者头像 李华
网站建设 2026/6/9 21:30:27

如何用强化学习优化云边协同Agent任务分配?实测QoS降低60%

第一章:云边协同 Agent 任务分配的挑战与机遇随着边缘计算与云计算深度融合,云边协同架构成为支撑智能应用的关键范式。在该架构中,Agent作为任务执行的核心单元,分布于云端与边缘节点之间,承担着数据处理、决策推理与…

作者头像 李华