news 2025/12/25 7:57:54

面向AI的新文件格式Lance挑战传统Parquet

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
面向AI的新文件格式Lance挑战传统Parquet

Lance在文件格式竞赛中瞄准Parquet

一款旨在解决广泛使用的Parquet格式局限性的新兴文件格式,正在接受一个开源基金会的采用审查。

Lance的构建基于这样一种理念:Parquet(在多个中心的数据湖中广泛使用)在处理机器学习和AI时已显陈旧,而一种额外的、互补的格式更能满足这些需求。该格式的背后是She,他是用于数据操作和分析的pandas软件库的原始贡献者之一,现在是LanceDB的首席执行官兼联合创始人,该公司支持并开发该格式。

She表示,转折点出现在AI和机器学习开始比传统分析驱动更多数据使用的时候。如今每个人都能利用来自某机构或另一机构的模型,真正的优势在于这些系统能以多快的速度获取数据。

然而,为机器学习推理访问数据所面临的挑战与将其用于分析时不同。“速度要快得多,因为现在很多数据是由模型生成的,每秒有数百个标记的自动数据生成。然后是多样性:现在不再仅仅是数字和时间戳,而是有长文本提示、图像、声波以及(向量)嵌入本身,” She说。

他认为现有的文件格式并非为满足这些需求而设计。She指出:“Parquet非常不适合存储较大的数据类型。如果你有多模态数据,从长文本到嵌入,再到图像和视频,Parquet对这种新型数据完全没有优化。这是因为它的行组以及数据布局的方式。当你尝试写入大规模数据时,会耗尽内存。”

AI还引入了许多新的工作负载,例如向量搜索和检索。She说,Parquet“对于搜索和检索非常糟糕”,因为它需要随机访问,而不像分析那样“读取连续的数据范围”。Lance文件格式2.1版于三月宣布,LanceDB本月早些时候表示其现已稳定。

其作者认为,Lance格式更好地适应了为机器学习和AI存储数据的挑战,因为它包含了文件格式、表格式和二级索引。“数据的布局方式不同,访问模式也发生了变化,因此我们保证了比Parquet更快的扫描速度,同时也保证了真正快速的随机访问,” She说。

Lance于2022年8月开源,该公司正在将其捐赠给一个基金会,预计年底前会发布公告。

Parquet也有自己的表格式合作伙伴。Apache Iceberg、Delta Lake(一个某机构项目)和Apache Hudi都用于将分析引擎带到数据所在处,而无需移动数据。近期有一些举措旨在拉近Iceberg和Delta的距离。

She认为,Lance并非要取代这些格式,而是与它们协同工作。“我们的座右铭是‘Lance用于AI,Iceberg用于BI’。对于分析工作负载,我们仍期望其存储在Iceberg中,但对于AI密集型的使用案例和数据集:搜索、训练和AI推理,我们期望使用Lance,” She说。

不过,正如数据操作平台供应商Coginiti的首席技术官Matthew Mullins所指出的,像Iceberg和Parquet这样的项目拥有发展势头的优势。“Parquet和Iceberg拥有现有地位和广泛支持的优势。Apache Iceberg在经历了十年开发后,真正崛起大约只有两年时间。一个关键因素是某机构和另一机构都全力投入Iceberg,现在每个供应商都支持Apache Iceberg,并且它被列入了每个企业的路线图。LanceDB将有一条漫长的道路,或许会因AI而加速,但它需要更多的社区支持才能成功。”

Iceberg也曾处于起步阶段,直到获得了包括某机构在内的供应商的支持,某机构已将这种表格式整合到其某存储桶中,并在包括某公司和另一公司在内的用户中广泛采用。Lance需要等待,看看它的论点是否能够以同样的方式引起共鸣。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/21 3:45:49

Higress容错架构实战:从混沌到稳定的智能路由演进

Higress容错架构实战:从混沌到稳定的智能路由演进 【免费下载链接】higress Next-generation Cloud Native Gateway | 下一代云原生网关 项目地址: https://gitcode.com/GitHub_Trending/hi/higress 在微服务架构的演进过程中,如何平衡系统可用性…

作者头像 李华
网站建设 2025/12/20 23:48:13

FaceFusion镜像提供Token赠送活动:邀请好友享算力奖励

FaceFusion镜像提供Token赠送活动:邀请好友享算力奖励 在短视频和虚拟内容爆发式增长的今天,AI驱动的人脸编辑技术正从实验室走向大众创作工具。无论是影视特效、网红变装视频,还是数字人直播,高保真的人脸替换已成为内容生产链中…

作者头像 李华
网站建设 2025/12/20 21:30:55

FaceFusion镜像支持gRPC通信?高性能微服务架构选项

FaceFusion 镜像支持 gRPC 通信?解锁高性能微服务架构新可能 在直播特效、数字人驱动和影视后期日益依赖实时视觉合成的今天,如何让一个人脸替换工具不只是“能用”,而是真正“好用、可靠、可扩展”——这已经不再是一个单纯的算法问题&#…

作者头像 李华
网站建设 2025/12/20 14:36:59

VOC数据集实战宝典:从快速获取到高效使用的完整指南

VOC数据集实战宝典:从快速获取到高效使用的完整指南 【免费下载链接】VOC2007VOC2012数据集下载指南分享 本仓库提供VOC2007和VOC2012数据集的下载链接,方便研究人员和开发者快速获取这两个常用的计算机视觉数据集。VOC数据集广泛用于图像分类、目标检测…

作者头像 李华
网站建设 2025/12/20 18:21:04

Espanso终极指南:如何用文本扩展器提升10倍输入效率

Espanso终极指南:如何用文本扩展器提升10倍输入效率 【免费下载链接】espanso Cross-platform Text Expander written in Rust 项目地址: https://gitcode.com/gh_mirrors/es/espanso 你是否厌倦了反复输入相同的邮件签名、代码片段或常用短语?&a…

作者头像 李华
网站建设 2025/12/21 6:22:11

17、Python GUI开发:Tkinter、PythonWin与wxPython详解

Python GUI开发:Tkinter、PythonWin与wxPython详解 在Python编程中,图形用户界面(GUI)开发是一个重要的领域。本文将详细介绍三种在Windows平台上常用的GUI工具包:Tkinter、PythonWin和wxPython,帮助你了解它们的特点、优缺点以及如何使用。 Tkinter Tkinter是Python与…

作者头像 李华