news 2026/1/28 3:45:30

高性能 Python 数据处理：pandas 2 与 Polars，从 vCPU 视角看

张小明

前端开发工程师

1.2k 24

文章封面图 — 高性能 Python 数据处理：pandas 2 与 Polars，从 vCPU 视角看

原文：towardsdatascience.com/high-performance-data-processing-pandas-2-vs-polars-a-vcpu-perspective-e922d3064f4e?source=collection_archive---------1-----------------------#2024-08-07

结果

分组 + 聚合

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/7359c686432a3b97f6043764e030cff4.png

按库和 vCore 进行的分组和聚合操作的平均执行时间。图像和数据由作者提供。

我们可以看到，pandas 在 vCore 的扩展上没有表现出预期的效果。这个趋势在整个测试过程中都会保持。我决定保留图表中的这一部分，但之后我们将不再提及它。

polars 的结果相当令人印象深刻——在 1vCore 配置下，它比 pandas 快了三分之一的时间，而随着 vCore 数量增加到 2 核和 4 核时，它分别快了约 35%和 50%。

百分位数计算

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/20b2f53f53b7a2b5cb16441c6d97d3ed.png

按库和 vCore 进行的百分位数计算操作的平均执行时间。图像和数据由作者提供。

这个结果很有趣。在所有 vCore 配置中，polars 的执行速度是 pandas 的 5 倍。在 1vCore 配置下，平均执行时间为 0.2ms，但标准误差较大（意味着有时操作完成的时间会明显超过 0.2ms，而有时则会明显低于 0.2ms）。当扩展到多个 vCore 时，执行时间更加稳定——2vCore 配置为 0.21ms，4vCore 配置为 0.19ms（大约快 10%）。

筛选

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a56070692a047244138f5934f1674c14.png

按库和 vCore 进行的筛选操作的平均执行时间。图像和数据由作者提供。

在所有情况下，Polars 的完成速度都比 pandas 快（最差的运行时间仍然是 pandas 的两倍）。然而，我们在这里看到了一种非常不寻常的趋势 —— 运行时间随着 vCore 增加而增加（我们原本期望它会减少）。4vCore 的操作运行时间大约比 1vCore 的慢 35%。尽管并行化为你提供了更多的计算能力，但它通常伴随有一定的开销 —— 管理和协调并行进程通常是非常困难的。

这个 Polars 扩展问题令人困惑 —— 我这边的实现非常简单，而且在 Polars 的仓库中没有找到相关的开放问题（不过现在那儿确实有超过 1000 个开放问题）。

你知道为什么会发生这种情况吗？请在评论中告诉我。

排序

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/f64ac7d234a1f9f8ccb325be256f7696.png

排序操作的平均执行时间，按库和 vCore 分类。图片和数据来源：作者。

过滤后，我们剩下了大约 13.5k 行数据。

在这一点上，我们可以看到 1vCore 的 Polars 情况比 pandas 慢得多（慢约 45%）。当我们扩展到 2vCore 时，运行时间与 pandas 相当，而扩展到 4vCore 时，Polars 的速度明显快于 pandas。这里可能的情况是，Polars 使用了一种针对并行优化的排序算法 —— 这种算法在单核心上可能表现不佳。

仔细查看文档后，我发现 Polars 中的排序操作有一个multithreaded参数，用于控制是否使用多线程排序算法或单线程排序算法。

排序（multithreading=False）

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/6e729e639be15093fcff0752aa065de3.png

排序操作的平均执行时间（multithreading=False），按库和 vCore 分类。图片和数据来源：作者。

这次，我们可以看到更加一致的运行时间，虽然它们不会随着核心数的增加而扩展，但确实超过了 pandas。

结论

并行计算和分布式计算是困难的。我们通常认为，只要扩展我们的程序，它就能更快完成，但这总是会增加开销。在很多情况下，像 Redis 和 node.js 这样以极速著称的程序实际上是单线程的，并不支持并行化（node.js 以并发著称，但并发 ≠ 并行化）。
看起来，大多数情况下，即使只有 1 个可用 vCore，Polars 确实比 pandas 更快。令人印象深刻！
从过滤和排序操作来看，Polars 显然没有针对单个 vCore 情况进行优化，就像你在云服务中可能遇到的情况一样。如果你运行大量小型（<2GB 内存）无服务器函数，这是一个重要的考虑因素。为了提高速度进行扩展通常也伴随着价格的上升。
Polars 仍然是一个相对较新的解决方案，截至 2024 年中，它似乎没有 pandas 那么成熟。例如，在排序操作中的multithreaded参数 —— 我希望能够有一个auto默认选项，可以根据硬件选择算法。

最后备注

在考虑更换像 pandas 这样的基础库时，性能并不是唯一需要考虑的因素。还需要考虑其他参数，例如切换的成本（学习新语法、重构旧代码）、与其他库的兼容性以及新解决方案的成熟度。
这里的测试旨在处于快速粗略和彻底基准测试之间的中间地带。还需要更多工作才能得出决定性结论。
我简要讨论了 pandas 和 Polars 如何受益于 SIMD（单指令多数据），另一个你可能听说过的硬件，GPU，因实现相同的思想而闻名。Nvidia 发布了一个插件，用于在 GPU 上执行 Apache Spark 代码——根据我的测试，它甚至比 Polars 更不成熟，但值得一试。

网站建设 2026/1/22 7:14:47

SPSS——对应分析基础

更多免费教程和软件：对应分析基础为什么引入对应分析在进行数据分析时遇到分类型数据，并且要研究两个分类变量之间的相关关系，基于均值、方差的分析方法不能够使用，所以通常从编制两变量的交叉表入手，使用卡方检验和逻辑回归等方法；但是当变量的类别或者变量数量为…

李华

网站建设 2026/1/21 16:19:47

STM32项目分享：智能公寓环境检测系统

目录一、项目成品图片二、项目功能简介 1.主要器件组成 2.功能详解介绍三、项目原理图设计四、项目PCB硬件设计项目PCB图五、项目程序设计六、项目实验效果编辑七、项目包含内容一、项目成品图片哔哩哔哩视频链接： https://www.bilibili.c…

李华

网站建设 2026/1/23 11:25:38

Kotaemon剧本写作辅助：对白生成与场景设计

Kotaemon剧本写作辅助：对白生成与场景设计在影视和游戏内容创作一线，编剧们常常面临这样的困境：连续写到第三幕时，主角的性格突然“变味”；一场激烈争吵的对白读起来像日常寒暄；或是团队协作中&#xff0c…

李华

网站建设 2026/1/26 2:59:23

如何通过Kotaemon提升客户服务的一致性？

如何通过Kotaemon提升客户服务的一致性？ 在客户体验决定企业竞争力的今天，一个看似简单的问题——“我的订单到哪了？”——背后却可能暴露出整个客服体系的深层短板：不同坐席回答不一、知识更新滞后、系统无法联动操作……这些问…

李华

网站建设 2026/1/23 22:57:22

Kotaemon Prometheus监控指标暴露配置

Kotaemon Prometheus监控指标暴露配置在企业级人工智能系统日益复杂的今天，一个智能问答服务是否“聪明”已经不再是唯一的评判标准——我们更关心它是否稳定、可测、能被掌控。当基于 RAG（检索增强生成）的对话系统被部署到生产环境时&#…

李华

网站建设 2026/1/21 15:05:59

Three.js：开启浏览器3D图形的革命性技术

1 概述：Web3D的新标准 Three.js是一个基于JavaScript的开源3D图形库，它通过封装WebGL技术细节，让开发者能够轻松在浏览器中创建和展示交互式3D图形。作为当前最流行的WebGL封装库，Three.js极大地降低了Web 3D开发的入门门槛&…

李华

Polars 承诺其多线程能力优于 pandas。但在单个 vCore 上是否也是如此？