导读:本文通过比较 Pandas、Polars 和 PySpark 三种工具的不同数据集处理,得出数据处理未来发展方向的结论。希望对各位大数据开发者有所启发。
最近,我一直在使用Polars和PySpark ,这让我回到并想起了Spark热度最鼎盛的日子,每个数据处理解决方案似乎都围绕它展开。
这些项目,有时让我不禁要问:这真的有必要这么干吗?
接下来就让我们深入研究一下,我在各种数据处理技术方面的经验和实践。
Pandas 一直是数据操作、探索和分析的主流工具。由于 Pandas 与 R 网格视图的相似性,它在数据科学家中正在越来越受欢迎。而且,它与机器学习领域相关的其他Python库同步。比如:
NumPy是一个用于实现线性代数和标准计算的数学库。Pandas 基于 NumPy。
Scikit-learn是机器学习应用程序的参考库。通常,模型使用的所有数据都已使用 Pandas 或 NumPy 加载、可视化和分析。
Spark 是一个免费的分布式计算机平台,它以 PySpark 作为其Python库,从而改变了大数据处理的范式。
它提供了具有卓越功能的统一计算引擎:
内存中处理:Spark 的主要特点是内存式架构,该架构速度很快,它将所有数据保存在内存中,而不是磁盘上。
容错:软件内置的容错机制确保可靠的数据处理。弹性分布式数据集进行数据跟踪,并允许在发生故障时自动恢复。
可扩展性:Spark 的水平可扩展架构能够自适应地处理大型数据集,并更快地将数据分发到集群。数据是分布式的,利用集群中所有节点的巨大力量。
Polars
Polars 是一个基于 Rust 构建的 Python 库,它将 Python 的灵活性和用户友好性,与 Rust 的速度和可扩展性结合起来。
大家知道,Rust 是一种低级语言,优先考虑性能、可靠性和生产力。它处理内存效率相当高,性能与 C 和 C++ 相当。
另一方面,Polars 使用 Apache Arrow 作为查询引擎来执行矢量化查询。Apache Arrow 是一个用于快速内存处理的跨语言开发平台。
Polars 可以即时执行表格数据操作、分析和转换操作,有利于大型数据集的使用。
而且,它的语法类似于SQL,数据处理的表达复杂性很容易演示。另一个功能是它的惰性,它评估查询并应用查询优化。
https://github.com/NachoCP/Pandas-Polars-PySpark-BenchMark
每个工具有四个notbooks(两个用于极坐标,用于测试急切和惰性等评估)。
该代码将提取以下任务的执行时间:
读取
过滤
聚合
交集
写入
其中,有五个数据集,具有多种尺寸、50,000、250,000、1,000,000、5,000,000和25,000,000行数。用来测试不同的场景和规模。
另外,需要说明的是本次测试的数据是来自 Kaggle 的金融数据集。
测试执行于如下硬件:
macOS Sonoma
Apple M1 Pro
32 GB
数据行大小 | PANDAS | POLARS EAGER | POLARS LAZY | PYSPARK |
---|---|---|---|---|
50,000 行 | 0.368 | 0.132 | 0.078 | 1.216 |
250,000 行 | 1.249 | 0.096 | 0.156 | 0.917 |
1,000,000 行 | 4.899 | 0.302 | 0.300 | 1.850 |
5,000,000 行 | 24.320 | 1.605 | 1.484 | 7.372 |
25,000,000 行 | 187.383 | 13.001 | 11.662 | 44.724 |
Pandas表现不佳,尤其是随着数据集大小的增加时。但是,它处理小型数据集时,具有非常不错的性能与时间比。
PySpark在单机上执行时,当数据集尺寸增长时,它比 Pandas 表现出了相当大的改进。
Polars显著优于其他工具,与 Pandas 相比提高了 95-97%,与 PySpark 相比提高了 70-75%,证实了它在单机上处理大型数据集的效率。
Pandas 性能可扩展性:在较小数据集中的数据操作中非常受欢迎,但随着数据量的增加,它的性能会明显下降,这表明它对于大容量数据来说并不是最好的。然而,它与许多机器学习和统计库的集成,使其对于数据科学团队来说不可或缺。
Polars 的效率:Polars 的配置(Eager 和 Lazy)在所有测试规模上都表现出卓越的性能,大幅度优于 Pandas 和 PySpark,使 Polars 成为能够处理大型数据集的高效工具。然而,在Polars 发布 Python 的主版本这前,我并不推荐将其用于生产系统。
工具选择策略:研究结果强调了,根据项目的具体需求与可用资源选择正确工具之重要性。对于中小型数据集,Polars 提供了显著的性能优势。对于大规模分布式处理,PySpark 仍然是一个强大的选择。
未来考量:随着数据集规模的不断增长与处理需求的增加,数据处理工具的选择将变得更加关键。
像 Polars 这样基于Rust构建的工具正在出现,其结果必须得到考虑。此外,使用 Spark 作为处理一切解决方案的趋势正在消失,当不需要大规模分布式系统时,其它的工具正在取代它们。
是的,使用正确的工具完成正确的工作!
作者:万能的大雄
本文为 @ 万能的大雄 创作并授权 21CTO 发布,未经许可,请勿转载。
内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。
该文观点仅代表作者本人,21CTO 平台仅提供信息存储空间服务。