当需要数据聚合查询的时候，你们是选择用数据库的聚合，还是数据库查出来使用 pandas 聚合？

最近在写一个基于 MongoDB 的项目（第一次用，之前主要用 Mysql ），涉及到聚合查询的时候，搜了一下发现聚合查询需要用 pipeline, 因为项目的数据有点复杂，写聚合 pipeline 特别别扭，也容易出错，然后突然想起来我用的既然是 python ，岂不是可以先从数据库把数据查出来，再用 pandas 做聚合？试了一下，各种复杂聚合果然很快就实现了，有一种思维打开的感觉。
效率方面没有实际验证过，但感觉上数据库原生聚合效率会比查出来再 pandas 要高一点的，不过太复杂的聚合可能数据库不一定能完全实现，这时候用 pandas 就方便多了。
你会怎么选呢？

2 条回复 • 2024-05-18 18:57:33 +08:00

ruanimal

124 天前

看数据量啊

LeeReamond

124 天前

数据库屎在完整性和一致性约束，实现本身还是高效的。pandas 的屎就是纯屎了，慢而已。你对性能有需求自然不会选择这种方案，你在考虑这种方案说明你对性能没需求，那用啥不行？如果不能决定我建议抽个签