python - python pickle vs sql效率

Question

我正在用 Python 开发一个需要存储（非常）大数据集的应用程序。pickle 是存储数据并根据请求检索数据的最实用方法，还是我应该考虑使用 SQL 代替？我的主要目标是速度和尽可能小的处理压力。

我担心的是 pickle 必须动态处理整个大文件，这可能会对性能产生不利影响。除了使用之外，我对泡菜并不是特别熟悉，所以任何关于它如何工作的解释都会很棒。

现在，我正在使用这段代码：

users = pickle.load( open( "users.py", "rb" ) )
username = raw_input("Please enter a username: ")
password = raw_input("Please enter a password: ")
var = username in users
if(var == 0):
    return 0
    exit()
else:
    if(users[username] != password):
        return 0
        exit()
    else:
        return 1
        exit()

映像用户包含 100 万个条目，这将更有效，还是 SQL？

任何帮助都会很棒，

谢谢

score 5 · Accepted Answer

Pickle 通常适合存储对象，如果您想有效地存储“原始”数据，那么 pickle 可能不是要走的路，但它非常依赖于具体情况 - 是“加载”数据时间紧迫，是吗？有开发时间来建立数据库、查询等。

如果您的数据是一百万对用户名和出生日期，那么 pickle 可能不是最好的方法，可以说将数据存储在平面文本文件中会更简单。

pickle 和 db/SQL 解决方案都具有可扩展的优点。请记住，pickle 不是“安全的”，因此您应该考虑文件的可信度，例如它会在不同系统之间传输。

总体而言，如果您的数据集非常大，关系型 Db 可能比 pickle 更适合，但您可能还需要考虑其他存储引擎，例如 Redis、MongoDb、Memcached。但是，所有这些都非常依赖于情况，因此您可以提供有关数据预期如何使用的更多信息将是有用的！

score 3 · Accepted Answer

当您在 users 对象中搜索某些用户时，我想 SQL 将是一个更好的解决方案。

假设users是一个数组，您必须从数组的开头到结尾搜索该用户。使用 SQL，您可以添加索引，这取决于您对用户对象建模的方式可以给您带来一点提升。

此外，pickle 将解析、重新创建和加载存储的对象，因此仅加载成本（包括处理器能力和使用的内存）可能会使它成为一个更糟糕的选择。

score 0 · Accepted Answer

如果您将使用所有数据，则可以使用 pickle。如果你想要数据中的一行 sql 更好。例如，您为数据科学制作一个新模型 pickle 更好，如果您正在检查用户密码，数据库 sql 是一个更好的解决方案。

python - python pickle vs sql效率

3 回答 3

Related

Reference