python - 在保留数据类型的同时导出熊猫数据框的格式是什么？不是 CSV；石榴石？镶木地板？

Question

我的工作流程通常包括将一些数据（通常来自 CSV 文件）加载到 pandas 数据框中，对其进行清理，为每列定义正确的数据类型，然后将其导出到 SQL 服务器。

对于SQL Server 不可用的情况，存储清理后的数据和每列数据类型的显式定义有哪些好的替代方法？

我测试过的唯一真正的解决方案是导出到一个 sqlite .db 文件，使用这里的答案来确保日期被读取为日期。
Feather、HDF5、Parquet怎么样？Pandas支持它们，但我对这些格式了解不多。我读过feather不推荐长期存储（因为API可能会改变？不清楚）
我不确定是否使用 pickle：我知道它不是一种安全格式，并且 API 不断变化并破坏向后兼容性
CSV 并不是一个真正的选择，因为根据我的数据推断数据类型通常是一场噩梦；将数据读回熊猫时，我需要明确声明格式，包括日期格式，否则：
- pandas 可以创建列，其中一行是 dd-mm-yyyy，另一行是 mm-dd-yyyy（请参见此处）。加
- 我有许多文本列，其中前 10k 行似乎是数字，接下来的 100 行是文本，因此大多数软件会推断该列是数字，然后导入失败。也许我需要创建一个函数来导出一个包含所有数据类型定义、日期格式等的辅助文件？可行但麻烦。

更新：这是一个有趣的比较，根据 HDF5 是最快的格式：https ://medium.com/@bobhaffner/gist-to-medium-test-db3d51b8ba7b

我似乎明白 HDF5 和 Parquet 之间的另一个区别是 datetime64 在 Hdf5 中没有直接等价物。大多数人似乎将他们的日期作为 ISO 日期格式 (yyyy-mm-dd) 字符串存储在 HDF5 中。

score 7 · Accepted Answer

如果您的数据是二维表并且用于像 Apache Spark 这样的大数据处理，请使用 parquet。如您所述，HDF5 不适合处理日期/时间。

如果您的数据有 3 个或更多维度，HDF5 将是一个不错的选择——尤其是对于长期存档、可移植性和共享性。

如果性能很重要，Apache Feather 是最快的。

score 4 · Accepted Answer

如果您真的想避免 pickle 并保存 CSV（我不完全同意您关于那些不可行选项的陈述），那么您可以运行本地数据库服务器来保存数据并在SQL 服务器再次可用。否则：

对象的使用to_pickle方法DataFrame。

或者，使用您的数据类型保存数据类型 json 文件，并在保存 CSV 时指定您的日期格式：

# export
import json
data_types = df.dtypes.astype(str).to_dict()
with open('data_type_key.json', 'w') as f
    json.dump(data_types, f)
df.to_csv('data.csv', date_format='%Y%m%d')

# import
data_types = json.loads('data_type_key.json')
data_frame = pd.read_csv(your_csv_path, dtype=data_types)

python - 在保留数据类型的同时导出熊猫数据框的格式是什么？不是 CSV；石榴石？镶木地板？

2 回答 2

Related

Reference