我正在将数据从 Mongo 导入 CSV 文件。导入由每个 JSON 文档的“时间戳”和“文本”组成。
文件:
{
name: ...,
size: ...,
timestamp: ISODate("2013-01-09T21:04:12Z"),
data: { text:..., place:...},
other: ...
}
编码:
with open(output, 'w') as fp:
for r in db.hello.find(fields=['text', 'timestamp']):
print >>fp, '"%s","%s"' % (r['text'], r['timestamp'].strftime('%H:%M:%S'))
我想删除重复项(一些 Mongo 文档具有相同的文本),并且我想保持第一个实例(关于时间)完整。是否可以在我导入时删除这些欺骗?
谢谢你的帮助!