python - 将大型 csv 文件解析为 tinydb 需要很长时间

Question

我有一个包含 15 列和大约 100 万行的大型 csv 文件。我想将数据解析成 tinyDB。我使用的代码如下：

import csv
from tinydb import TinyDB

db = TinyDB('db.monitor')
table = db.table('Current')

i=0

datafile = open('newData.csv', 'rb')
data=csv.reader(datafile, delimiter = ';')

for row in data:
    table.insert({'WT_ID': row[0], 'time': row[1], 'MeanCurrent': row[2], 'VapourPressure': row[3], 'MeanVoltage':row[4], 'Temperature': row[5], 'Humidity': row[6], 'BarPressure': row[7], 'RPM': row[8], 'WindSector': row[9], 'WindSpeed': row[10], 'AirDensity': row[12], 'VoltageDC': row[13], 'PowerSec': row[14], 'FurlingAngle': row[15]})
    i=i+1
    print i

然而，它真的需要永远。我设置了 i 变量来跟踪进度，虽然在第一行它运行得很快，但现在已经一个多小时了，它以几乎 1Hz 的速度解析了大约 10000 行

我找不到任何类似的东西，所以任何帮助将不胜感激

谢谢

score 2 · Accepted Answer

TinyDB 是最佳选择吗？您似乎需要一个跨国数据库，而 TinyDB 是面向文档的。最重要的是，来自文档：Wy not use TinyDB

如果您需要高级功能或高性能，TinyDB 不适合您

您的进程运行速度非常慢，因为您正在将数据累积到 RAM 中。作为一种解决方法，您可以将 csv 拆分为较小的主干并用它填充您的脚本。这样，每次迭代之间的内存可以是干净的。

tinyDB 完全无法管理这么多信息。

score 2 · Accepted Answer

本周我遇到了类似的问题，其解决方案是使用 CachingMiddleware：

import csv
from tinydb import TinyDB
from tinydb.storages import JSONStorage
from tinydb.middlewares import CachingMiddleware

db = TinyDB('db.monitor', storage=CachingMiddleware(JSONStorage))
table = db.table('Current')

i=0

datafile = open('newData.csv', 'rb')
data=csv.reader(datafile, delimiter = ';')

for row in data:
    table.insert({'WT_ID': row[0], 'time': row[1], 'MeanCurrent': row[2], 'VapourPressure': row[3], 'MeanVoltage':row[4], 'Temperature': row[5], 'Humidity': row[6], 'BarPressure': row[7], 'RPM': row[8], 'WindSector': row[9], 'WindSpeed': row[10], 'AirDensity': row[12], 'VoltageDC': row[13], 'PowerSec': row[14], 'FurlingAngle': row[15]})
    i=i+1
    print i

score 0 · Accepted Answer

我从未使用过 tinyDB，但您可以尝试以下 2 个选项

熊猫到数据库

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_sql.html

Pandas 可以批量读取 csv 数据，并且比逐行读取文件更快

以块而不是逐行读取 csv 文件，然后为其创建插入语句，而不是为每一行创建插入语句。

score 0 · Accepted Answer

TinyDB 会很慢，因为它将所有内容都加载到 RAM 中。我不确定是否有任何好的替代方案，尽管您可能对我不久前写的这个由 SQLite 支持的文档存储库感兴趣：

https://github.com/skorokithakis/goatfish

您可以在某些字段上创建索引，它将所有内容都转换为 SQL 查询，因此性能相当不错。

score 0 · Accepted Answer

如果您从 csv 文件解析数据，则手动构建文件要快得多。我建议如下：

import json
counter = 0
with open(csv_file) as fh, open('test.db','w') as db:
    keys = None
    db.write('{"_default": {')
    spacer = ''
    for line in fh:
        if not keys:
            # This is the header row
            keys = line[:-1].replace(" ", "_").split('\t')
        else:
            counter += 1
            # These are the data rows
            values = line[:-1].split('\t')
            db.write('{}"{}":{}'.format(spacer,counter,json.dumps(dict(zip(keys, values)))))
            spacer = ','
        if counter % 1000 == 0:
            print( 'counter: {:10d}'.format(counter), end='\r')
    db.write('}}')

score 0 · Accepted Answer

用户 Pandas 写入 Json 文件会快很多。

generated_rules.to_json('./Data/rules.json', orient='index', index='true')

然后编辑生成的 json 文件并在 json 文件中添加表或默认值，例如

前

{"0": {...}, "1":{...}

后

{rules:{"0": {...}, "1":{...}}

然后只需将此 json 文件读取为小数据库。

python - 将大型 csv 文件解析为 tinydb 需要很长时间

6 回答 6

Related

Reference