python - Python计算大文件中的单词

Question

我有一个包含 4 个字段的 6M 行数据库（sqlite）：id（整数）|标题（文本）|文本（文本）|标签（文本）。

现在我需要计算出现在标题中的每个单词的出现次数，并导入到其他表中，例如 word|count 和 tag|word|count。

我的代码在 Python 2.7 中如下所示：

from nltk.tokenize import wordpunct_tokenize
from collections import Counter
import sqlite3

word_count = Counter()
pair_count = Counter()

conn = sqlite3.connect('database')
c = conn.cursor()

for query in c.execute('SELECT Tags, Title FROM data'):
    tags = query[0].strip().split()
        title = wordpunct_tokenize(query[1])
        for word in title:
            word_count[word] += 1
            for tag in tags:
                pair_count[(tag, word)] += 1
...

问题是计数器变得如此之大，以至于我在 1M 行中出现内存错误。我试图每 100K 行重新初始化一次计数器并将计数添加到 db 文件中，但这种方法似乎非常慢，可能是由于标签词对的数量巨大。

...
for query in c.execute('SELECT Tags, Title FROM data'):
    i += 1
    if i % 100000 == 0:
        conn1 = sqlite3.connect('counts.db')
        c1 = conn1.cursor()

        # update word count
        for word in word_count:
            c1.execute('SELECT Count FROM word_count WHERE Word=?', (word,))
            count = c1.fetchone()
            # add to existing count and update
            if count:
                count = word_count[word] + count[0]
                c1.execute('UPDATE word_count SET Count=? WHERE Word=?', (count, word))
            # insert new row
            else:
                c1.execute('INSERT INTO title_word_count VALUES (?,?)', (word, word_count[word]))

        # update pair count                
        for pair in pair_count:
            c1.execute('SELECT Count FROM pair_count WHERE Tag=? AND Word=?', pair)
            count = c1.fetchone()
            if count:
                count = pair_count[pair] + count[0]
                c1.execute('UPDATE pair_count SET Count=? WHERE Tag=? AND Word=?', (count, pair[0], pair[1]))
            else:
                c1.execute('INSERT INTO pair_count VALUES (?,?,?)', (pair[0], pair[1], pair_count[pair]))
        conn1.commit()
        conn1.close()

        # reinitiate counters
        word_count = Counter()
        pair_count = Counter()
...

有没有什么方法可以在不访问多台机器的情况下解决这个问题？也将不胜感激任何有关代码的建议！

编辑：

我试图索引counts.db并更新每批，但它仍然太慢 - 处理 7 批每批 200000 行需要 10 小时。

我最终遵循了我最初的想法。但是，我不是每 100K 行更新一次计数，而是将它们插入表中，subcounts尽管可能存在重复Tag, Word对。

然后INSERT INTO pair_count SELECT Tag, Word, SUM(Count) FROM subcounts GROUP BY Tag, Word;给了我最后的结果。我总共花了大约3个小时。

我不小心丢弃了遵循@abernert 建议的临时表，但我认为这是可行的。

感谢@Steve 和@abernert 的建议！

score 3 · Accepted Answer

如果您按 (Tag, Word) 对行进行排序，那么您将获得一对计数的所有更新，然后是下一个计数的所有更新，依此类推。

不幸的是，因为您没有正确规范化您的数据，所以您无法得到它。

如果您不知道最后一句话是什么意思，您需要阅读数据库规范化。维基百科的第三范式看起来是个不错的起点。

如果您无法修复数据模型，我们可以构建一个临时表来修复它：

c.execute('DROP TABLE IF EXISTS _data')
c.execute('CREATE TABLE _data (Tag, Word)')
for query in c.execute('SELECT Tags, Title FROM data'):
    tags = query[0].strip().split()
    words = wordpunct_tokenize(query[1])
    c.executemany('INSERT INTO _data (Tag, Word) VALUES(?, ?)',
                  itertools.product(tags, words))
c.commit()

您实际上不需要拆分两列，只需拆分较大的列即可。但这要干净得多，除非您真的需要节省磁盘空间。

无论如何，现在您可以选择ORDER BY或Tag, Word，Word, Tag具体取决于哪个更大，并且您不需要保留一大堆tag_count值，只需保留您当前正在处理的值即可。您将获得一个值的所有行，然后是下一个值的所有行，依此类推。

这也意味着使用 a GROUP BY，您可以让 sqlite3 为您计算。

这也意味着您首先不需要在 Python 中进行迭代；你也可以让 sqlite3 这样做：

c.execute('''INSERT INTO pair_count 
             SELECT Tag, Word, COUNT(*) FROM _data GROUP BY Tag, Word''')

python - Python计算大文件中的单词

1 回答 1

Related

Reference