python - 当使用 Python 处理一个巨大的 CSV 时突然停止，“杀死”是什么意思？

Question

我有一个 Python 脚本，它导入一个大型 CSV 文件，然后计算文件中每个单词的出现次数，然后将计数导出到另一个 CSV 文件。

但是正在发生的事情是，一旦该计数部分完成并开始导出，它就会Killed在终端中显示。

我不认为这是一个内存问题（如果是我假设我会遇到内存错误而不是Killed）。

会不会是这个过程太长了？如果是这样，有没有办法延长超时时间，这样我就可以避免这种情况？

这是代码：

csv.field_size_limit(sys.maxsize)
    counter={}
    with open("/home/alex/Documents/version2/cooccur_list.csv",'rb') as file_name:
        reader=csv.reader(file_name)
        for row in reader:
            if len(row)>1:
                pair=row[0]+' '+row[1]
                if pair in counter:
                    counter[pair]+=1
                else:
                    counter[pair]=1
    print 'finished counting'
    writer = csv.writer(open('/home/alex/Documents/version2/dict.csv', 'wb'))
    for key, value in counter.items():
        writer.writerow([key, value])

打印Killed后发生的事情，完整的消息是：finished counting

killed (program exited with code: 137)

score 130 · Accepted Answer

退出代码 137 (128+9) 表示您的程序由于接收到信号 9 而退出，即SIGKILL. 这也解释了该killed消息。问题是，你为什么会收到这个信号？

最可能的原因可能是您的进程超出了允许使用的系统资源数量的某些限制。根据您的操作系统和配置，这可能意味着您打开的文件过多、使用了过多的文件系统空间或其他原因。最有可能是您的程序使用了太多内存。当内存分配开始失败时，系统不会冒着破坏的风险，而是向使用过多内存的进程发送终止信号。

正如我之前评论的那样，打印后可能会达到内存限制的一个原因finished counting是，您在最终循环中的调用counter.items()分配了一个列表，其中包含字典中的所有键和值。如果你的字典有很多数据，这可能是一个很大的列表。一个可能的解决方案是使用counter.iteritems()哪个是生成器。它不是返回列表中的所有项目，而是让您以更少的内存使用迭代它们。

所以，我建议你试试这个，作为你的最后一个循环：

for key, value in counter.iteritems():
    writer.writerow([key, value])

请注意，在 Python 3 中，items返回一个“字典视图”对象，该对象的开销与 Python 2 的版本不同。它取代了iteritems，因此如果您稍后升级 Python 版本，您最终会将循环更改回原来的方式。

score 30 · Accepted Answer

涉及到两个存储区域：堆栈和堆。堆栈是保存方法调用的当前状态（即局部变量和引用）的地方，而堆是存储对象的地方。递归和记忆

我猜 dict 中有太多键counter会消耗过多的堆区域内存，因此 Python 运行时会引发OutOfMemory异常。

为了保存它，不要创建一个巨大的对象，例如counter。

1.堆栈溢出

创建太多局部变量的程序。

Python 2.7.9 (default, Mar  1 2015, 12:57:24) 
[GCC 4.9.2] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> f = open('stack_overflow.py','w')
>>> f.write('def foo():\n')
>>> for x in xrange(10000000):
...   f.write('\tx%d = %d\n' % (x, x))
... 
>>> f.write('foo()')
>>> f.close()
>>> execfile('stack_overflow.py')
Killed

2.OutOfMemory

创建巨人的程序dict包含太多键。

>>> f = open('out_of_memory.py','w')
>>> f.write('def foo():\n')
>>> f.write('\tcounter = {}\n')
>>> for x in xrange(10000000):
...   f.write('counter[%d] = %d\n' % (x, x))
... 
>>> f.write('foo()\n')
>>> f.close()
>>> execfile('out_of_memory.py')
Killed

参考

score 5 · Accepted Answer

很可能，您的内存不足，因此内核杀死了您的进程。

你听说过OOM Killer吗？

这是我为处理来自 CSV 文件的大量数据而开发的脚本的日志：

Mar 12 18:20:38 server.com kernel: [63802.396693] Out of memory: Kill process 12216 (python3) score 915 or sacrifice child
Mar 12 18:20:38 server.com kernel: [63802.402542] Killed process 12216 (python3) total-vm:9695784kB, anon-rss:7623168kB, file-rss:4kB, shmem-rss:0kB
Mar 12 18:20:38 server.com kernel: [63803.002121] oom_reaper: reaped process 12216 (python3), now anon-rss:0kB, file-rss:0kB, shmem-rss:0kB

它取自/var/log/syslog.

基本上：

PID 12216 被选为受害者（由于它使用了 +9Gb 的总虚拟机），因此oom_killer获得了它。

这是一篇关于OOM 行为的文章。

score 4 · Accepted Answer

我怀疑有什么东西会扼杀这个过程，只是因为它需要很长时间。Killed 通常意味着来自外部的某些东西终止了进程，但在这种情况下可能不会按 Ctrl-C，因为这会导致 Python 在 KeyboardInterrupt 异常中退出。此外，在 Python 中，如果这是问题所在，您会得到 MemoryError 异常。可能发生的情况是您在 Python 或标准库代码中遇到了导致进程崩溃的错误。

score 4 · Accepted Answer

VirtualBox当我尝试从新的 Ubuntu 20.04 LTS中的共享文件夹中运行 python 脚本时，我也遇到了同样的情况。PythonKilled在加载我自己的个人库时得到了保护。当我将文件夹移动到本地目录时，问题就消失了。似乎Killed在我的库的初始导入期间发生了停止，因为一旦我将文件夹移过来，我就会收到丢失库的消息。

重启电脑后问题就消失了。

因此，如果程序超过某种共享，人们可能想尝试将程序移动到本地目录，或者它可能是一个暂时性问题，只需要重新启动操作系统。

python - 当使用 Python 处理一个巨大的 CSV 时突然停止，“杀死”是什么意思？

5 回答 5

参考

Related

Reference