我必须处理大约200 万个文本文件并在那里生成三元组。
假设我有一个txt文件xyz.txt
(200万输入的文件之一),处理如下:
start(xyz.txt)---->module1(xyz.tpd)------>module2(xyz.adv)-------->module3(xyz.tpl)
建议我一个逻辑或概念,以便我可以在 x64 4GB Windows 系统上以优化的方式更快地处理。
module1(working):它使用调用解析器的 .bat 文件解析 txt 文件,它是一个单独的系统线程,15 秒后它再次开始解析另一个 txt 文件,依此类推....
module2(working):它接受.tpd
文件作为输入并生成.adv
文件。module3(工作):它接受.adv
文件作为输入并生成.tpl
(三元组)。
我应该从 txt 文件还是在其他点开始线程..?我担心如果我的 CPU 卡在上下文切换中。
任何人都可以有更好的逻辑,以便我可以尝试..!?