我即将开始一个新项目,我将在其中执行大量文本处理任务,例如搜索、分类/分类、聚类等。
将会有大量的文件需要处理;可能有数百万份文件。在初始处理之后,它还必须能够每天使用多个新文档进行更新。
我可以使用 Python 来做到这一点,还是 Python 太慢了?最好使用Java吗?
如果可能的话,我更喜欢 Python,因为这是我最近一直在使用的。另外,我会更快地完成编码部分。但这一切都取决于 Python 的速度。我已经将 Python 用于一些只有几千个文档的小规模文本处理任务,但我不确定它的扩展能力如何。