apache - Apache Lucene 能否替代 ETL 工具进行文本处理

问问题 2016-07-31T04:54:44.067

76 次

0

我得到了一个 15GB 的平面文件提取及其规范，它有助于识别每行记录以及如何拆分每行以收集所需的信息。我打算使用 ETL 工具，因为我认为这个批量文件的文本处理无法在 java 中实现。但我现在开始阅读有关 Lucene 的信息。现在我真的很困惑。以下是我的疑问：

Apache Lucene 可以处理 15GB 的纯文本文件而不会出现内存问题。
15GB 平面文件读取每一行、识别标识符并基于标识符拆分行数据并将其加载到映射数据库中的性能基准是什么。
我可以使用 Apache Lucene 来完成这项任务或使用 ETL 工具吗？

0 回答 0