2

我想索引文本文件。经过大量搜索后,我了解了 Apache tika。现在在我研究 Apache tika 的一些站点中,我了解到 Apache tika 将文本转换为 XML 格式,然后将其发送到 solr。但是在转换它时只创建一个标签示例.......现在我希望索引的文本文件是一个 tomcat 本地主机访问文件。此文件以 GB 为单位。我无法存储它和单个索引。我希望每一行都有 line-id ....... 这样我就可以轻松检索匹配的行。

这可以在 Apache Tika 中完成吗?

4

2 回答 2

3

Solr with Tika 支持从多种文件格式中提取数据。
支持的文件格式的完整列表可以在@link找到

您可以提供上述任何文件格式作为输入,Tika 将能够自动检测文件格式并从文件中提取文本并将其提供给 Solr 进行索引。

编辑:-
Tika 在将文本文件发送到 Solr 之前不会将其转换为 XML。Tika 将只提取文件的元数据和内容,并根据定义的映射填充 Solr 中的字段。

您要么必须将整个文件作为输入提供给 solr,这将作为单个文档进行索引,要么您必须逐行读取文件并将其作为单独的文档提供给 Solr。
Solr 和 Tika 不会为您处理这个问题。

于 2013-03-19T11:05:16.410 回答
1

您可能希望查看DataImportHandler以将文件解析为行或条目。这比在已经有内部结构的东西上运行 Tika 更好。

于 2013-03-19T16:59:42.017 回答