2

PDFbox 提供了将 pdf 转换为 lucene 文档的类。它是否保留了文档的格式。通过格式化我的意思是它是否存储有关位置和字体类型/大小和其他选项的详细信息。

4

1 回答 1

0

默认情况下,它将删除所有格式并仅提取文本内容并使其可搜索。可以搜索此内容,并且可以在索引外部维护原始 PDF,并在找到匹配项时将其与搜索结果一起返回。从 Lucene 索引重建 PDF 可能不是最好的方法,如果这是您的意图。

不过,PDFBox 非常有能力提取元数据,如果您希望能够搜索此类数据,它当然可以用于索引格式/字体/等数据。

于 2013-08-13T16:38:02.650 回答