Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
PDFbox 提供了将 pdf 转换为 lucene 文档的类。它是否保留了文档的格式。通过格式化我的意思是它是否存储有关位置和字体类型/大小和其他选项的详细信息。
默认情况下,它将删除所有格式并仅提取文本内容并使其可搜索。可以搜索此内容,并且可以在索引外部维护原始 PDF,并在找到匹配项时将其与搜索结果一起返回。从 Lucene 索引重建 PDF 可能不是最好的方法,如果这是您的意图。
不过,PDFBox 非常有能力提取元数据,如果您希望能够搜索此类数据,它当然可以用于索引格式/字体/等数据。