我最近遇到了Apache Tika,这是一个漂亮的工具包,它处理多种类型的文件以提取文本(以及一些其他信息,例如元数据)。
我面临的问题是,给定一个文档(某些格式,如 PDF、DOC、XLS 等),我需要提取文本,修改其中的一些,然后以原始格式重新构建文档(与修改后的文本)。据我所知,Tika 提供了提取文本的功能,但不会“缝合”修改后的文档。
我觉得有一些库可以针对特定的文件类型执行此操作,但我不知道有任何类似于 Tika 的工具包,它通过处理 Tika 支持的所有文件类型为我提供了端到端的解决方案。我也不确定 Tika 本身是否可以为我做到这一点。
如果有人知道这种情况,请告诉我。我正在寻找一个用 Java 编写的库。
问候,
萨利尔
编辑:coderanch.com/how-to/java/AccessingFileFormats 有几个工具包列表器,但我希望能全面包装 Tika 支持的所有格式的东西。