2

我最近遇到了Apache Tika,这是一个漂亮的工具包,它处理多种类型的文件以提取文本(以及一些其他信息,例如元数据)。

我面临的问题是,给定一个文档(某些格式,如 PDF、DOC、XLS 等),我需要提取文本,修改其中的一些,然后以原始格式重新构建文档(与修改后的文本)。据我所知,Tika 提供了提取文本的功能,但不会“缝合”修改后的文档。

我觉得有一些库可以针对特定的文件类型执行此操作,但我不知道有任何类似于 Tika 的工具包,它通过处理 Tika 支持的所有文件类型为我提供了端到端的解决方案。我也不确定 Tika 本身是否可以为我做到这一点。

如果有人知道这种情况,请告诉我。我正在寻找一个用 Java 编写的库。

问候,

萨利尔

编辑:coderanch.com/how-to/java/AccessingFileFormats 有几个工具包列表器,但我希望能全面包装 Tika 支持的所有格式的东西。

4

2 回答 2

2
  • 阿帕奇 POI

Apache POI 是您的 Java Excel 解决方案(适用于 Excel 97-2008)。我们有完整的 API 用于移植其他 OOXML 和 OLE2 格式,欢迎其他人参与。

OLE2 文件包括大多数 Microsoft Office 文件,例如 XLS、DOC 和 PPT 以及基于 MFC 序列化 API 的文件格式。该项目为 OLE2 文件系统 (POIFS) 和 OLE2 文档属性 (HPSF) 提供 API。

Office OpenXML 格式是 Microsoft Office 2007 和 2008 中基于新标准的 XML 文件格式。这包括 XLSX、DOCX 和 PPTX。

  • 日食Birt

    问:BIRT 支持哪些报表输出格式?

2.1 版支持 HTML、分页 HTML 和 PDF。2.2 版支持 HTML、分页 HTML、PDF、WORD、XLS 和 PostScript

于 2013-03-28T20:10:56.550 回答
0

似乎没有比这里提到的更好的工具包了。唯一的出路是为这些工具包中的一个或多个编写自己的包装器来完成工作。如果 Tika 自己提供该设施,那就太好了,但不幸的是,情况似乎并非如此。

于 2013-03-31T06:55:26.980 回答