1

我想将 HTML 页面转换为 MS Word。我想知道哪些 API 会有所帮助,以及是否有任何其他选项可以做到这一点。将整个页面转换为.doc(例如,如果html页面中有表格,则必须在word doc中创建类似的表格)。Apache POI 不提供将 word 文档格式设置为 HTML 页面中的选项。我需要一些可以给我一个完全格式化的word文档的东西。

我寻求的一些东西是JSOUP, docx4j,jasper reportsJOD Convertor.

我尝试使用 JSOUP 解析 HTML 页面,并在我的 java 程序中获取页面的内容。现在我需要将这些内容传递给 doc/docx 文件。docx4j 可以帮助获取格式化的 docx 文件吗?

请帮忙。谢谢你。

4

2 回答 2

1

我会同意 Ashwini Raman 的建议。它不适用于每种情况。在包含许多图像和填充词的复杂 HTML 文档的情况下,它不会做得很好。但在大多数情况下,它应该没问题。否则,您将面临一项复杂的任务。例如,您必须使用 jsoup 库解析您的 HTML 文档,然后使用 docx4j 库来创建您的工作文档。两者的链接都在这里:

http://www.docx4java.org/trac/docx4j

http://jsoup.org/

当您也这样做时,格式可能会不确定。

要回答您最初的问题,没有现成的库可以满足您的期望。至少我还没有遇到过。

于 2012-03-05T12:42:43.807 回答
-3

我找到了一种方法来做同样的事情。首先,我需要使用 JSOUP 获取解析的对象并将它们传递给文档模板。我现在正在寻找可以为我提供创建简单模板和动态创建文档的选项。我已经问过另一个同样的问题

于 2012-03-14T07:01:32.130 回答