问题标签 [hwpf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
6609 浏览

java - 如何使用 Apache HWPF 从 DOC 文件中提取文本和图像

我下载了Apache HWPF。我想用它来读取 doc 文件并将其文本写入纯文本文件。我不太了解HWPF。

我非常简单的程序在这里:

我现在有3个问题:

  1. 一些包有错误(他们找不到 apache hdf)。我该如何修复它们?

  2. 如何使用 HWDF 的方法来查找和提取图像?

  3. 我的程序的某些部分不完整且不正确。所以请帮我完成它。

我必须在 2 天内完成这个程序。

我再次重复请帮助我完成这个。

非常感谢你们的帮助!!!

这是我的基本代码:

0 投票
1 回答
5071 浏览

java - Java:使用 POI/HWPF 解析 ms-word 文档

我有一个 ms-word 文档(MS-Office 2003;非 xml)。在此文档中有一个与书签关联的字符串。此外,word文档包含word-macros。我的目标是用java读取文档,替换与书签关联的字符串,并将文档保存回word格式。

我的第一种方法是使用 Apache POI HWPF:

这个解决方案的问题是生成的文件不再包含宏(原始文档的文件大小:32k;生成的文档的文件大小为19k)。

如果可以使用 POI/HWPF 保留所有原始信息,现在有人吗?

0 投票
1 回答
1164 浏览

java - Java MS Word 库

我有文档,我想将 {name}、{address} 等所有模板参数更改为我自己的值。我尝试使用 POI HWPF 库,但保存后我丢失了文档格式。即使我用 POI 打开我的 MS Word 文档并保存(没有任何更改)文档格式也会丢失:) 格式设置意味着居中、字体大小等(没有任何表格或图片 - 只是“纯文本”)。

我可以在这种情况下使用什么库?也许有人对 MS Word 文档和 java 有经验。要求:开源,不使用任何 Windows COM 组件(多平台),不是 OOXML - Microsoft Word XP 2003。

有类似的问题(关于保存后截断文档) Java: parsing ms-word document using POI/HWPF

0 投票
2 回答
902 浏览

java - Apache POI HWPF 嵌套列表?

我使用以下代码使用 hwpf 从 word 文件中读取列表结构。我的问题是如何读取嵌套的列表结构,即列表中的列表中的列表等等。

0 投票
2 回答
7746 浏览

java - Apache POI HWPF - 将 doc 文件转换为 pdf 的问题

我目前正在使用 apache poi 处理 Java 项目。现在在我的项目中,我想将 doc 文件转换为 pdf 文件。转换成功完成,但我只得到 pdf 格式的文本,而不是任何文本样式或文本颜色。我的 pdf 文件看起来像黑白的。虽然我的 doc 文件是彩色的并且具有不同的文本样式。

这是我的代码,

请帮我。

提前谢谢。

0 投票
2 回答
521 浏览

java - org.apache.poi.hwpf.usermodel.Paragraph 的 getTableLevel() 方法

我正在尝试修改使用apache POI将 MS word 文档转换为文本的现有代码。我是这个 Apache POI API 的新手。org.apache.poi.hwpf.usermodel.Paragraph类的 GetTableLevel()方法返回一些整数值。

对于某些表,此方法返回值 1,而对于某些其他表,它返回 0。我无法理解这种行为。

我在这里查看了这个 API 的 JavaDoc,但是没有关于这个方法的返回值的描述。

谁能告诉我这个方法的可能返回值是什么?

这是调用 GetTableLevel() 方法的代码片段:

请赐教!!!

0 投票
1 回答
3031 浏览

apache-poi - 如何使用 apache poi 创建 HWPF 文档

请有人帮助我将文本放入段落中。我有这个代码:

但问题是,如果我将“from”字符串直接放入范围,它将在结果文档中,但如果我创建一个段落并将其放入其中,则文档为空。即使我用 apache tika 及其 WordExtractor 处理它,它也一无所获。

顺便说一句 /poi/template.doc 是空文档。

如果我这样做:

并且 from 是“whatever”,然后在文档中有“w”(初始)字符的开头......这到底是什么?

0 投票
1 回答
1260 浏览

hyperlink - 提取 Apache POI HWPF 超链接

HYPERLINK“目标”标签

如何从 HWPF 文档中提取超链接?我可以从 doc 文件中获取段落并在必要时提取正确的样式,即粗体、斜体等。但是我将如何识别和提取段落中的超链接?

0 投票
1 回答
2178 浏览

java - Apache Poi - 如何从 Word 文档中删除所有链接

我想删除 Word 文档的所有超链接并保留文本。我有这两种方法来阅读带有 doc 和 docx 扩展名的 word 文档。

是否可以使用 apache poi 库删除 word 文档的所有链接?如果不是,是否有任何其他库可以提供此功能?

0 投票
1 回答
5177 浏览

java - Apache POI jar 没有 hwpf 包

我已经从这个链接的第一个镜像链接下载了 poi api jar 文件,这是建议的。

下载后,我看到那里不存在org.apache.poi.hwpf包。实际上我的工作完全依赖于那个 API。所以任何人都可以告诉我下载hwpf API的正确链接。

实际上,我的工作是读取带有一些文本和一些表格的 MS Word 文件,然后编辑表格行的值。如果任何其他 API 也适用于此类工作,请建议我提供下载链接。