问题标签 [hwpf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 如何使用 Apache HWPF 从 DOC 文件中提取文本和图像
我下载了Apache HWPF。我想用它来读取 doc 文件并将其文本写入纯文本文件。我不太了解HWPF。
我非常简单的程序在这里:
我现在有3个问题:
一些包有错误(他们找不到 apache hdf)。我该如何修复它们?
如何使用 HWDF 的方法来查找和提取图像?
我的程序的某些部分不完整且不正确。所以请帮我完成它。
我必须在 2 天内完成这个程序。
我再次重复请帮助我完成这个。
非常感谢你们的帮助!!!
这是我的基本代码:
java - Java:使用 POI/HWPF 解析 ms-word 文档
我有一个 ms-word 文档(MS-Office 2003;非 xml)。在此文档中有一个与书签关联的字符串。此外,word文档包含word-macros。我的目标是用java读取文档,替换与书签关联的字符串,并将文档保存回word格式。
我的第一种方法是使用 Apache POI HWPF:
这个解决方案的问题是生成的文件不再包含宏(原始文档的文件大小:32k;生成的文档的文件大小为19k)。
如果可以使用 POI/HWPF 保留所有原始信息,现在有人吗?
java - Java MS Word 库
我有文档,我想将 {name}、{address} 等所有模板参数更改为我自己的值。我尝试使用 POI HWPF 库,但保存后我丢失了文档格式。即使我用 POI 打开我的 MS Word 文档并保存(没有任何更改)文档格式也会丢失:) 格式设置意味着居中、字体大小等(没有任何表格或图片 - 只是“纯文本”)。
我可以在这种情况下使用什么库?也许有人对 MS Word 文档和 java 有经验。要求:开源,不使用任何 Windows COM 组件(多平台),不是 OOXML - Microsoft Word XP 2003。
有类似的问题(关于保存后截断文档) Java: parsing ms-word document using POI/HWPF
java - Apache POI HWPF 嵌套列表?
我使用以下代码使用 hwpf 从 word 文件中读取列表结构。我的问题是如何读取嵌套的列表结构,即列表中的列表中的列表等等。
java - Apache POI HWPF - 将 doc 文件转换为 pdf 的问题
我目前正在使用 apache poi 处理 Java 项目。现在在我的项目中,我想将 doc 文件转换为 pdf 文件。转换成功完成,但我只得到 pdf 格式的文本,而不是任何文本样式或文本颜色。我的 pdf 文件看起来像黑白的。虽然我的 doc 文件是彩色的并且具有不同的文本样式。
这是我的代码,
请帮我。
提前谢谢。
java - org.apache.poi.hwpf.usermodel.Paragraph 的 getTableLevel() 方法
我正在尝试修改使用apache POI将 MS word 文档转换为文本的现有代码。我是这个 Apache POI API 的新手。org.apache.poi.hwpf.usermodel.Paragraph类的 GetTableLevel()方法返回一些整数值。
对于某些表,此方法返回值 1,而对于某些其他表,它返回 0。我无法理解这种行为。
我在这里查看了这个 API 的 JavaDoc,但是没有关于这个方法的返回值的描述。
谁能告诉我这个方法的可能返回值是什么?
这是调用 GetTableLevel() 方法的代码片段:
请赐教!!!
apache-poi - 如何使用 apache poi 创建 HWPF 文档
请有人帮助我将文本放入段落中。我有这个代码:
但问题是,如果我将“from”字符串直接放入范围,它将在结果文档中,但如果我创建一个段落并将其放入其中,则文档为空。即使我用 apache tika 及其 WordExtractor 处理它,它也一无所获。
顺便说一句 /poi/template.doc 是空文档。
如果我这样做:
并且 from 是“whatever”,然后在文档中有“w”(初始)字符的开头......这到底是什么?
hyperlink - 提取 Apache POI HWPF 超链接
HYPERLINK“目标”标签
如何从 HWPF 文档中提取超链接?我可以从 doc 文件中获取段落并在必要时提取正确的样式,即粗体、斜体等。但是我将如何识别和提取段落中的超链接?
java - Apache Poi - 如何从 Word 文档中删除所有链接
我想删除 Word 文档的所有超链接并保留文本。我有这两种方法来阅读带有 doc 和 docx 扩展名的 word 文档。
是否可以使用 apache poi 库删除 word 文档的所有链接?如果不是,是否有任何其他库可以提供此功能?