问题标签 [pdfbox]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
11213 浏览

java - Java PDFBOX 文本编码

我尝试将一些数据从我的 Java 应用程序导出到 pdf 文件。我决定使用 pdfBox 库,但我意识到我无法将希腊字符正确显示到 pdf 文件中。有没有办法设置编码?到 utf8 还是 iso-8859-7?我尝试了 PdFontEncoding 或 Encoding 之类的方法,但我什么也没得到。

感谢您的时间。

0 投票
1 回答
1168 浏览

pdf - 从pdf中提取段落

我正在对 pdf 电子书进行主题建模,需要逐段提取文本。为此,我使用 apache pdfBox,它可以有效地从 pdf 中提取文本。

但我不能单独提取段落。此工具提供了一种设置段落开始/结束标识符的方法,但我需要知道为此的段落分隔符标识符。

有没有办法做到这一点,或者是否有其他可用的工具可以有效地进行段落提取?

0 投票
1 回答
21818 浏览

java - 使用 PDFBox 将 UTF-8 编码的字符串写入 PDF

我无法使用 PDFBox 将 unicode 字符写入 PDF。这是一些生成垃圾字符而不是输出“š”的示例代码。我可以添加什么来获得对 UTF-8 字符串的支持?

0 投票
1 回答
1286 浏览

apache - apache pdfbox java.lang.IndexOutOfBoundsException 的问题:索引:2,大小:2

我使用 apache pdfbox 1.5 从 pdf 中提取文本。这是正在使用的代码。这似乎适用于某些 pdf。但它失败了一个 pdf 并出现以下错误。让我知道是否有人遇到过此类问题并已解决

java.lang.IndexOutOfBoundsException: Index: 2,Size: 2 at java.util.SubList.rangeCheck(AbstractList.java:864) at java.util.SubList.get(AbstractList.java:737) at org.apache.fontbox.cff.CharStringConverter.drawCurve(CharStringConverter.java:415) at org.apache.fontbox.cff.CharStringConverter.handleType2Command(CharStringConverter.java:277) at org.apache.fontbox.cff.CharStringConverter.handleCommand(CharStringConverter.java:81) at org.apache.fontbox.cff.CharStringHandler.handleSequence(CharStringHandler.java:53) at org.apache.fontbox.cff.CharStringConverter.handleType2Command(CharStringConverter.java:307) at org.apache.fontbox.cff.CharStringConverter.handleCommand(CharStringConverter.java:81) at org.apache.fontbox.cff.CharStringHandler.handleSequence(CharStringHandler.java:53) at org.apache.fontbox.cff.CharStringConverter.convert(CharStringConverter.java:64) at org.apache.fontbox.cff.CFFFont$Mapping.toType1Sequence(CFFFont.java:374) at org.apache.fontbox.cff.AFMFormatter.renderFont(AFMFormatter.java:126) at org.apache.fontbox.cff.AFMFormatter.printFontMetrics(AFMFormatter.java:64) at org.apache.fontbox.cff.AFMFormatter.printFont(AFMFormatter.java:57) at org.apache.fontbox.cff.AFMFormatter.format(AFMFormatter.java:50)

0 投票
1 回答
6084 浏览

java - 用于 PDF 到图像转换的开源库

可能重复:
将 PDF 页面导出为 Java 中的一系列图像

请推荐一些可用于 PDF 文件到图像转换的好的 java 库。我尝试使用 PDFBox:http://pdfbox.apache.org/但在转换为图像后,我的 pdf 文件中的大部分文本在图像中都出现了乱码。它将“T”读作“Y”,将“C”读作“#”,依此类推。

以下是我用于相同的代码片段:

我想这是他们在渲染字体方面遇到的一些问题。如果您认为我在使用 PDFBox 时可能遗漏了什么,请告诉我。

请同时提出任何其他替代方案。

我尝试过使用 jPedal:http ://www.jpedal.org/效果很好,但它不是免费的,所以请就所有好的替代方案提出建议。

0 投票
2 回答
7587 浏览

java - 使用 pdfBox 从 PDF 中提取的图像的 DPI

我正在使用 java pdfBox 库来验证带有嵌入图像的单页 pdf 文件。

我知道 pdf 文件本身不包含 DPI 信息。

然而,文档中具有相同尺寸的图像在提取后具有不同的像素大小,并且没有 dpi 元信息。

那么是否有可能以某种方式计算相对于 pdf 页面的图像大小或使用 pdfBox 提取图像及其 dpi 信息(对于 png 或 jpeg 图像文件)?

谢谢!

0 投票
1 回答
4142 浏览

java - PDFBox 图像元数据

对于一个学校项目,我正在为 PDF 开发图像提取器,为此我正在使用 PDFBox 库。我现在面临的问题是获取元数据,到目前为止,我只设法从 PDF 本身而不是从 PDF 中的图像获取元数据。

是否可以使用 PDFBox 从 PDF 中的所有图像中获取元数据?如果是这样,有人可以给我举个例子吗?到目前为止,我发现的所有示例都是针对 PDF 本身的元数据,而不是针对图像。

我还听说创建 PDF 时,它会从其中的对象中删除任何元数据,这是真的吗?

希望stackoverflow上的人可以帮助我。

0 投票
2 回答
7032 浏览

truetype - PDFBox PDTrueTypeFont bad /widths bug 的解决方法?

我正在使用 Java 中的 Apache PDFBox 库生成 pdf。我在 pdf 中嵌入了一种字体,但是每当我打开 pdf 时,我都会收到一条错误消息:

“字体 font_name 包含错误的 /Widths”

无论嵌入的字体是什么,都会发生此错误,但是在您对该错误单击“确定”后,字体和 pdf 仍然正确显示。但是,对于生产代码,即使正确呈现 pdf,在生成的每个 pdf 上都弹出此警告是不可接受的。

有没有解决方法,这样我就可以避免弹出错误?

供参考的是相关的错误(这是在版本 1.4 中,我想继续使用而不是回到 1.3)

这是用于嵌入字体的代码:

0 投票
5 回答
12763 浏览

java - 如何从 PDF 中提取图像及其元数据?

是否可以使用 Java 从 PDF 文件中提取图像并将其导出到特定文件夹而不会丢失其原始创建和修改日期?我试图通过使用 IText 和 PDFBox 来实现这个目标,但没有成功。欢迎任何想法或示例。

0 投票
3 回答
2275 浏览

android - Android 上的 PDFBox

我正在尝试阅读 PDF 并使用 PDFbox 在 Android 上显示内容。我只能阅读 PDF 并在 Android webview 中显示它。谁能告诉我如何以另一种方式显示 PDF?或者 PDFBox 与 Android 不兼容?