问题标签 [pdfbox]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
7 回答
149968 浏览

java - 如何在Java中将两个PDF文件合并为一个?

我想使用PDFBox将许多 PDF 文件合并为一个,这就是我所做的:

包含所有 PDF 文件的pdfFiles位置在哪里。ArrayList<String>

当我运行上述内容时,我总是得到:

难道我做错了什么?还有其他方法吗?

0 投票
4 回答
32084 浏览

java - Apache PDFBox Java 库 - 是否有用于创建表格的 API?

我正在使用 Apache PDFBox java 库来创建 PDF。有没有办法使用 pdfbox 创建数据表?如果没有这样的 API 可以做到这一点,我需要使用 drawLine 等手动绘制表格,关于如何解决这个问题有什么建议吗?

0 投票
7 回答
57036 浏览

pdf - 将pdf转换为svg

我想将 PDF 转换为 SVG,请建议一些能够有效执行此操作的库/可执行文件。我已经使用 apache PDFBox 和 Batik 库编写了自己的 java 程序 -

该解决方案效果很好,但生成的 svg 文件的大小很大。(比 pdf 大很多倍)。我通过在文本编辑器中查看 svg 找出了问题所在。即使字符的字体属性相同,它将原始文档中的每个字符都包含在自己的块中。例如,单词 hello 将显示为 6 个不同的文本块。有没有办法修复上面的代码?或者请建议另一种更有效的解决方案。

0 投票
1 回答
759 浏览

.net - PDFBOX.net PDDocument 对象成数据库/序列化

我希望有人能对此有所了解。看来我需要使用 [SERIALIZE] 选项重新编译 PDFBOX。但我不知道该怎么做。

我想要做的是将 PDDocument 文档对象存储在数据库中。

错误:在程序集“PDFBox,Version=0.0.0.0,Culture=neutral,PublicKeyToken=null”中键入“org.apache.pdfbox.pdmodel.PDDocument”未标记为可序列化。

谢谢你,加文

0 投票
1 回答
587 浏览

c# - 如何在 ASP.net 中读取 PDF 文件中的空单元格

我可以在我的 ASP.net 应用程序中使用 PDFBOX 读取 pdf 文件,但它没有为表格中的空单元格添加空间,因此如何在 C# 中使用 PDFBOX 从 pdf 文件中读取空字段。有没有其他方法可以读取pdf文件。

谢谢 。

0 投票
1 回答
2286 浏览

java - 使用 PDPageContentStream.drawLine 的 pdfbox 错误

我正在使用 PDFBox 从我的用户输入的表单之一生成 pdf。对于绘制一条线,我使用 PDPageContentStream.drawLine 和文本 PDPageContentStream.drawString。文本完美无缺,但在使用 drawLine 时,当我尝试打印 pdf 时,出现错误,如附图所示。我的代码看起来像这样

任何帮助表示赞赏替代文字

0 投票
3 回答
38034 浏览

java - PDFBox:将 pdf 页面转换为图像时出现问题

我的任务很简单:将 pdf 文件的每一页都转换为图像。我尝试使用 icepdf 开源版本生成图像,但它们没有生成具有正确字体的图像。所以我开始改用 PDFBox。代码如下:

字体看起来不错,但 pdf 文件中的图片看起来很模糊(见附件)。我查看了源代码,但我仍然不知道如何修复它。你们知道发生了什么吗?请帮忙。谢谢!!

0 投票
3 回答
7762 浏览

java - 用 PDFBox 画透明线

我想在 PDFBox 中用透明线绘制线条和多边形。这是我如何绘制蓝线的一些示例代码,但我无法弄清楚如何更改颜色的 alpha 值。

0 投票
2 回答
3413 浏览

pdf - 在 PDFBox 文本提取中保留“长”空格

我正在使用 PDFBox 从 PDF 中提取文本。PDF具有表格结构,非常简单,并且列之间的间距也很宽

这非常有效,除了所有类型的水平空间都被转换为单个空格字符,因此我无法再将列分开(列中单词中的空格看起来就像列之间的空格)。

我很欣赏通用解决方案非常困难,但在这种情况下,列之间的距离真的很远,因此在“长空格”和“单词之间的空格”之间进行简单区分就足够了。

有没有办法告诉 PDFBox 将超过 x 英寸的水平空白变成单个空格以外的东西?比例方法(x 英寸变为 y 空间)也可以。

pdftotext C 库/工具有一个“-layout”开关,试图保留布局。基本上,如果我可以用 PDFBox 模拟它,那将是完美的。

0 投票
1 回答
171 浏览

java - 如何将 PDF 转换为 HTMLConversion

我想以最有效的方式将 PDF 转换为 HTML。

输入将是 base 64 格式的 pdf,输出应为 html。任何好的开源也可以

任何人都可以帮助我吗?