“pdfbox”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

2766 浏览

java - 解析二进制文件时出错

在将 PDFBOX 版本升级到 1.6.0 后，我正在尝试使用 Apache Tika 解析 pdf 文件......并且我开始为几个 pdf 文件收到此错误。有什么建议么？

这是我的代码。

2011-09-20T19:13:36.300

0 投票

0 回答

1231 浏览

java - PDFBox 国际化

我一直在我的项目中使用 PDFBox 来创建包含我程序中的 som 数据的 pdf 文件。到目前为止，它一直运行良好，因为它开始添加以日语开头的新语言。

我试过这个：

这似乎是pdfbox中的编码问题。

我从我的计算机和MPlus中尝试了不同的字体，如 Unicode 字体，但没有真正到达任何地方。环顾互联网，似乎 pdfbox 可以处理不同语言的字符。

我的问题是，我应该继续这样做吗？接下来是俄语、波斯语、泰语等语言。我担心即使我会日语工作，我也会被每一种新语言所困。

在我看来，我的选择是尝试不同的图书馆，飞碟，成为热门候选人。另一种选择是使用开放式办公室 UNO 编写一个 .doc 文件，如此处所讨论的，希望能解决处理不同编码的整个难题。

Soo .. 有没有人在使用 pdfbox 并让国际化工作，或者我应该尝试不同的策略？

java internationalization pdfbox

2011-09-26T11:01:09.747

0 投票

5 回答

82360 浏览

java - 线程“主”java.lang.NoClassDefFoundError 中的异常：org/apache/commons/logging/LogFactory

我在 java 中使用 pdfbox 将 pdf 转换为图像。但是当我编译时，我得到了消息

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/logging/LogFactory.

这是我正在关注的代码。请帮助我摆脱这个错误。

java pdfbox

2011-09-26T12:38:44.753

0 投票

1 回答

4858 浏览

java - 使用 PDFBox 读取文本和图像位置（xy 坐标）

我正在做一个java程序来读取加密的PDF文件并逐页提取文件的内容，包括文件中的文本、图像及其位置（x，y坐标）。现在我为此目的使用 PDFBox，我正在获取文本和图像。但我无法获得文本位置和图像位置。阅读一些加密的 PDF 文件也存在一些问题。

java pdfbox

2011-09-28T09:47:02.927

0 投票

3 回答

21471 浏览

java - 如何使用 PDFBox drawString 插入换行符

我必须用表格制作 PDF。到目前为止它工作正常，但现在我想添加一个包装功能。所以我需要插入一个换行符。

我想\n在“插入”之前添加一个“”。我尝试了“ \u000A”，这是换行的十六进制值，但 Eclipse 显示错误。

是否可以使用drawString添加换行符？

java pdf pdf-generation pdfbox

2011-09-29T13:33:17.057

0 投票

1 回答

2907 浏览

我使用 pdfbox API 在 Java 中编写了一些代码，该 API 将 pdf 文档拆分为单独的页面，在页面中查找特定字符串，然后从页面上创建一个带有字符串的新 pdf。我的问题是保存新页面时，我的字体丢失了。我刚刚制作了一个快速的word文档来测试它，默认字体是calibri，所以当我运行程序时，我得到一个错误框，上面写着：“无法提取嵌入的字体......”所以它用其他一些默认字体替换了字体.

我已经看到了很多示例代码，这些示例代码显示了当您输入要放置在 pdf 中的文本时如何更改字体，但没有设置 pdf 的字体。

如果有人熟悉这样做的方法，（或可以找到文档/示例），我将不胜感激！

编辑：忘记包含一些示例代码

我不知道这是否有帮助，但我想我会把它包括在内。

此外，如果 pdf 用 calibri 编写并拆分，这就是变化的样子：

左：calibri，右：它变成了什么

注意：这可能不是问题，它取决于需要处理的文件中使用的字体。我尝试了除了 Calibri 之外的一些东西，效果很好。

java pdf fonts pdfbox

2011-10-03T18:24:56.383

0 投票

2 回答

2838 浏览

java - 使用pdfbox复制页面n次

我制作了一个单页 pdf 模板文件。然后我使用 pdfbox 创建一个具有“n”页数的 pdf（取决于报告大小）。我希望这些页面中的所有“n”都是模板 pdf 文件中的页面。让所有“n”页成为该页副本的最佳方法是什么？这是我当前的代码：

问题是当我有大型结果集时。我将打开 pdf，它将显示为 11 页，前 2 页看起来不错，但是当我滚动到第 3 页时，Acrobat 错误，虽然模板页面似乎在那里，但没有我的报告数据。我认为问题可能出在上面的代码上。有任何想法吗？谢谢。

java pdfbox

2011-10-19T01:31:06.360

0 投票

2 回答

4220 浏览

solr - PDFBox在单词中添加空格

当我尝试从我的 PDF 文件中提取文本时，它似乎会在几个单词之间随机插入空格。

我在本页下载部分的以下示例文件中使用 pdfbox-app-1.6.0.jar（最新版本）：http: //www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian -训练

我已经尝试过其他几个 PDF 文件，它似乎在几个页面上都在做同样的事情。

我执行以下操作：

java -jar pdfbox-app-1.6.0.jar ExtractText -force -console ~/Desktop/ped training pdf.pdf

在下载的文件上，您会在控制台的结果中看到错误插入以下空格：“• 如果孩子们能够安全地步行上学，这可能会减少拥堵。”

“• 为以后的生活养成好习惯。”

“www.sheff ield.gov.uk”

“超前思考！，这是基于”

等等等等

正如你所看到的，上面的几个单词之间有空格，我无法理解。

我在 ubuntu 上运行 Sun 的 JDK 1.6。

我已经在几个不同的 PDF 文件上尝试过这个，并尝试在论坛上搜索解决方案，有类似的错误，但似乎都已解决。

任何帮助或如果其他人有同样的问题，请发表评论。这会导致正确索引内容以进行搜索的大问题。

solr lucene pdfbox apache-tika

2011-10-31T14:06:46.350

0 投票

1 回答

3436 浏览

schema - XMP 元数据的自定义架构

我想将自定义元数据写入 XMP 标准模式不支持的 pdf 文件，因此我编写了包含自己属性的自己的模式。我可以使用 PDFBox 或 iTextPDF 库成功地将这些额外的自定义元数据写入我的 PDF 文件。但是，如果不解析 XMP xml，我无法在客户端读取自定义元数据。

我想应该有一些我不知道的 API 可以将您的自定义模式返回到您的 java 类。

如果我在思考正确的方向，或者我是否真的需要解析 xml 以将我的自定义数据返回客户端，请帮助我？

这是我使用 PDFBox 库编写的代码

自定义元数据文件。

自定义架构文件。

XML 客户端文件。

在 XMPClient 文件中，我希望通过从类名中查询 EMXSchema 对象来从结果元数据中取回 EMXSchema 对象。

但是我得到空指针异常，表明没有找到。如果我以正确的方式做事，或者我是否需要解析 XMP 以获取我的收件人值，任何人都可以帮助我。

谢谢

schema pdfbox xmp

2011-11-01T11:12:22.307

0 投票

1 回答

3027 浏览

pdfbox - LucenePDFDocument 是否从 pdfbox 中消失了？

我正在升级我的项目中的库并将 pdfbox 从 0.6.7 升级到 1.6.0 版本，但找不到 LucenePDFDocument 类。Apache 页面上的文档/教程中仍然提到了该类。有任何想法吗？

pdfbox

2011-11-01T23:03:51.293

问题标签 [pdfbox]

java - 解析二进制文件时出错

java - PDFBox 国际化

java - 线程“主”java.lang.NoClassDefFoundError 中的异常：org/apache/commons/logging/LogFactory

java - 使用 PDFBox 读取文本和图像位置（xy 坐标）

java - 如何使用 PDFBox drawString 插入换行符

java - 用 pdfbox 拆分 pdf，但丢失了字体

java - 使用pdfbox复制页面n次

solr - PDFBox在单词中添加空格

schema - XMP 元数据的自定义架构

pdfbox - LucenePDFDocument 是否从 pdfbox 中消失了？

问题标签 [pdfbox]

Reference