“pdfbox”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

314 浏览

eclipse - Maven2 Eclipse 插件

我刚刚向项目添加了依赖项，以便我的 jar，特别是 pdfbox 1.6，可以看到其他 jar。右键单击 Maven 提供的项目功能添加我的依赖项后，我如何确保依赖项工作，并且我所做的事情是正确的？我查看了一个已创建的 pom.xml 文件，那么目标文件夹和 classes、test-classes 子文件夹是做什么用的？谢谢

2011-11-03T14:41:40.130

0 投票

1 回答

1596 浏览

solr - Solr ExtractingRequestHandler pdf文本提取

我对 Solr 的 pdf 文本提取有疑问。Solr 使用 Apache Tika 来提取 PDF 文件的文本，而 tika 使用 PDFBox 来提取文本。当我将我的 PDF 文件发送到 Solr 时，它会成功提取文本，但文本完全混乱。类似的东西

MonaPersNr.KSt.KUZKapaz.Sollstd.MonatJahrtsbericht

但是，当我使用以下命令在命令行中直接使用 PDFBox 提取相同的 PDF 文件时，我会得到一个不错的结果。

java -jar pdfbox-app-1.6.0.jar ExtractText -console test.pdf

我不知道 solr 使用哪个 Tika 版本或更好的 PDFBox 版本。我什至在 solr 战争文件中找不到该库... lib 目录中的所有库如下：

如果有人知道解决方案，我会非常高兴。

solr pdfbox apache-tika solr-cell

2011-11-07T20:28:06.243

0 投票

1 回答

1536 浏览

embedded-fonts - 如何使用 PDFBOX0.8.0 获取 pdf 嵌入字体

我的代码：

我得到了输出：

字体={F0=org.apache.pdfbox.pdmodel.font.PDType1Font@8aaed5,
F4=org.apache.pdfbox.pdmodel.font.PDType0Font@dc4414, F2=org.apache.pdfbox.pdmodel.font.PDType0Font@f98ce0 , F6=org.apache.pdfbox.pdmodel.font.PDTrueTypeFont@18fcdce}

为什么字体映射的键是 F0/F1/F2/F6？这些是什么意思？我应该迭代所有 pdf 页面获取所有字体吗？

感谢您的回答。

embedded-fonts pdfbox

2011-11-11T15:44:29.770

0 投票

1 回答

2284 浏览

java - 从 html 转换为 pdf 和图像 java

好吧，我确实阅读了关于这个主题的几乎所有问题！

我需要一个 API - 而不是将高质量从 PDF 转换为图像的工具。

所以我没有找到任何直接的工具，我使用了：HTML to PDF and PDF to image。

我试过了：

PDF渲染器
FDFBOX
PDFONE
HTML2图像
飞酱
文本
杰佩达
PDF皇冠

只有商业的（PDFCrown 和 PDFBox）取得了良好的效果。

我认为Java是用于开源项目的！

我是否缺少任何从 HTML 打印出高质量图像的库（也可以来自 PDF，我可以支付一半的费用..）

java itext pdfbox flying-saucer pdfrenderer

2011-11-13T12:04:05.317

0 投票

2 回答

3310 浏览

pdf - 使用 PDFBox 将文本写入 ploygon

我发现了如何使用 drawText 将文本写入页面，并且多边形使用 drawPolygon 出现在正确的位置。

问题是，当我只绘制文本时它可以工作，但是一旦我绘制多边形，文本就不再绘制了。

如果我创建两个 PDPageContentStream 对象（一个用于文本，另一个用于多边形），则不再绘制多边形。

这是我的测试课。任何 PDF 都应该用于测试。

谢谢您的帮助

pdf pdfbox

2011-11-14T23:02:18.130

0 投票

1 回答

158 浏览

java - 在使用 PDFBox 处理 PDF 文档的外部 jar 时，获得 NoClassDefFound 异常

我正在为我的项目使用 Eclipse IDE，我已将“pdfbox-1.6.0.jar”添加到项目的外部 jar 中。当我编写代码导入这个 jar 文件的 API 时，Eclipse 没有显示任何异常。但是如果我运行我的程序，它会显示“NoClassDefFound”异常。有人可以帮我解决这个问题吗...？

java pdfbox

2011-11-15T06:46:37.630

0 投票

3 回答

5376 浏览

solr - 用于在 Solr 中解析 PDF 的 Tika/PDFBox 替代方案（任何高于 1.4 的版本）

似乎 Solr 没有正确解析我的 PDF 文件。我想知道使用 Apache Tika（我相信它在内部使用 PDFBox）来解析 PDF 文件是否还有其他选择？使用它时，我的内容之间似乎出现了随机空格。我已经通过直接通过 PDFBox 运行 PDF（最新版本）来隔离问题，这有同样的问题。

一些 OCR 商业软件（例如 Omnifind）在 PDF 上运行良好，但我们无法以相同的方式将它们与 Solr 集成，购买也不是一种选择。

solr full-text-indexing pdfbox apache-tika document-conversion

2011-11-16T09:14:59.400

0 投票

1 回答

2260 浏览

parsing - 使用 Apache Lucene 解析大型 PDF 文件

我正在尝试找出搜索/解析一组大型 pdf 文件的最佳方法。我目前正在使用 PDFBox 将我的 PDF 文件转换为文本文件。然后我使用 Lucene 来索引这些文本文件并搜索信息。使用这种方法我面临一些问题。（请注意，我在非常基本的层面上使用这两种技术只是为了看看它们能做什么）。

考虑我的 PDF 文件中的以下行，它给出了所有列的总计。每列包含一对值，其总计显示如下。

当我使用 PDFBox 中的 TextStripper 将我的 pdf 文件转换为文本文件时，pdf 文件中的上述行将转换为文本文件中的以下文本。

从上面的文本文件可以看出，数据分散在 Grand Total 标签周围。因此，由于 PDF 文件的缩进没有保存在文本文件中，因此难以检索总计信息。

因此，我想知道是否有办法将 PDF 文件转换为文本文件，以便文本文件保持 PDF 文件的缩进/格式。我还想知道 Lucene 是否是实现我的目标的好主意，或者是否有更简单快捷的方法从一组大型 PDF 文件中检索信息？

parsing pdf lucene pdfbox

2011-11-17T05:33:16.233

0 投票

0 回答

195 浏览

java - 使用PDFBox在Java中提取pdf中文本的字体颜色

可能重复：
使用 PDFBox 获取文本颜色

我刚刚开始使用 PDFBox，提取文本等。我感兴趣的一件事是文本的颜色。然而，似乎没有办法获得这些信息。

是否有可能使用 PDFBox 来获取文档的颜色信息，如果可以，我将如何去做？

java pdfbox

2011-11-23T12:30:04.457

0 投票

1 回答

574 浏览

java - 如何从 PDF 中删除表单元素

我正在寻找一种方法将我们的客户将上传到我们的 Java 后端服务器的 PDF 文档转换为“更简单”的表单，以便以后可以在 iPad 应用程序中正确呈现它们。我不是 PDF 专家，但据我所知，我需要删除交互式表单元素和/或将 PDF 转换为 PDF-X 版本。

我查看了 iText 的“setPDFXConformance(PdfWriter.PDFXNONE)”，但它没有做太多。我想用 PDFBox 来做，因为它是友好的许可证，但我会接受任何建议。

java pdf itext pdfbox

2011-12-12T11:09:09.830

问题标签 [pdfbox]

Reference