问题标签 [pdfbox]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
eclipse - Maven2 Eclipse 插件
我刚刚向项目添加了依赖项,以便我的 jar,特别是 pdfbox 1.6,可以看到其他 jar。右键单击 Maven 提供的项目功能添加我的依赖项后,我如何确保依赖项工作,并且我所做的事情是正确的?我查看了一个已创建的 pom.xml 文件,那么目标文件夹和 classes、test-classes 子文件夹是做什么用的?谢谢
solr - Solr ExtractingRequestHandler pdf文本提取
我对 Solr 的 pdf 文本提取有疑问。Solr 使用 Apache Tika 来提取 PDF 文件的文本,而 tika 使用 PDFBox 来提取文本。当我将我的 PDF 文件发送到 Solr 时,它会成功提取文本,但文本完全混乱。类似的东西
MonaPersNr.KSt.KUZKapaz.Sollstd.MonatJahrtsbericht
但是,当我使用以下命令在命令行中直接使用 PDFBox 提取相同的 PDF 文件时,我会得到一个不错的结果。
java -jar pdfbox-app-1.6.0.jar ExtractText -console test.pdf
我不知道 solr 使用哪个 Tika 版本或更好的 PDFBox 版本。我什至在 solr 战争文件中找不到该库... lib 目录中的所有库如下:
如果有人知道解决方案,我会非常高兴。
embedded-fonts - 如何使用 PDFBOX0.8.0 获取 pdf 嵌入字体
我的代码:
我得到了输出:
字体={F0=org.apache.pdfbox.pdmodel.font.PDType1Font@8aaed5,
F4=org.apache.pdfbox.pdmodel.font.PDType0Font@dc4414, F2=org.apache.pdfbox.pdmodel.font.PDType0Font@f98ce0 , F6=org.apache.pdfbox.pdmodel.font.PDTrueTypeFont@18fcdce}
为什么字体映射的键是 F0/F1/F2/F6?这些是什么意思?我应该迭代所有 pdf 页面获取所有字体吗?
感谢您的回答。
java - 从 html 转换为 pdf 和图像 java
好吧,我确实阅读了关于这个主题的几乎所有问题!
我需要一个 API - 而不是将高质量从 PDF 转换为图像的工具。
所以我没有找到任何直接的工具,我使用了:HTML to PDF and PDF to image。
我试过了:
- PDF渲染器
- FDFBOX
- PDFONE
- HTML2图像
- 飞酱
- 文本
- 杰佩达
- PDF皇冠
只有商业的(PDFCrown 和 PDFBox)取得了良好的效果。
我认为Java是用于开源项目的!
我是否缺少任何从 HTML 打印出高质量图像的库(也可以来自 PDF,我可以支付一半的费用..)
pdf - 使用 PDFBox 将文本写入 ploygon
我发现了如何使用 drawText 将文本写入页面,并且多边形使用 drawPolygon 出现在正确的位置。
问题是,当我只绘制文本时它可以工作,但是一旦我绘制多边形,文本就不再绘制了。
如果我创建两个 PDPageContentStream 对象(一个用于文本,另一个用于多边形),则不再绘制多边形。
这是我的测试课。任何 PDF 都应该用于测试。
谢谢您的帮助
java - 在使用 PDFBox 处理 PDF 文档的外部 jar 时,获得 NoClassDefFound 异常
我正在为我的项目使用 Eclipse IDE,我已将“pdfbox-1.6.0.jar”添加到项目的外部 jar 中。当我编写代码导入这个 jar 文件的 API 时,Eclipse 没有显示任何异常。但是如果我运行我的程序,它会显示“NoClassDefFound”异常。有人可以帮我解决这个问题吗...?
solr - 用于在 Solr 中解析 PDF 的 Tika/PDFBox 替代方案(任何高于 1.4 的版本)
似乎 Solr 没有正确解析我的 PDF 文件。我想知道使用 Apache Tika(我相信它在内部使用 PDFBox)来解析 PDF 文件是否还有其他选择?使用它时,我的内容之间似乎出现了随机空格。我已经通过直接通过 PDFBox 运行 PDF(最新版本)来隔离问题,这有同样的问题。
一些 OCR 商业软件(例如 Omnifind)在 PDF 上运行良好,但我们无法以相同的方式将它们与 Solr 集成,购买也不是一种选择。
parsing - 使用 Apache Lucene 解析大型 PDF 文件
我正在尝试找出搜索/解析一组大型 pdf 文件的最佳方法。我目前正在使用 PDFBox 将我的 PDF 文件转换为文本文件。然后我使用 Lucene 来索引这些文本文件并搜索信息。使用这种方法我面临一些问题。(请注意,我在非常基本的层面上使用这两种技术只是为了看看它们能做什么)。
考虑我的 PDF 文件中的以下行,它给出了所有列的总计。每列包含一对值,其总计显示如下。
当我使用 PDFBox 中的 TextStripper 将我的 pdf 文件转换为文本文件时,pdf 文件中的上述行将转换为文本文件中的以下文本。
从上面的文本文件可以看出,数据分散在 Grand Total 标签周围。因此,由于 PDF 文件的缩进没有保存在文本文件中,因此难以检索总计信息。
因此,我想知道是否有办法将 PDF 文件转换为文本文件,以便文本文件保持 PDF 文件的缩进/格式。我还想知道 Lucene 是否是实现我的目标的好主意,或者是否有更简单快捷的方法从一组大型 PDF 文件中检索信息?
java - 使用PDFBox在Java中提取pdf中文本的字体颜色
可能重复:
使用 PDFBox 获取文本颜色
我刚刚开始使用 PDFBox,提取文本等。我感兴趣的一件事是文本的颜色。然而,似乎没有办法获得这些信息。
是否有可能使用 PDFBox 来获取文档的颜色信息,如果可以,我将如何去做?
java - 如何从 PDF 中删除表单元素
我正在寻找一种方法将我们的客户将上传到我们的 Java 后端服务器的 PDF 文档转换为“更简单”的表单,以便以后可以在 iPad 应用程序中正确呈现它们。我不是 PDF 专家,但据我所知,我需要删除交互式表单元素和/或将 PDF 转换为 PDF-X 版本。
我查看了 iText 的“setPDFXConformance(PdfWriter.PDFXNONE)”,但它没有做太多。我想用 PDFBox 来做,因为它是友好的许可证,但我会接受任何建议。