问题标签 [pdfbox]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 解析二进制文件时出错
在将 PDFBOX 版本升级到 1.6.0 后,我正在尝试使用 Apache Tika 解析 pdf 文件......并且我开始为几个 pdf 文件收到此错误。有什么建议么?
这是我的代码。
java - PDFBox 国际化
我一直在我的项目中使用 PDFBox 来创建包含我程序中的 som 数据的 pdf 文件。到目前为止,它一直运行良好,因为它开始添加以日语开头的新语言。
我试过这个:
这似乎是pdfbox中的编码问题。
我从我的计算机和MPlus中尝试了不同的字体,如 Unicode 字体,但没有真正到达任何地方。环顾互联网,似乎 pdfbox 可以处理不同语言的字符。
我的问题是,我应该继续这样做吗?接下来是俄语、波斯语、泰语等语言。我担心即使我会日语工作,我也会被每一种新语言所困。
在我看来,我的选择是尝试不同的图书馆,飞碟,成为热门候选人。另一种选择是使用开放式办公室 UNO 编写一个 .doc 文件,如此处所讨论的,希望能解决处理不同编码的整个难题。
Soo .. 有没有人在使用 pdfbox 并让国际化工作,或者我应该尝试不同的策略?
java - 线程“主”java.lang.NoClassDefFoundError 中的异常:org/apache/commons/logging/LogFactory
我在 java 中使用 pdfbox 将 pdf 转换为图像。但是当我编译时,我得到了消息
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/logging/LogFactory
.
这是我正在关注的代码。请帮助我摆脱这个错误。
java - 使用 PDFBox 读取文本和图像位置(xy 坐标)
我正在做一个java程序来读取加密的PDF文件并逐页提取文件的内容,包括文件中的文本、图像及其位置(x,y坐标)。现在我为此目的使用 PDFBox,我正在获取文本和图像。但我无法获得文本位置和图像位置。阅读一些加密的 PDF 文件也存在一些问题。
java - 如何使用 PDFBox drawString 插入换行符
我必须用表格制作 PDF。到目前为止它工作正常,但现在我想添加一个包装功能。所以我需要插入一个换行符。
我想\n
在“插入”之前添加一个“”。我尝试了“ \u000A
”,这是换行的十六进制值,但 Eclipse 显示错误。
是否可以使用drawString添加换行符?
java - 用 pdfbox 拆分 pdf,但丢失了字体
我使用 pdfbox API 在 Java 中编写了一些代码,该 API 将 pdf 文档拆分为单独的页面,在页面中查找特定字符串,然后从页面上创建一个带有字符串的新 pdf。我的问题是保存新页面时,我的字体丢失了。我刚刚制作了一个快速的word文档来测试它,默认字体是calibri,所以当我运行程序时,我得到一个错误框,上面写着:“无法提取嵌入的字体......”所以它用其他一些默认字体替换了字体.
我已经看到了很多示例代码,这些示例代码显示了当您输入要放置在 pdf 中的文本时如何更改字体,但没有设置 pdf 的字体。
如果有人熟悉这样做的方法,(或可以找到文档/示例),我将不胜感激!
编辑:忘记包含一些示例代码
我不知道这是否有帮助,但我想我会把它包括在内。
此外,如果 pdf 用 calibri 编写并拆分,这就是变化的样子:
注意:这可能不是问题,它取决于需要处理的文件中使用的字体。我尝试了除了 Calibri 之外的一些东西,效果很好。
java - 使用pdfbox复制页面n次
我制作了一个单页 pdf 模板文件。然后我使用 pdfbox 创建一个具有“n”页数的 pdf(取决于报告大小)。我希望这些页面中的所有“n”都是模板 pdf 文件中的页面。让所有“n”页成为该页副本的最佳方法是什么?这是我当前的代码:
问题是当我有大型结果集时。我将打开 pdf,它将显示为 11 页,前 2 页看起来不错,但是当我滚动到第 3 页时,Acrobat 错误,虽然模板页面似乎在那里,但没有我的报告数据。我认为问题可能出在上面的代码上。有任何想法吗?谢谢。
solr - PDFBox在单词中添加空格
当我尝试从我的 PDF 文件中提取文本时,它似乎会在几个单词之间随机插入空格。
我在本页下载部分的以下示例文件中使用 pdfbox-app-1.6.0.jar(最新版本):http: //www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian -训练
我已经尝试过其他几个 PDF 文件,它似乎在几个页面上都在做同样的事情。
我执行以下操作:
java -jar pdfbox-app-1.6.0.jar ExtractText -force -console ~/Desktop/ped training pdf.pdf
在下载的文件上,您会在控制台的结果中看到错误插入以下空格:“• 如果孩子们能够安全地步行上学,这可能会减少拥堵。”
“• 为以后的生活养成好习惯。”
“www.sheff ield.gov.uk”
“超前思考!,这是基于”
等等等等
正如你所看到的,上面的几个单词之间有空格,我无法理解。
我在 ubuntu 上运行 Sun 的 JDK 1.6。
我已经在几个不同的 PDF 文件上尝试过这个,并尝试在论坛上搜索解决方案,有类似的错误,但似乎都已解决。
任何帮助或如果其他人有同样的问题,请发表评论。这会导致正确索引内容以进行搜索的大问题。
schema - XMP 元数据的自定义架构
我想将自定义元数据写入 XMP 标准模式不支持的 pdf 文件,因此我编写了包含自己属性的自己的模式。我可以使用 PDFBox 或 iTextPDF 库成功地将这些额外的自定义元数据写入我的 PDF 文件。但是,如果不解析 XMP xml,我无法在客户端读取自定义元数据。
我想应该有一些我不知道的 API 可以将您的自定义模式返回到您的 java 类。
如果我在思考正确的方向,或者我是否真的需要解析 xml 以将我的自定义数据返回客户端,请帮助我?
这是我使用 PDFBox 库编写的代码
自定义元数据文件。
自定义架构文件。
XML 客户端文件。
在 XMPClient 文件中,我希望通过从类名中查询 EMXSchema 对象来从结果元数据中取回 EMXSchema 对象。
但是我得到空指针异常,表明没有找到。如果我以正确的方式做事,或者我是否需要解析 XMP 以获取我的收件人值,任何人都可以帮助我。
谢谢
pdfbox - LucenePDFDocument 是否从 pdfbox 中消失了?
我正在升级我的项目中的库并将 pdfbox 从 0.6.7 升级到 1.6.0 版本,但找不到 LucenePDFDocument 类。Apache 页面上的文档/教程中仍然提到了该类。有任何想法吗?