问题标签 [pdf-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
364 浏览

java - 使用 Itext 找出字体未嵌入 PDf 的位置或页面

我正在使用Itext库来操作我的 PDF。

我正在使用此示例http://developers.itextpdf.com/examples/itext-action-second-edition/chapter-16#616-listusedfonts.java来找出未嵌入 PDF 中的字体。

该库是否提供任何选项来检查字体未嵌入 PDF 的确切位置?

0 投票
1 回答
111 浏览

.net - 使用 .net 提取 Pdf 元素

寻找一个免费/付费的 .net 库来提取给定 Acrobat (.pdf) 文档的文本/图形/图像元素,最好作为对象模型,以便我们可以将其转换为专有的所见即所得编辑器可以理解的另一种格式。

如果无法直接翻译,想看看可以采取哪些可能的方法来分别抓取文本元素、形状/图形、图像。目标格式要求使用页面上的 x,y 位置显式定位元素,并且 PDF 提取库有必要告诉我页面内已解析元素的坐标。

任何建议将不胜感激。

0 投票
1 回答
95 浏览

apache-pig - 我们可以使用 Pig Udfs 拆分 PDF 文件吗?

我有 100 个 pdf,但每个 pdf 有 40 页,即。它没有被处理。实际上,我们正在尝试使用猪 Udf?? 我们可以使用 Pig Udf 拆分 PDF 文件吗?

0 投票
1 回答
2590 浏览

python - 在python中从具有特定标题的PDF中提取数据

我想用python解析PDF文件。我已经看到 PDFMiner 的示例无法解释我的要求。

例如,如果我想解析一份简历,它包含各种字段,如摘要、经验和爱好。

我有兴趣只提取经验,这个经验字段将在第一位或第二位或任何地方,我需要确定经验字段的位置并需要提取数据。

我怎样才能做到这一点?

0 投票
1 回答
808 浏览

php - 如何使用 smalot pdfparser 获取 pdf 的字体详细信息?

我正在使用 smalot pdfparser 来解析 pdf。在解析时,我试图获取字体详细信息,如字体系列、字体大小等。根据这个API Doc,它提到了 getFonts 和 getFont 方法。我试图得到它,但得到一些对象。按照此链接了解更多信息。这是我正在使用的代码

请让我,如果你有任何想法。或者有没有其他方法可以实现这一目标?

0 投票
6 回答
5920 浏览

python - struct.error: unpack 需要一个长度为 16 的字符串参数

在使用 pdfminer (pdf2txt.py) 处理 PDF文件 (2.pdf)时,我收到以下错误:

虽然类似的文件(1.pdf)不会引起问题。

我找不到有关该错误的任何信息。我在 pdfminer GitHub 存储库上添加了一个问题,但仍未得到答复。有人可以向我解释为什么会这样吗?我该怎么做才能解析2.pdf


更新:直接从 GitHub 存储库安装 pdfminer后,我收到了类似的错误,BytesIO而不是。StringIO

0 投票
0 回答
699 浏览

java - 从 PDF 文件中提取一个部分

我的目标是提取 PDF 文件的摘要。

是否有可能在关键字(摘要)之后提取文本,或者搜索特定的字体样式并提取文档的一部分?

目前,我正在使用 PDFBox 来提取文本,但我不知道从 PDF 文件中获取某个部分的内容。

0 投票
1 回答
3797 浏览

java - 防止 Jsoup.parse 删除结束标记

我正在用 Jsoup.parse 解析一段 html。

其他一切都很好,但我应该稍后在 pdf 转换器中解析这个 html。

出于某种原因,Jsoup.parse 删除了结束标记,并且 pdf-parser 抛出一个关于缺少结束 img 标记的异常。

如何防止 Jsoup.parse 删除结束 img 标签?

例如这一行:

变成:

同样的情况发生在:

这是代码:

这是在上述方法中调用的 tidyUpHTML 方法:

0 投票
1 回答
923 浏览

java - 如何从使用 ITextRenderer 创建的 pdf 的本地目录中获取图像?

我正在使用 ITextRenderer 从 html 解析 pdf,如下所示:

现在,如果 html 包含图像的本地路径,它不会显示在 pdf 中。但是,如果 img 标签的 src-value 是在线图像的 URL,它确实有效。

如下:不显示在pdf上:

是否在 pdf 上正确显示:

本地文件的路径是正确的,例如,如果我将该路径复制粘贴到我的网络浏览器,它会显示图像。

如何让它显示在pdf上?

更新:这一切都在 WildFly10 应用程序服务器上的 JSF / Primefaces Web 应用程序中运行。因此,文件系统的直接路径似乎不起作用。那么,我应该使用war中的哪个目录来使用静态资源,比如这张图片。目前它在webapp/resources/images.

0 投票
0 回答
622 浏览

python-2.7 - 使用python读取PDF中的行

我正在尝试编写一个程序,该程序为需求-代码-测试提供跟踪矩阵

为此,我无法从 PDF 中逐行读取 PDF 中的需求标签。

下面是我试过的程序。

PDF 的内容如下所示

有时,某些内容会在表 sy 下面的条目位于表内

这种搜索的目的是说,我将顶级 req 作为“{CSD-PROS-PLN-003}”然后我将搜索其他 pdf / code/test 以获取来自该要求的派生要求 / implementation / test。

谢谢