问题标签 [pdf-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
611 浏览

vb.net - 从 PDF 电子邮件附件中提取文本,而不先将附件保存到 pdf 文件中

我正在使用 PDF Extractor(从此处)从电子邮件中的 PDF 附件中获取文本。

在我看来,我可以提取文本的唯一方法是将 PDF 保存到文件中,然后使用代码。

从 PDF 文件中提取字符串列表。

但是,我似乎无法直接从附件中提取文本。“提取器”似乎无法处理磁盘上文件以外的任何源。

是否有任何可能的方法可以通过创建内存文件流来欺骗“提取器”从内存中打开文件?

我试过使用MemoryStream这样的:

但是因为提取器假设源是磁盘文件,所以它返回一个错误,说它找不到临时文件。

老实说,我花了很多时间试图理解内存流,但它们似乎不符合要求。

更新

这也是我用来将附件保存到 MemoryStream 的代码。

如果我错过了一些明显的东西,我深表歉意。

0 投票
0 回答
2124 浏览

python - 如何使用 Tesseract 和/或 Poppler 将 PDF 图像或图像转换为文本?

Python 3.6.1 Mac OSX

关于 Tesseract,我尝试了很多不同的示例/模板代码,我在网上找到了 PDF -> 文本和图像 -> 文本。它们似乎都不起作用。

如果您知道一个有效的代码或一个为 Tesseract、Poppler 或两者提供良好教程的网站,请告诉我。

Pytesser 似乎已经过时了。Magick 似乎是一个仅限 Windows 的程序。魔杖似乎也没有帮助。

Tesseract-OCR 是我正在尝试使用的 ,但我不知道如何为其设置代码,也找不到有效的好教程。我只能找到安装教程。

我可以将 Poppler 用于 PDF->Text但遇到了需要提取的 PDF 图像。我假设我需要一个单独的代码来获取 PDF 并将其转换为图像文件,然后需要一个用于将图像转换为文本文件的代码 (Teseseract)。或者我可以使用 Poppler 的 PDFImage,我不知道如何编码(这里的帮助也将非常感激)。

我的 Poppler PDF to Text 代码是:

而且效果很好。

我不知道如何格式化 Poppler 的 PDFImage。

此外,我将如何在 Tesseract 中实现类似的东西,因为它是最好的 OCR 之一?

0 投票
1 回答
3911 浏览

python - python:AttributeError:'PDFPage'对象没有属性'extractText'

我正在尝试从 pdf 中提取内容。并想从中创建一个 excel 表。请在下面找到代码。

它抛出以下错误:

请让我知道一个可能的解决方案。

谢谢。

0 投票
0 回答
98 浏览

ios - iOS Swift PDFDocument,土耳其字符损坏导出

问题:某些 PDF 导出字符串损坏了土耳其字符。

Sample.pdf // 原始内容“İzmir, çanakkale, kaş, ırmak, bağlıca, çin”</p>

例子;

但是,一些 pdf (document?.string),显示字符 (ı,ç,ü,ö,ğ,İ,ş),其他一些 pdf 不显示土耳其字符。

如何解决复杂的问题?我已经工作了几个月:/如果你能帮助我,我将不胜感激。

谢谢,恩萨尔先生。

iOS 开发者

0 投票
3 回答
1984 浏览

python - 在python中从PDF中提取图像时出错

我正在尝试从 pdf 中提取所有格式的图像。我做了一些谷歌搜索,在 StackOverflow 上找到了这个页面。我尝试了这段代码,但我收到了这个错误:

我正在使用 python 3.x,这是我正在使用的代码。我试图浏览评论,但无法弄清楚。请帮我解决这个问题。

这是示例 PDF。

我正在阅读一些评论并浏览链接,发现此问题已在此页面上解决上解决了。有人可以帮我实现吗?

0 投票
1 回答
1547 浏览

java - 使用飞碟在 PDF 中标题后的巨大空白

我正在尝试使用飞碟将 HTML 页面导出为 PDF。由于某种原因,页面在标题 (id = "divTemplateHeaderPage1") 分割后有很大的空白。PDF 渲染器正在使用的指向我的 HTML 代码的 jsFiddle 链接:https ://jsfiddle.net/Sparks245/uhxqdta6/ 。

下面是用于呈现 PDF 的 Java 代码(Test.html 与小提琴中的 HTML 代码相同)并仅呈现一页。

导出 PDF 的链接:https ://drive.google.com/file/d/13CmlJK0ZDLolt7C3yLN2k4uJqV3TX-4B/view?usp=sharing

我尝试将诸如 page-break-inside: Avoid 之类的 css 属性添加到标题分区,但它没有用。此外,我尝试在标题 div 下方的正文部分 (id = "divTemplateBodyPage1") 中添加绝对位置和上边距,但空白仍然存在。

任何的意见都将会有帮助。

0 投票
3 回答
7478 浏览

python-2.7 - 如何从pdf中提取特定标题下的文本?

我想使用python从pdf中提取特定标题下的文本。

例如,我有一个带有标题简介、摘要、内容的 pdf。我只需要提取标题“摘要”下的文本。

我怎样才能做到这一点?

样本图像

0 投票
1 回答
305 浏览

css - Confluence:有没有办法在全局 PDF 样式表中使用空间变量?或者以某种方式将其包含在 PDF 导出中

对于 PDF 导出,我正在尝试将空间名称导出到导出的底部中心。

我尝试了以下但到目前为止没有运气:

我认为空间变量在 PDF CSS 样式表中不起作用。

还有另一种可能实现这一目标的方法吗?

我期待着你的想法。

0 投票
0 回答
233 浏览

r - 提取 .pdf 表

我写了一大段代码来获取我对R感兴趣的 .pdf 表,但必须有更好的方法。因此,我从 pdf 导入数据没有问题。我正在寻找一种比以下更好的方法来提取我感兴趣的表。

...然后我将它们全部合并。太长而且不雅。

0 投票
0 回答
407 浏览

java - 使用 Lucene-PDFbox jar 时获取 java.lang.ClassNotFoundException: org.apache.pdfbox.exceptions.CryptographyException

当我运行此代码时,我得到以下异常。仅使用 PDFBox jar 运行良好。仅获取此异常 Lucene-PDFBox jar。

抛出 java.lang.ClassNotFoundException:org.apache.pdfbox.exceptions.CryptographyException

痕迹是: