问题标签 [pdf-extraction]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

113 问题

0 投票

0 回答

611 浏览

vb.net - 从 PDF 电子邮件附件中提取文本，而不先将附件保存到 pdf 文件中

我正在使用 PDF Extractor（从此处）从电子邮件中的 PDF 附件中获取文本。

在我看来，我可以提取文本的唯一方法是将 PDF 保存到文件中，然后使用代码。

从 PDF 文件中提取字符串列表。

但是，我似乎无法直接从附件中提取文本。“提取器”似乎无法处理磁盘上文件以外的任何源。

是否有任何可能的方法可以通过创建内存文件流来欺骗“提取器”从内存中打开文件？

我试过使用MemoryStream这样的：

但是因为提取器假设源是磁盘文件，所以它返回一个错误，说它找不到临时文件。

老实说，我花了很多时间试图理解内存流，但它们似乎不符合要求。

更新

这也是我用来将附件保存到 MemoryStream 的代码。

如果我错过了一些明显的东西，我深表歉意。

2016-08-21T15:05:48.147

0 投票

0 回答

2124 浏览

python - 如何使用 Tesseract 和/或 Poppler 将 PDF 图像或图像转换为文本？

Python 3.6.1 Mac OSX

关于 Tesseract，我尝试了很多不同的示例/模板代码，我在网上找到了 PDF -> 文本和图像 -> 文本。它们似乎都不起作用。

如果您知道一个有效的代码或一个为 Tesseract、Poppler 或两者提供良好教程的网站，请告诉我。

Pytesser 似乎已经过时了。Magick 似乎是一个仅限 Windows 的程序。魔杖似乎也没有帮助。

Tesseract-OCR 是我正在尝试使用的 ，但我不知道如何为其设置代码，也找不到有效的好教程。我只能找到安装教程。

我可以将 Poppler 用于 PDF->Text，但遇到了需要提取的 PDF 图像。我假设我需要一个单独的代码来获取 PDF 并将其转换为图像文件，然后需要一个用于将图像转换为文本文件的代码 (Teseseract)。或者我可以使用 Poppler 的 PDFImage，我不知道如何编码（这里的帮助也将非常感激）。

我的 Poppler PDF to Text 代码是：

而且效果很好。

我不知道如何格式化 Poppler 的 PDFImage。

此外，我将如何在 Tesseract 中实现类似的东西，因为它是最好的 OCR 之一？

python pdf tesseract poppler pdf-extraction

2017-04-05T15:55:21.690

0 投票

1 回答

3911 浏览

python - python：AttributeError：'PDFPage'对象没有属性'extractText'

我正在尝试从 pdf 中提取内容。并想从中创建一个 excel 表。请在下面找到代码。

它抛出以下错误：

请让我知道一个可能的解决方案。

谢谢。

python pdf-extraction

2017-06-06T16:07:17.353

0 投票

0 回答

98 浏览

ios - iOS Swift PDFDocument，土耳其字符损坏导出

问题：某些 PDF 导出字符串损坏了土耳其字符。

Sample.pdf // 原始内容“İzmir, çanakkale, kaş, ırmak, bağlıca, çin”</p>

例子;

但是，一些 pdf (document?.string)，显示字符 (ı,ç,ü,ö,ğ,İ,ş)，其他一些 pdf 不显示土耳其字符。

如何解决复杂的问题？我已经工作了几个月：/如果你能帮助我，我将不胜感激。

谢谢，恩萨尔先生。

iOS 开发者

ios swift pdf pdf-extraction

2017-08-15T09:01:55.060

0 投票

3 回答

1984 浏览

python - 在python中从PDF中提取图像时出错

我正在尝试从 pdf 中提取所有格式的图像。我做了一些谷歌搜索，在 StackOverflow 上找到了这个页面。我尝试了这段代码，但我收到了这个错误：

我正在使用 python 3.x，这是我正在使用的代码。我试图浏览评论，但无法弄清楚。请帮我解决这个问题。

这是示例 PDF。

我正在阅读一些评论并浏览链接，发现此问题已在此页面上解决上解决了。有人可以帮我实现吗？

python python-imaging-library pypdf2 pdf-extraction

2017-12-09T17:01:31.867

0 投票

1 回答

1547 浏览

java - 使用飞碟在 PDF 中标题后的巨大空白

我正在尝试使用飞碟将 HTML 页面导出为 PDF。由于某种原因，页面在标题 (id = "divTemplateHeaderPage1") 分割后有很大的空白。PDF 渲染器正在使用的指向我的 HTML 代码的 jsFiddle 链接：https ://jsfiddle.net/Sparks245/uhxqdta6/ 。

下面是用于呈现 PDF 的 Java 代码（Test.html 与小提琴中的 HTML 代码相同）并仅呈现一页。

导出 PDF 的链接：https ://drive.google.com/file/d/13CmlJK0ZDLolt7C3yLN2k4uJqV3TX-4B/view?usp=sharing

我尝试将诸如 page-break-inside: Avoid 之类的 css 属性添加到标题分区，但它没有用。此外，我尝试在标题 div 下方的正文部分 (id = "divTemplateBodyPage1") 中添加绝对位置和上边距，但空白仍然存在。

任何的意见都将会有帮助。

java html itext flying-saucer pdf-extraction

2017-12-16T12:14:06.893

0 投票

3 回答

7478 浏览