问题标签 [pdf-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
vb.net - 从 PDF 电子邮件附件中提取文本,而不先将附件保存到 pdf 文件中
我正在使用 PDF Extractor(从此处)从电子邮件中的 PDF 附件中获取文本。
在我看来,我可以提取文本的唯一方法是将 PDF 保存到文件中,然后使用代码。
从 PDF 文件中提取字符串列表。
但是,我似乎无法直接从附件中提取文本。“提取器”似乎无法处理磁盘上文件以外的任何源。
是否有任何可能的方法可以通过创建内存文件流来欺骗“提取器”从内存中打开文件?
我试过使用MemoryStream
这样的:
但是因为提取器假设源是磁盘文件,所以它返回一个错误,说它找不到临时文件。
老实说,我花了很多时间试图理解内存流,但它们似乎不符合要求。
更新
这也是我用来将附件保存到 MemoryStream 的代码。
如果我错过了一些明显的东西,我深表歉意。
python - 如何使用 Tesseract 和/或 Poppler 将 PDF 图像或图像转换为文本?
Python 3.6.1 Mac OSX
关于 Tesseract,我尝试了很多不同的示例/模板代码,我在网上找到了 PDF -> 文本和图像 -> 文本。它们似乎都不起作用。
如果您知道一个有效的代码或一个为 Tesseract、Poppler 或两者提供良好教程的网站,请告诉我。
Pytesser 似乎已经过时了。Magick 似乎是一个仅限 Windows 的程序。魔杖似乎也没有帮助。
Tesseract-OCR 是我正在尝试使用的 ,但我不知道如何为其设置代码,也找不到有效的好教程。我只能找到安装教程。
我可以将 Poppler 用于 PDF->Text,但遇到了需要提取的 PDF 图像。我假设我需要一个单独的代码来获取 PDF 并将其转换为图像文件,然后需要一个用于将图像转换为文本文件的代码 (Teseseract)。或者我可以使用 Poppler 的 PDFImage,我不知道如何编码(这里的帮助也将非常感激)。
我的 Poppler PDF to Text 代码是:
而且效果很好。
我不知道如何格式化 Poppler 的 PDFImage。
此外,我将如何在 Tesseract 中实现类似的东西,因为它是最好的 OCR 之一?
python - python:AttributeError:'PDFPage'对象没有属性'extractText'
我正在尝试从 pdf 中提取内容。并想从中创建一个 excel 表。请在下面找到代码。
它抛出以下错误:
请让我知道一个可能的解决方案。
谢谢。
ios - iOS Swift PDFDocument,土耳其字符损坏导出
问题:某些 PDF 导出字符串损坏了土耳其字符。
Sample.pdf // 原始内容“İzmir, çanakkale, kaş, ırmak, bağlıca, çin”</p>
例子;
但是,一些 pdf (document?.string),显示字符 (ı,ç,ü,ö,ğ,İ,ş),其他一些 pdf 不显示土耳其字符。
如何解决复杂的问题?我已经工作了几个月:/如果你能帮助我,我将不胜感激。
谢谢,恩萨尔先生。
iOS 开发者
java - 使用飞碟在 PDF 中标题后的巨大空白
我正在尝试使用飞碟将 HTML 页面导出为 PDF。由于某种原因,页面在标题 (id = "divTemplateHeaderPage1") 分割后有很大的空白。PDF 渲染器正在使用的指向我的 HTML 代码的 jsFiddle 链接:https ://jsfiddle.net/Sparks245/uhxqdta6/ 。
下面是用于呈现 PDF 的 Java 代码(Test.html 与小提琴中的 HTML 代码相同)并仅呈现一页。
导出 PDF 的链接:https ://drive.google.com/file/d/13CmlJK0ZDLolt7C3yLN2k4uJqV3TX-4B/view?usp=sharing
我尝试将诸如 page-break-inside: Avoid 之类的 css 属性添加到标题分区,但它没有用。此外,我尝试在标题 div 下方的正文部分 (id = "divTemplateBodyPage1") 中添加绝对位置和上边距,但空白仍然存在。
任何的意见都将会有帮助。
css - Confluence:有没有办法在全局 PDF 样式表中使用空间变量?或者以某种方式将其包含在 PDF 导出中
对于 PDF 导出,我正在尝试将空间名称导出到导出的底部中心。
我尝试了以下但到目前为止没有运气:
我认为空间变量在 PDF CSS 样式表中不起作用。
还有另一种可能实现这一目标的方法吗?
我期待着你的想法。
r - 提取 .pdf 表
我写了一大段代码来获取我对R感兴趣的 .pdf 表,但必须有更好的方法。因此,我从 pdf 导入数据没有问题。我正在寻找一种比以下更好的方法来提取我感兴趣的表。
...然后我将它们全部合并。太长而且不雅。
java - 使用 Lucene-PDFbox jar 时获取 java.lang.ClassNotFoundException: org.apache.pdfbox.exceptions.CryptographyException
当我运行此代码时,我得到以下异常。仅使用 PDFBox jar 运行良好。仅获取此异常 Lucene-PDFBox jar。
抛出 java.lang.ClassNotFoundException:org.apache.pdfbox.exceptions.CryptographyException
痕迹是: