问题标签 [pdf-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 更改当前工作目录时出错
运行下面的代码时会os.chdir(folder_path)
返回错误。怎么了?
这是我的文件夹层次结构:
我的 data_extraction.py 文件代码:
实际结果错误:
请问有什么帮助吗?
node.js - 我想在本地上传一个文件,然后将该文件上传到 S3。然而,Multer 一次只允许一个或另一个
我的目标如下:我想获取用户上传的 PDF,从该 PDF 中提取文本,将文本分配给数组对象。完成后,我想将该文件上传到 S3 存储桶。现在我可以毫无问题地完成第一部分。我首先进行本地上传的原因是我可以从 PDF 中提取文本。这些方法是独立工作的。如果我想上传到 S3,它将使用链接填充数据库,以便我在前端显示它,但 BulletinMetaText 字段没有填充提取文本。
我应该怎么做?
如果我不清楚,请让我知道我还能提供什么..
多重方法:
节点/快递后端
r - 使用R从pdf文件中提取数据
我正在尝试从 pdf 文件中提取数据(表格)并将它们存储为数据框。
由reprex 包(v0.3.0)于 2020-01-07 创建
这两个选项都返回长行的非结构化和混乱的数据。有没有其他方法可以从 pdf 文件中提取这些类型的数据(将表格作为数据框获取)或者我必须清理和整理这些数据?您可以在此处找到该文件:statement USD
python - 如何使用 PyPDF2 在 Python 3 中将 PDF 中的所有页面作为单个字符串检索
为了从多页 PDF 中获取单个字符串,我正在这样做:
结果是来自单个页面(文档中的最后一页)的字符串 - 就像根据PyPDF2 文档一样。我应用这种方法是因为我读过一些人建议它阅读整个 PDF,这在我的情况下不起作用。
显然,这是一个基本操作,对于我缺乏经验,我提前道歉。我尝试了其他解决方案,如 Tika、PDFMiner 和 Textract,但到目前为止,PyPDF 似乎是唯一让我满意的解决方案。
任何帮助,将不胜感激。
更新:
正如建议的那样,我将 an 定义output
为一个列表,然后将其附加到它(如我所想)这样的循环中的所有页面:
结果,认为,是列表中的单个字符串,例如['sample content from the last page of PDF']
python - 从pdf中提取矩形中的文本 - Python
我需要从 Pdf 中提取矩形中的文本。我测试了几种方法。但没有得到具体的文字。例如,我使用 PyMuPDF、pdfplumber、tabula、camelot、pdftables 包进行了测试。在 PyMuPDF 模块中,它要求输入开头和结尾的词来提取文本。据我了解,剩余的包也只是提取线条、曲线信息而不是文本。
我想在不提供任何开始和结束文本的情况下从 PDF 中的矩形获取文本。
https://drive.google.com/file/d/1wCvik7VbEvDwbT-mapgXc8fwlq7Ao3BP/view?usp=sharing
python-3.x - 如何将财务报表中的数据提取到excel中
我正在尝试将数据从 pdf 提取到 excel 中。为此,我正在使用 tesseract。但是如何识别表格或表格等文档布局并导入到excel中。下面是示例图像。
财务报表的示例图像
pdf - 覆盖 PDF 中的 ToUnicode Map 流
在这个问题上,mkl 为 pnj 的困境提供了一个绝妙的答案。不幸的是,我们面临着一个非常相似的问题(使用名为Lohit - Devanagari的不同字体,但仍然是 Devanagari 字体)第二条评论很好地概述了非 OCR 解决方案的步骤,但我在理解 PDF 及其结构体。因此,如果可以在以下方面给出一些方向,那就太好了:
- 使用具有低级对象访问 API 的通用 PDF 库覆盖此 PDF 中的 ToUnicode 映射,用于您选择的编程语言:我可以使用 Python 中的哪个库来执行此操作?
- 遍历 PDF 对象结构,找到 ToUnicode 映射流,替换其内容,并保存结果。:有没有一些例子,我可以看到这对于任何字体是如何完成的?
我希望这不是太宽泛。谢谢!
c# - 使用 bytescout PDFExtractor C# 查找文本坐标
我有一个 PDF,需要查找和替换一些文本。我知道如何创建叠加层和添加文本,但我无法确定如何定位当前文本坐标。这是我在 bytescout 网站上找到的示例 -
但它不起作用,因为没有采用 4 个参数的重载 Find 方法。我不喜欢使用 Bytescout 从 pdf 中查找文本坐标,但我的公司有许可证。如果 Bytescout 无法完成我想要做的事情,是否有一种免费的方法可以在 pdf 上查找文本坐标?
pdf - 生成 ToUnicode CMap(以编程方式或可视方式)
我有几个有问题的 PDF,我正在尝试将其转换为 PDF/A-1a。
这些文档使用 CID Identity-H 嵌入式子集,由 Acrobat Distiller 20.0 生成。我已经搜索了可以利用 OCR 扫描渲染输出的工具,目的是自动生成丢失的 ToUnicode CMap,或者至少为用户选择提供高概率的候选者,但在这方面没有成功。
字形清晰易读。如果这不是为这些文件构建 ToUnicode CMaps 的首选方法,是否有用于构建代码点的通用可视实用程序(或方法)?我尝试将字体提取到 FontForge 中,但失败了(FontForge 输出表明 PDF 不可读)。
谢谢!