问题标签 [pdf-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
17 浏览

python - 更改当前工作目录时出错

运行下面的代码时会os.chdir(folder_path)返回错误。怎么了?

这是我的文件夹层次结构:

我的 data_extraction.py 文件代码:

实际结果错误:

请问有什么帮助吗?

0 投票
1 回答
157 浏览

node.js - 我想在本地上传一个文件,然后将该文件上传到 S3。然而,Multer 一次只允许一个或另一个

我的目标如下:我想获取用户上传的 PDF,从该 PDF 中提取文本,将文本分配给数组对象。完成后,我想将该文件上传到 S3 存储桶。现在我可以毫无问题地完成第一部分。我首先进行本地上传的原因是我可以从 PDF 中提取文本。这些方法是独立工作的。如果我想上传到 S3,它将使用链接填充数据库,以便我在前端显示它,但 BulletinMetaText 字段没有填充提取文本。

我应该怎么做?

如果我不清楚,请让我知道我还能提供什么..

多重方法:

节点/快递后端

0 投票
0 回答
329 浏览

node.js - 如何从 pdf 包文件中提取 pdf 的轮廓并使用 bash 脚本或 node.js 将其写入 csv 文件

我有一个 pdf 包,我需要提取每个 pdf 的大纲名称并使用 bash 脚本或 node.js 将其写入 csv 文件。我在 bash 脚本中使用 pdftk 库。在 bash 脚本中我使用了这个命令 pdftk input.pdf突发输出 output_%02d.pdf 但实际上我想要页面的大纲名称而不是 output_%02d.pdf 如果可能的话,那么我可以从单个 pdf 的每个文件名中提取大纲名称 在此处输入图像描述

0 投票
1 回答
255 浏览

r - 使用R从pdf文件中提取数据

我正在尝试从 pdf 文件中提取数据(表格)并将它们存储为数据框。

reprex 包(v0.3.0)于 2020-01-07 创建

这两个选项都返回长行的非结构化和混乱的数据。有没有其他方法可以从 pdf 文件中提取这些类型的数据(将表格作为数据框获取)或者我必须清理和整理这些数据?您可以在此处找到该文件:statement USD

0 投票
4 回答
3720 浏览

python - 如何使用 PyPDF2 在 Python 3 中将 PDF 中的所有页面作为单个字符串检索

为了从多页 PDF 中获取单个字符串,我正在这样做:

结果是来自单个页面(文档中的最后一页)的字符串 - 就像根据PyPDF2 文档一样。我应用这种方法是因为我读过一些人建议它阅读整个 PDF,这在我的情况下不起作用。

显然,这是一个基本操作,对于我缺乏经验,我提前道歉。我尝试了其他解决方案,如 Tika、PDFMiner 和 Textract,但到目前为止,PyPDF 似乎是唯一让我满意的解决方案。

任何帮助,将不胜感激。

更新:

正如建议的那样,我将 an 定义output为一个列表,然后将其附加到它(如我所想)这样的循环中的所有页面:

结果,认为,是列表中的单个字符串,例如['sample content from the last page of PDF']

0 投票
1 回答
2533 浏览

python - 从pdf中提取矩形中的文本 - Python

我需要从 Pdf 中提取矩形中的文本。我测试了几种方法。但没有得到具体的文字。例如,我使用 PyMuPDF、pdfplumber、tabula、camelot、pdftables 包进行了测试。在 PyMuPDF 模块中,它要求输入开头和结尾的词来提取文本。据我了解,剩余的包也只是提取线条、曲线信息而不是文本。

我想在不提供任何开始和结束文本的情况下从 PDF 中的矩形获取文本。

https://drive.google.com/file/d/1wCvik7VbEvDwbT-mapgXc8fwlq7Ao3BP/view?usp=sharing

0 投票
0 回答
536 浏览

python-3.x - 如何将财务报表中的数据提取到excel中

我正在尝试将数据从 pdf 提取到 excel 中。为此,我正在使用 tesseract。但是如何识别表格或表格等文档布局并导入到excel中。下面是示例图像。
财务报表的示例图像

0 投票
0 回答
69 浏览

pdf - 覆盖 PDF 中的 ToUnicode Map 流

这个问题上,mkl 为 pnj 的困境提供了一个绝妙的答案。不幸的是,我们面临着一个非常相似的问题(使用名为Lohit - Devanagari的不同字体,但仍然是 Devanagari 字体)第二条评论很好地概述了非 OCR 解决方案的步骤,但我在理解 PDF 及其结构体。因此,如果可以在以下方面给出一些方向,那就太好了:

  1. 使用具有低级对象访问 API 的通用 PDF 库覆盖此 PDF 中的 ToUnicode 映射,用于您选择的编程语言我可以使用 Python 中的哪个库来执行此操作?
  2. 遍历 PDF 对象结构,找到 ToUnicode 映射流,替换其内容,并保存结果。:有没有一些例子,我可以看到这对于任何字体是如何完成的?

我希望这不是太宽泛。谢谢!

0 投票
1 回答
207 浏览

c# - 使用 bytescout PDFExtractor C# 查找文本坐标

我有一个 PDF,需要查找和替换一些文本。我知道如何创建叠加层和添加文本,但我无法确定如何定位当前文本坐标。这是我在 bytescout 网站上找到的示例 -

但它不起作用,因为没有采用 4 个参数的重载 Find 方法。我不喜欢使用 Bytescout 从 pdf 中查找文本坐标,但我的公司有许可证。如果 Bytescout 无法完成我想要做的事情,是否有一种免费的方法可以在 pdf 上查找文本坐标?

0 投票
0 回答
107 浏览

pdf - 生成 ToUnicode CMap(以编程方式或可视方式)

我有几个有问题的 PDF,我正在尝试将其转换为 PDF/A-1a。

这些文档使用 CID Identity-H 嵌入式子集,由 Acrobat Distiller 20.0 生成。我已经搜索了可以利用 OCR 扫描渲染输出的工具,目的是自动生成丢失的 ToUnicode CMap,或者至少为用户选择提供高概率的候选者,但在这方面没有成功。

字形清晰易读。如果这不是为这些文件构建 ToUnicode CMaps 的首选方法,是否有用于构建代码点的通用可视实用程序(或方法)?我尝试将字体提取到 FontForge 中,但失败了(FontForge 输出表明 PDF 不可读)。

谢谢!