问题标签 [pdf-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
124 浏览

python - 如何将PDF表格数据插入数据库

我已经使用 Camelot 提取了 pdf 表格数据,但现在我怎样才能将表格数据放入我的数据库中,就像我需要将其转换为 CSV 一样?有没有其他方法可以将它放入我的数据库中?有没有其他方法可以选择我的特定表格或只是输入表格的数量。因为在这里我需要指定我的表号。被提取。

下面是我想将值放入我的数据库的 pdf 中的表数据

在此处输入图像描述

0 投票
1 回答
172 浏览

python - python Django中如何区分上传的PDF通过正则表达式提取数据

这是上传的 pdf 文件,它会将其转换为文本。转换为文本后,我使用正则表达式从 pdf 中获取一些特定数据。现在有各种各样的 pdf,我必须为每个 pdf 使用不同类型的正则表达式。但我在if条件下区分pdf时遇到问题,如下所示。我在这里所做的只是去第一个 if 条件。如何将 pdf 传递到我想要的位置,我的意思是我创建的特定正则表达式。或者有没有其他方法可以做到这一点,主要是我只是想为一些特定的数据建立 pdf 提取器。

0 投票
1 回答
943 浏览

pdf - 从不同格式的 pdf 发票中提取数据

目标是从 pdf 格式的发票中提取数据。

Pdf 数据格式:可选文本(非扫描图像)由文本行、名称-值对、表格(不同长度)组成

发票数据包括:名称-值对中的 invoice_no、invoice_date、order_no、order_date 表格格式 final_taxation_info 和 Gross_total 的项目详细信息(item_code、名称、费率、数量、折扣、价格等)

输入:每周收到大量具有相似和不同格式的发票

输出:提取发票数据并插入数据库

迄今为止尝试或考虑的方法:

  1. 使用库在 C# 中编写自定义算法,例如 iText7、PDFix、GemBox.Pdf、GroupDocs.Parser、Bytescout.PDFExtractor、Sautinsoft.pdffocus、Spire.PDF 等。 缺点:必须为新的 pdf 修改或编写新算法格式。
  2. 数据提取工具,例如 SmallPDF、Convertapi.com、cometdocs.com、groupdocs.app。 缺点:无法控制提取算法。
  3. 模板引导提取,如 Pdf_Element、Tabula、Docparser、iText pdf2Data。 缺点:当表长度变化时失败。
  4. 基于AI/ML的提取、自动化工具/服务,例如 AWS Textract、UiPath、KlearStack、IQ Bot(我还没有深入尝试过最后一种方法,只是触及了表面)。 缺点:不确定,但似乎学习曲线或成本可能是绊脚石。

考虑到整个情况,任何人都可以建议我应该遵循哪种方法。

0 投票
0 回答
264 浏览

python - 如何在python中使用tika解析器提取每页超过2000个字符的pdf页面?

我想使用python中的tika解析器提取每页超过2000个字符的pdf页面。从下面的代码中,我提取了 [元数据] 并从中 pdf:charsPerPage获取了每页的最小字符数限制(如 2000)。我未能集成pdf:charsPerPage代码以从解析器中获取 [内容] 数据。这是下面的代码:

从上面['pdf:charsPerPage']第一个元素的字符数少于 2000,通过上述操作,我们将字符数限制排除在 2000 以内。现在我想提取/解析每页有超过 2000 个字符的字符。

0 投票
1 回答
110 浏览

c# - 使用 c# 提取数据

我想解析pdf并使用c#提取姓名地址联系方式等数据

pdf数据解析是使用pdfpig完成的 任何人都可以建议或帮助数据提取吗?如何从可用数据中提取准确的键值对。?提前致谢!!

我想提取 ProposerName

0 投票
2 回答
2390 浏览

regex - 如何仅获取 RegEx 的第一个匹配项(UiPath Studio RegEx Based Extractor)

我使用 UiPath Studio 的 OCR 从 PDF 中提取了以下文本。这是相同的文本块重复 3 次,因为它是同一 PDF 页面的原始、重复和三份。

我需要提取“-Processado por programa”后面的 4 个字符代码,但只需要 1 个匹配或第一个匹配。

已经尝试过[^*]+(?=-Processado\spor\sprograma)(.*?)(?=-Processado\spor\sprograma)但输出了 3 场比赛。

当我删除该/g标志时它起作用了,但我使用的是 UiPath Studio 的 RegEx 提取器,我不知道如何在该程序上删除该标志。

0 投票
2 回答
5149 浏览

python - Pdfplumber无法识别表python

我使用 Pdfplumber 提取第 2 页第 3 节(通常)的表格。但它只适用于某些 pdf,其他不适用。对于失败的 pdf 文件,似乎 Pdfplumber 读取了按钮表而不是我想要的表。

我怎样才能拿到桌子?不起作用的pdf链接: pdfA

有效的pdf链接: pdfB

这是我的代码:

结果是 在此处输入图像描述

但是我在第 2 页中想要的表格是 在此处输入图像描述

但是,此代码适用于 pdfB(我在上面提到过)。

顺便说一句,我在每个 pdf 中想要的表格在第 3 节中。

任何人都可以帮忙吗?

非常感谢琼

更新: 我刚刚找到了一个很好的包来提取 pdf 文件,没有任何问题。包是 fitz,它也被命名为 PyMuPDF。

0 投票
1 回答
49 浏览

python - 如何忽略正则表达式中不需要的模式

我有以下python代码

它产生以下结果

期望的结果是:

我试过:

pattern = r'.*\n.*?(?P<auditor>[A-Z].+?\n?)$(?!Institute)(?:LLP\s*)?\s*((PRC.*?|Chinese.*?)?[Cc]ertified [Pp]ublic|[Cc]hartered) [Aa]ccountants' 此模式捕获最后两种情况,但不捕获前两种情况。

pattern = r'.*\n.*?(?P<auditor>^(?!Hong|Kong)[A-Z].+?\n?)(?:LLP\s*)?\s*((PRC.*?|Chinese.*?)?[Cc]ertified [Pp]ublic|[Cc]hartered) [Aa]ccountants' 这会产生预期的结果,但^(?!Hong|Kong)有潜在的风险,因为它可能会在未来忽略其他预期的结果,因此它不是一个好的候选者。

相反,$(?!Institute)它更通用、更合适,但我不知道为什么在前两种情况下无法匹配。如果有一种方法可以忽略包含issued by the Hong Kong Institute of

任何建议将不胜感激。谢谢你。

0 投票
1 回答
250 浏览

python - 如何使用 jTessBoxEditor 提高文本识别的准确性?

我一直在尝试从扫描的 pdf 文档中提取数据。我已经将 pdf 文件转换为 jpeg 文件(我附上了下面的图片链接),用不同的字体裁剪了单词和数字,合并到一个 tiff 文件中,并使用 jTessBoxEditor 训练了字体以生成一种新的语言,我在Tesseract-OCR 从文件中提取数据。但我无法提取确切的数据。tesseract-ocr 的文本识别准确率很差。

有人可以提出一种提高准确性的方法吗?

我一直试图从中提取数据的图像

0 投票
1 回答
191 浏览

python - Python camelot 库的无边界 pdf 提取到 json 无法正常工作

谁能给我快速回答/帮助,因为我们在使用 python camelot 将 pdf 提取到 json 后面临一些问题,但没有给出确切的内容。提取后缺少某些内容。