“pdf-extraction”的相关标签问题

0 投票

0 回答

124 浏览

python - 如何将PDF表格数据插入数据库

我已经使用 Camelot 提取了 pdf 表格数据，但现在我怎样才能将表格数据放入我的数据库中，就像我需要将其转换为 CSV 一样？有没有其他方法可以将它放入我的数据库中？有没有其他方法可以选择我的特定表格或只是输入表格的数量。因为在这里我需要指定我的表号。被提取。

下面是我想将值放入我的数据库的 pdf 中的表数据

2020-04-15T20:26:10.887

0 投票

1 回答

172 浏览

python - python Django中如何区分上传的PDF通过正则表达式提取数据

这是上传的 pdf 文件，它会将其转换为文本。转换为文本后，我使用正则表达式从 pdf 中获取一些特定数据。现在有各种各样的 pdf，我必须为每个 pdf 使用不同类型的正则表达式。但我在if条件下区分pdf时遇到问题，如下所示。我在这里所做的只是去第一个 if 条件。如何将 pdf 传递到我想要的位置，我的意思是我创建的特定正则表达式。或者有没有其他方法可以做到这一点，主要是我只是想为一些特定的数据建立 pdf 提取器。

python django pdf pdfminer pdf-extraction

2020-04-15T21:46:04.787

0 投票

1 回答

943 浏览

pdf - 从不同格式的 pdf 发票中提取数据

目标是从 pdf 格式的发票中提取数据。

Pdf 数据格式：可选文本（非扫描图像）由文本行、名称-值对、表格（不同长度）组成

发票数据包括：名称-值对中的 invoice_no、invoice_date、order_no、order_date 表格格式 final_taxation_info 和 Gross_total 的项目详细信息（item_code、名称、费率、数量、折扣、价格等）

输入：每周收到大量具有相似和不同格式的发票

输出：提取发票数据并插入数据库

迄今为止尝试或考虑的方法：

使用库在 C# 中编写自定义算法，例如 iText7、PDFix、GemBox.Pdf、GroupDocs.Parser、Bytescout.PDFExtractor、Sautinsoft.pdffocus、Spire.PDF 等。 缺点：必须为新的 pdf 修改或编写新算法格式。
数据提取工具，例如 SmallPDF、Convertapi.com、cometdocs.com、groupdocs.app。 缺点：无法控制提取算法。
模板引导提取，如 Pdf_Element、Tabula、Docparser、iText pdf2Data。 缺点：当表长度变化时失败。
基于AI/ML的提取、自动化工具/服务，例如 AWS Textract、UiPath、KlearStack、IQ Bot（我还没有深入尝试过最后一种方法，只是触及了表面）。 缺点：不确定，但似乎学习曲线或成本可能是绊脚石。

考虑到整个情况，任何人都可以建议我应该遵循哪种方法。

pdf data-extraction pdf-extraction

2020-05-15T19:21:55.327

0 投票

0 回答

264 浏览

python - 如何在python中使用tika解析器提取每页超过2000个字符的pdf页面？

我想使用python中的tika解析器提取每页超过2000个字符的pdf页面。从下面的代码中，我提取了 [元数据] 并从中 pdf:charsPerPage获取了每页的最小字符数限制（如 2000）。我未能集成pdf:charsPerPage代码以从解析器中获取 [内容] 数据。这是下面的代码：

从上面['pdf:charsPerPage']第一个元素的字符数少于 2000，通过上述操作，我们将字符数限制排除在 2000 以内。现在我想提取/解析每页有超过 2000 个字符的字符。

python apache-tika text-extraction pdf-extraction

2020-06-21T22:00:54.970

0 投票

1 回答

110 浏览

c# - 使用 c# 提取数据

我想解析pdf并使用c#提取姓名地址联系方式等数据

pdf数据解析是使用pdfpig完成的任何人都可以建议或帮助数据提取吗？如何从可用数据中提取准确的键值对。？提前致谢！！

我想提取 ProposerName

c#pdf extract data-extraction pdf-extraction

2020-07-10T02:54:24.637

0 投票

2 回答

2390 浏览

regex - 如何仅获取 RegEx 的第一个匹配项（UiPath Studio RegEx Based Extractor）

我使用 UiPath Studio 的 OCR 从 PDF 中提取了以下文本。这是相同的文本块重复 3 次，因为它是同一 PDF 页面的原始、重复和三份。

我需要提取“-Processado por programa”后面的 4 个字符代码，但只需要 1 个匹配或第一个匹配。

已经尝试过[^*]+(?=-Processado\spor\sprograma)，(.*?)(?=-Processado\spor\sprograma)但输出了 3 场比赛。

当我删除该/g标志时它起作用了，但我使用的是 UiPath Studio 的 RegEx 提取器，我不知道如何在该程序上删除该标志。

regex ocr uipath uipath-studio pdf-extraction

2020-07-20T13:57:31.343

0 投票

2 回答

5149 浏览

python - Pdfplumber无法识别表python

我使用 Pdfplumber 提取第 2 页第 3 节（通常）的表格。但它只适用于某些 pdf，其他不适用。对于失败的 pdf 文件，似乎 Pdfplumber 读取了按钮表而不是我想要的表。

我怎样才能拿到桌子？不起作用的pdf链接： pdfA

有效的pdf链接： pdfB

这是我的代码：

结果是

但是我在第 2 页中想要的表格是

但是，此代码适用于 pdfB（我在上面提到过）。

顺便说一句，我在每个 pdf 中想要的表格在第 3 节中。

任何人都可以帮忙吗？

非常感谢琼

更新： 我刚刚找到了一个很好的包来提取 pdf 文件，没有任何问题。包是 fitz，它也被命名为 PyMuPDF。

python tabular pdf-extraction

2020-07-20T17:01:21.240

0 投票

1 回答

49 浏览

python - 如何忽略正则表达式中不需要的模式

我有以下python代码

它产生以下结果

期望的结果是：

我试过：

pattern = r'.*\n.*?(?P<auditor>[A-Z].+?\n?)$(?!Institute)(?:LLP\s*)?\s*((PRC.*?|Chinese.*?)?[Cc]ertified [Pp]ublic|[Cc]hartered) [Aa]ccountants' 此模式捕获最后两种情况，但不捕获前两种情况。

pattern = r'.*\n.*?(?P<auditor>^(?!Hong|Kong)[A-Z].+?\n?)(?:LLP\s*)?\s*((PRC.*?|Chinese.*?)?[Cc]ertified [Pp]ublic|[Cc]hartered) [Aa]ccountants' 这会产生预期的结果，但^(?!Hong|Kong)有潜在的风险，因为它可能会在未来忽略其他预期的结果，因此它不是一个好的候选者。

相反，$(?!Institute)它更通用、更合适，但我不知道为什么在前两种情况下无法匹配。如果有一种方法可以忽略包含issued by the Hong Kong Institute of

任何建议将不胜感激。谢谢你。

python regex pdf-extraction

2020-08-09T09:08:59.533

0 投票

1 回答

250 浏览

python - 如何使用 jTessBoxEditor 提高文本识别的准确性？

我一直在尝试从扫描的 pdf 文档中提取数据。我已经将 pdf 文件转换为 jpeg 文件（我附上了下面的图片链接），用不同的字体裁剪了单词和数字，合并到一个 tiff 文件中，并使用 jTessBoxEditor 训练了字体以生成一种新的语言，我在Tesseract-OCR 从文件中提取数据。但我无法提取确切的数据。tesseract-ocr 的文本识别准确率很差。

有人可以提出一种提高准确性的方法吗？

我一直试图从中提取数据的图像

python ocr tesseract python-tesseract pdf-extraction

2020-08-31T06:26:39.463

0 投票

1 回答

191 浏览

python - Python camelot 库的无边界 pdf 提取到 json 无法正常工作

谁能给我快速回答/帮助，因为我们在使用 python camelot 将 pdf 提取到 json 后面临一些问题，但没有给出确切的内容。提取后缺少某些内容。

python pdf-extraction python-camelot

2020-09-24T10:57:50.380

问题标签 [pdf-extraction]

Reference