问题标签 [pdf-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - python Django中如何区分上传的PDF通过正则表达式提取数据
这是上传的 pdf 文件,它会将其转换为文本。转换为文本后,我使用正则表达式从 pdf 中获取一些特定数据。现在有各种各样的 pdf,我必须为每个 pdf 使用不同类型的正则表达式。但我在if条件下区分pdf时遇到问题,如下所示。我在这里所做的只是去第一个 if 条件。如何将 pdf 传递到我想要的位置,我的意思是我创建的特定正则表达式。或者有没有其他方法可以做到这一点,主要是我只是想为一些特定的数据建立 pdf 提取器。
pdf - 从不同格式的 pdf 发票中提取数据
目标是从 pdf 格式的发票中提取数据。
Pdf 数据格式:可选文本(非扫描图像)由文本行、名称-值对、表格(不同长度)组成
发票数据包括:名称-值对中的 invoice_no、invoice_date、order_no、order_date 表格格式 final_taxation_info 和 Gross_total 的项目详细信息(item_code、名称、费率、数量、折扣、价格等)
输入:每周收到大量具有相似和不同格式的发票
输出:提取发票数据并插入数据库
迄今为止尝试或考虑的方法:
- 使用库在 C# 中编写自定义算法,例如 iText7、PDFix、GemBox.Pdf、GroupDocs.Parser、Bytescout.PDFExtractor、Sautinsoft.pdffocus、Spire.PDF 等。 缺点:必须为新的 pdf 修改或编写新算法格式。
- 数据提取工具,例如 SmallPDF、Convertapi.com、cometdocs.com、groupdocs.app。 缺点:无法控制提取算法。
- 模板引导提取,如 Pdf_Element、Tabula、Docparser、iText pdf2Data。 缺点:当表长度变化时失败。
- 基于AI/ML的提取、自动化工具/服务,例如 AWS Textract、UiPath、KlearStack、IQ Bot(我还没有深入尝试过最后一种方法,只是触及了表面)。 缺点:不确定,但似乎学习曲线或成本可能是绊脚石。
考虑到整个情况,任何人都可以建议我应该遵循哪种方法。
python - 如何在python中使用tika解析器提取每页超过2000个字符的pdf页面?
我想使用python中的tika解析器提取每页超过2000个字符的pdf页面。从下面的代码中,我提取了 [元数据] 并从中 pdf:charsPerPage
获取了每页的最小字符数限制(如 2000)。我未能集成pdf:charsPerPage
代码以从解析器中获取 [内容] 数据。这是下面的代码:
从上面['pdf:charsPerPage']
第一个元素的字符数少于 2000,通过上述操作,我们将字符数限制排除在 2000 以内。现在我想提取/解析每页有超过 2000 个字符的字符。
c# - 使用 c# 提取数据
我想解析pdf并使用c#提取姓名地址联系方式等数据
pdf数据解析是使用pdfpig完成的 任何人都可以建议或帮助数据提取吗?如何从可用数据中提取准确的键值对。?提前致谢!!
我想提取 ProposerName
regex - 如何仅获取 RegEx 的第一个匹配项(UiPath Studio RegEx Based Extractor)
我使用 UiPath Studio 的 OCR 从 PDF 中提取了以下文本。这是相同的文本块重复 3 次,因为它是同一 PDF 页面的原始、重复和三份。
我需要提取“-Processado por programa”后面的 4 个字符代码,但只需要 1 个匹配或第一个匹配。
已经尝试过[^*]+(?=-Processado\spor\sprograma)
,(.*?)(?=-Processado\spor\sprograma)
但输出了 3 场比赛。
当我删除该/g
标志时它起作用了,但我使用的是 UiPath Studio 的 RegEx 提取器,我不知道如何在该程序上删除该标志。
python - 如何忽略正则表达式中不需要的模式
我有以下python代码
它产生以下结果
期望的结果是:
我试过:
pattern = r'.*\n.*?(?P<auditor>[A-Z].+?\n?)$(?!Institute)(?:LLP\s*)?\s*((PRC.*?|Chinese.*?)?[Cc]ertified [Pp]ublic|[Cc]hartered) [Aa]ccountants'
此模式捕获最后两种情况,但不捕获前两种情况。
pattern = r'.*\n.*?(?P<auditor>^(?!Hong|Kong)[A-Z].+?\n?)(?:LLP\s*)?\s*((PRC.*?|Chinese.*?)?[Cc]ertified [Pp]ublic|[Cc]hartered) [Aa]ccountants'
这会产生预期的结果,但^(?!Hong|Kong)
有潜在的风险,因为它可能会在未来忽略其他预期的结果,因此它不是一个好的候选者。
相反,$(?!Institute)
它更通用、更合适,但我不知道为什么在前两种情况下无法匹配。如果有一种方法可以忽略包含issued by the Hong Kong Institute of
任何建议将不胜感激。谢谢你。
python - 如何使用 jTessBoxEditor 提高文本识别的准确性?
我一直在尝试从扫描的 pdf 文档中提取数据。我已经将 pdf 文件转换为 jpeg 文件(我附上了下面的图片链接),用不同的字体裁剪了单词和数字,合并到一个 tiff 文件中,并使用 jTessBoxEditor 训练了字体以生成一种新的语言,我在Tesseract-OCR 从文件中提取数据。但我无法提取确切的数据。tesseract-ocr 的文本识别准确率很差。
有人可以提出一种提高准确性的方法吗?
python - Python camelot 库的无边界 pdf 提取到 json 无法正常工作
谁能给我快速回答/帮助,因为我们在使用 python camelot 将 pdf 提取到 json 后面临一些问题,但没有给出确切的内容。提取后缺少某些内容。