问题标签 [pdf-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mupdf - PyMuPDF中的段落提取
我正在使用 PyMuPDF 从块单元的 PDF 中提取文本。在许多情况下,“块”似乎只是默认为换行符分隔的单元,而不是逻辑段落。
(example.pdf 可以在这里找到)
如果不是从 Mac 的沼泽标准预览应用程序直接复制/粘贴,我可以忍受这一点,精美地保留了段落。PyMuPDF 不做的 Preview 是什么?我的管道的其余部分几乎都锁定在 PyMuPDF 中,所以我不能真正使用 Preview 进行提取。
python - 如何从 Python 中的 URL 下载 pdf 并将其转换为全文(用于数据集传递的 HTML/字典)?
我以下面的 pdf 为例:
我如何在 python 中远程下载这个 pdf 到本地;将其转换为 HTML 中的全文或 Python 字典以输入到外部数据库(如 MySQL)?
我正计划使用数据集传递到 MySQL。
有人成功了吗?
谢谢!
〜布兰登
python - 尝试从 PDF 中提取时出现“Nonetype 对象不可迭代”
我正在尝试从 PDF 中提取数据,但我不断收到类型错误,因为我的对象不可迭代(在声明中for line in text:
但我不明白为什么“文本”没有价值,就在上面我使用创建文本对象text = page.extract.text()
然后我想遍历文本的每一行以查找与我的正则表达式匹配的内容。
恐怕我的陈述for line in text:
有问题;也许使用'line'是不合适的,但我不知道还能做什么。
我的代码如下,感谢观看!
python - Python - OpenCV pytesseract 不从裁剪图像中提取字符串
我有一张图片(附加)并想从表单中提取某些字段。例如名字“莎拉”、她的电子邮件地址等。我有感兴趣的区域,它被突出显示,然后被裁剪。出于某种原因,我从图像到字符串的输出显示为空?
所需的输出应提取数据。请有人能指出我正确的方向吗?我正在关注这个很棒的上下文教程:https ://www.youtube.com/watch?v=cUOcY9ZpKxw
下面的代码:
python - PDF到Python中的文本在图像文件中返回空结果
我有这个pdf 文件。基于图像的低分辨率 pdf 文件。我正在尝试提取其中的数据,而我尝试过的所有选项似乎都不起作用。
选项 1 - 使用 pdfminer
选项 2 - 使用 tika
选项 3 - 使用 pypdf
所有选项都返回空结果。我想这可能与文件的质量有关。我知道我们可以处理图像并增加图像特征以简化数据提取(增加图像大小、处理阈值等,你可以用 PIL 做很多事情)。有没有一种有效的方法来处理 pdf 文件?
python - 使用 io 从 PDF url 中提取文本,PyPDF2 没有输出
我正在尝试从 pdf url 中提取文本。如果我下载 PDF,我可以使用 函数轻松提取文本slate
。但是,当尝试导入 pdfio
并提取文本时,返回的输出什么都没有。下面附上的代码。
我尝试了许多其他功能,但都无法正常工作。难道我做错了什么?
python - 如何在 PDF 文件中查找表格网格线?
为了更准确地提取嵌入在表格单元格中的类似表格的数据,我希望能够识别 PDF 中的表格单元格边界,如下所示:
我曾尝试使用 Camelot、pdfplumber 和 PyMuPDF 提取此类表,并取得了不同程度的成功。但由于我们收到的 PDF 不一致,即使指定表格边界,我也无法可靠地获得准确的结果。
我发现如果我通过明确指定单元格边界来单独提取每个表格单元格,结果会更好。我已经通过手动输入边界进行了测试,这是我使用 Camelot 的可视化调试工具获得的。
我的挑战是如何以编程方式识别表格单元格边界,因为表格可能从页面上的任何位置开始,并且单元格的垂直高度可变。
在我看来,可以通过查找行分隔线的坐标来做到这一点,这对人类来说在视觉上是如此明显。但我还没有弄清楚如何使用 python 工具找到这些行。这是可能的,还是有其他/更好的方法来解决这个问题?
c++ - PDF 中的自定义字符集表
我想在我的 PDF 查看器(C++ Windows 应用程序)中打印这些字符 PDF 示例恰好包含具有这些DifferenceArray 的“Type1Fonts” ,并且不存在 toUnicodeTable。内容流包含以下 Tj
我必须阅读字符的方式应该是使用“差异数组”
此处显示“自定义字符集”表
获得正确的 CustomcharsetIndex 后,我可以使用 Freetype 库来获取 glyphIndex 并将字形绘制到我的查看器中
int glyphIndex = FT_Get_Char_Index (face, CustomcharsetIndex)
我无法弄清楚“step2”。有什么建议,有没有办法使用 Freetype API 来解决这个问题,因为我有差异字符串“afii10021”(第 1 步)?
python - 使用 Amazon textract 将所有表格数据从 PDF 导出到 Excel
期待使用 Amazon Textract 将 PDF 数据提取到 Excel/CSV。我们如何从本地文件夹插入输入 PDF 数据。
有了包含多个表格的 PDF,我们需要从它们各自的页面中提取所有表格并将数据导出到 CSV/Excel 文件。可用于进一步分析。
从 AWS 收到的一段代码,但无法理解如何将输入的 pdf 文件纳入脚本。
示例 PDF 文件点击这里
itext7 - 我可以在 vb.net 中使用 itext 7 从 PDF 中提取表格吗,如果可以,请分享一些代码建议
我需要使用 itext7 从 pdf 中提取表格,因为它在 vb.net 中。如果可能,请提供帮助