问题标签 [pdf-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Tabula-py 从我试图提取的 PDF 文档中省略页面
我正在尝试使用 tabula-py 从多页 PDF 中提取表格,虽然 PDF 某些页面上的表格被完美提取,但某些页面被完全省略。
遗漏似乎是随机的,不遵循 PDF 上任何可见的视觉特征(因为每个页面看起来都一样),因此 tabula 省略了第 1 页,提取的第 2 页,省略了第 3 和第 4 页,提取的第 5 页,省略了页面6,提取第8页和第9页,省略10,提取11等。我有macOS Sierra 10.12.6和Python 3.6.3 :: Anaconda custom(64位)。
我尝试将 PDF 分成更短的部分,甚至分成单页,但无论我尝试什么,似乎都无法提取被省略的页面。我已经阅读了 Tabula-py GitHub 页面以及 Stack Overflow 上的相关文档并提交了问题,但我似乎没有找到解决方案。
我通过 iPython 笔记本使用的代码如下:
通过终端安装表格:
要在我的 PDF 中提取表格:
我还尝试了以下方法,但没有任何区别
要将数据框保存到 csv 中:
如果您能帮我解决这个问题,我将非常感激,因为我觉得我被 PDF 卡住了,我只能从中提取大约 50% 的数据。这真令人生气,因为 50% 看起来绝对完美,但其他 50% 似乎超出了我的能力范围,使得分析数据的更大项目变得不可能。
我还想知道这是否可能是 PDF 而不是 Tabula 的问题 - 文件是否会被错误地设置为受保护或锁定,你们中是否有人知道我如何检查并打开它?
提前致谢!
python-3.x - 从 PDF 文档中提取特定片段
我有一些 pdf 格式的研究论文,我想从论文中提取介绍/背景等。另外,我只能使用python。有人可以帮忙吗?
python - PyPDF2从扫描的pdf中提取垂直文本
我正在尝试使用 PyPDF2 从扫描的 pdf 中提取文本。一些 pdf 包含垂直对齐的文本。但是页面的方向是纵向的。有什么方法可以识别文本是否垂直对齐并使用 pdfminer 或 PyPDF2 读取 PDF 中的垂直线
python - Tabula CalledProcessError:返回非零退出状态 2. 尽一切可能
在 python 上使用 Tabula 时,我不断收到此错误。
我已经完成了与此相关的每个 stackoverflow 问题以及博客。
我的 JDK JRE 是最新的。
java 版本 "1.8.0_161" Java(TM) SE Runtime Environment (build 1.8.0_161-b12) Java HotSpot(TM) 64-Bit Server VM (build 25.161-b12, mixed mode)
我的路径在环境变量中正确定义。
在 Anaconda 上运行的 Python 版本。
Python 3.6.5 |Anaconda, Inc
我也尝试过编码。
感谢帮助。
python - 如何在 PDFPlumber 库中使用 page.filter(test_function)?
我正在尝试删除 pdf 页面内的表格,并尝试为此使用page.filter()函数,这里我有表格bbox 坐标 ,我试图比较对象坐标是否在表格坐标内。但我找不到过滤功能的任何示例用法。
这是文档链接
我尝试过这种方式:
但不幸的是,这种用法不起作用,请帮助了解如何使用 page.filter 功能
node.js - Node.js - 使用 Google Cloud Vision API 从 PDF 文件中提取文本的问题
我是云环境和一般编程的新手,我正在努力使用 Google Vision API 从位于远程存储桶中的 PDF 文件中提取文本。
我发现很难在文档中甚至在 Stack Overflow 中获得与该主题相关的有意义的内容。我最接近解决这个问题的是这个问题:
但由于下面描述的原因,它对我不起作用,这就是为什么我要问我自己的问题。
这是问题所在:
我正在向指定的 url 发出以下 post 请求
POST 请求成功,然后根据我的发现,我必须使用我从之前的 post 请求中收到的响应发出一个 get 请求来检查文档文本检测是否完成。如果完成,它应该在我的 Bucket 内的文件中写入响应(这就是我在上面的 json 中配置“输出”的原因)
但是,当我在 url 上发出 get 请求时
我收到以下错误:
即使有办法解决这个问题来编写最终输出,我想知道这是否是从 pdf 中提取数据的最佳方法,发帖和获取看起来很奇怪,特别是考虑到当你提取时使用相同 API 从图像中获取数据,您只需发出一个请求
谢谢您的帮助。
python - 如何使用 python 打印 .pdf 文件中的表格
CalledProcessError: 命令'['java', '-Dfile.encoding=UTF8', '-jar', 'C:\Users\vijv2c13136\AppData\Local\Continuum\anaconda2\lib\site-packages\tabula\tabula-1.0 .2-jar-with-dependencies.jar', '--pages', 'all', '--guess', '--format', 'JSON', 'TONY.pdf']' 返回非零退出状态 2
当我尝试打印 .pdf 文件中的表格时。它显示了这个特定的错误。
这是我的 .pdf 文件的表格提取代码。但是,当我尝试打印时,它会显示上述错误。
python - Python-Camelot 提取空表
我正在使用 Camelot 通过以下命令提取 PDF 的多个部分。
当 PDF 实际包含这些区域中的数据时,这运行良好。但我不希望在每个解析的 PDF 中都有数据,有些返回的是空的。当返回的数据不是表格并且只有一列时,我收到以下错误。
和
我需要一种方法来提取所有 PDF 中的这些特定区域,但之后忽略空的区域。需要能够有序地使用提取的数据。
也欢迎任何其他建议
TIA
python - 使用 Camelot 查找 PDF 尺寸
我正在使用 Camelot 阅读完整的 PDF,并从每个 PDF 中提取大约 112 个属性。
我使用表格区域来提取属性
问题是所有文档中相同属性的表格区域不是恒定的。有时我会在另一个文档中的 x 或 y 坐标下几个像素处找到相同的属性。
无论提取任何文档,有没有办法从同一区域获取确切的属性?