问题标签 [pdftables]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在python中从PDF中提取所有表格
我有一个 PDF,想从该 PDF 中提取所有表格。当我运行下面的代码时,我得到空列表。
pdf - PDFplumber 密码和 check_extractable
我正在使用 pdfplumber 库来解析 pdf。访问 pdf 文件的方法是“pdfplumber.open(path)”。有人可以帮我如何传递密码和 check_extractable 参数。
java - 从 PdfPTable 列(iText)获取绝对宽度
当用相对大小指定表列时,如何从iText获取列的绝对宽度?
我试过的
我指定了 3 列,它们的相对宽度为 float,如下所示:
我得到了什么
我尝试使用table2.getAbsoluteWidths()[2]
但结果是 float 0.0
。
我所期望的
在 PDF 上动态计算表格宽度之后,我想获得每一列的绝对宽度(最大化)。
- - - - - - - - - - - - 编辑 - - - - - - - - - - -
实际上,在添加文档之前我需要一列的宽度,然后替换我的硬编码浮点变量限制。
我有很多数据字符串,想在另一列中设置最大宽度页面,并在函数restrictWidthOfFont中进行拆分
在添加表格文档之前可能获得一列的宽度?
pdf - 如何格式化/标记水平跨多个页面的可访问 PDF 表格?
我负责修复由我无法访问其布局或设计的第三方专有系统生成的 PDF。目标是在发布前通过 adobe acrobat DC 可访问性检查器。
PDF 中的某些表格水平跨越多个页面(即在第 4 列(共 7 列)有分页符)。到目前为止,我已将每个文本内容指定为“单元格”并将它们分组到“表格行”标签中,并将每个标题和子标题定义为“表格标题单元格”。
但是,Acrobat DC 似乎对每个表格元素的相对大小和间距感到困惑。它正在创建虚拟列标题并重新排列或组合行,以适应更标准的每页布局的外观。但由于我需要一张有凝聚力的表格来跨越两页,这破坏了我的可访问性。
根据我嵌套表格元素的方式,我得到了一个类似于以下两个示例之一的表格布局:
如您所见,布局不统一,没有通过规律性检查。另外,当我添加更多带有几个空白单元格的行时,表格编辑器会产生一个错误,内容为:“遇到未知的表格结构”
我设法消除此错误的唯一方法是从标记结构中完全排除粗体的主要部分子标题,但我不能将它们保留为未标记的内容并通过检查器。
请帮忙。
pdftables - 是否可以在 PDFTables 包中转换图像 pdf
我正在尝试使用作为文本图像的 PDFtables 包转换 PDF,即当我们在 PDF 查看器中打开 PDF 并且我们无法用光标选择单词或行时。
是否有使用 PDFtables 包转换此类文件的任何解决方案?
r - 从R中的pdf框中提取数据
PDF 有数据框。我想从 R 中的这些框中提取所有数据。我希望在不使用 OCR 的情况下提取这些数据。
我试过 Tabulizer 包,但它给出的结果杂乱无章,无法提取。
report <- extract_tables("C:\\Users\\672158\\Desktop\\example1.pdf", encoding = "UTF-8")
pdf - r 中的制表器库在 PDF 中识别表格上的非字母数字(符号)字符时出现问题
我正在使用 r 中的制表器库从位于公共网站(https://www.waterboards.ca.gov/sandiego/water_issues/programs/basin_plan/docs/update082812/Chpt_2_2012.pdf的 PDF 内的表格中捕获数据)。
我感兴趣的示例表位于 PDF 的第 23 页(第 2-21 页,文档开头有几个空白页)。该表格具有非标准格式和不同的符号(单元格中的非字母数字字符)。我想从这个文档中提取大部分(如果不是全部的话)表。
我想最终得到一个包含带有代码的字符的表格(即,带有 999 的黑色圆圈,带有 777 的白色圆圈,以及带有 -99 的符号等)。
Tabulizer 在将黑圈转换为一致的字母数字代码并保留加号的大部分情况下做得很好,但在带有白圈的 REC1 列上遇到问题,这很奇怪,因为它似乎可以识别其他列上的奇异字符.
有人可以帮忙解决这个问题吗?我也尝试选择表格区域,但输出更糟。下面是我正在使用的 r 代码。
我知道我可以使用 PDF 的内置选择和导出工具为文档中的所有表格手动完成此过程,但希望自动化该过程。
python - 如何在 python 中使用 glob 验证数据格式?
我的文件夹中有一个不同文件的列表,这些文件有多种格式,如 PDF、txt、Docx 和 HTML。我想验证python中文件的格式。
这是我的尝试
这样做的原因是我想遍历每个文件并检查文件是否为pdf,然后是pdf,使用python中PDFTable_api包中的API将其转换为excel并将其保存在目标文件夹中。但我觉得这不是一种有效的方法。
如果有一种有效的方法可以实现这一目标,任何人都可以帮助我吗?