问题标签 [pdftables]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
369 浏览

c# - 如何在 c# 中使用 itextsharp 对齐添加到单个表的多个表?

我创建了一个包含 3 列的表和另一个包含 6 列的表,然后将其添加到另一个表中以使其成为一个表。我想对齐 3 列表的第二列和 6 列表的第二列,如下所示:

预期结果

谁能告诉我如何对齐 2 个不同表格的第二列?我正在使用 iTextsharp 创建表格。

0 投票
1 回答
63 浏览

itext7 - 如何创建在用户指定位置具有单元格的 itext 表

我需要在 iText PDF 表格中添加图像,但单元格的位置(由图像组成)将取决于用户给出的索引(行号和列号)。如果没有给出任何图像的索引,则该表之间也可能有空单元格。

如何在随机位置在itext pdf中添加一个单元格?

我在各种论坛上寻找过这个,但没有成功。我真的很感激帮助。

0 投票
0 回答
13 浏览

c# - PDFTables .NET 如何注入 PDF 流数据而不是文件

我正在使用 PDFTables 将 PDF 文件转换为 excel。我正在使用的 C# 示例将 PDF 文件直接注入 POST url 参数。由于我使用 aws S3 云存储来保存 PDF 文件,因此我想将 PDF 数据作为流而不是文件注入。所有将数据作为流传递的尝试都无法运行。在分析保存 PDF 文件的 MultipartFormDataContent 时,它包含文件名而不是流。有什么帮助吗?

0 投票
1 回答
58 浏览

python - Camelot 无法提取整个表

我使用 Camelot 从 PDF 中提取表格信息,我使用 ocrmypdf(500dpi) 将其从扫描转换为可搜索。

Camelot 似乎能够识别表并提取表中的大部分数据,但似乎无法提取下半部分。本质上,它看到了表格的上半部分,但似乎无法将文本与下半部分分开。

这是相关 PDF 中的表格:

PDF 中的表格

但是当我使用 Camelot 的可视化调试方法时,我要求它向我展示它将提取的单词,它似乎将表格的底部识别为一个巨大的块

表的可视化调试

您可以在此处提供的有关改进 Camelots“视力”的任何指导都会有所帮助。

0 投票
0 回答
70 浏览

python - 使用 pdftabextract 提取 PDF 表格数据

我正在尝试从基于文本的 pdf 中提取表格数据。PDF 有不同的格式,我必须制定一个通用的解决方案。我遇到了一个名为“pdftabextract”的库来完成这项任务。但是,它适用于扫描的文档,并且专为相同的目的而设计。

我想将它用于基于文本的 pdf,但不知道该怎么做。

文章链接:https ://datascience.blog.wzb.eu/2017/02/16/data-mining-ocr-pdfs-using-pdftabextract-to-liberate-tabular-data-from-scanned-documents/

上面的文章显示了一步一步的方法。但是,我不知道如何将它用于基于文本的 pdf。请帮忙。

0 投票
0 回答
28 浏览

c# - iTextsharp 表格单元格中断问题

我正在处理 pdf 生成任务,但我在 pdf 单元格中遇到问题。

这是我的代码:

这是我将单元格添加到 PDF 的功能

我创建了一些常用函数来创建表格和单元格

这就是我使用它的方式

此代码在数据仅限于单个页面时有效,但如果数据较大则失败 有大空白空间的页面

它在 2 张桌子之间创建空白空间

我试图添加

但它没有用。

0 投票
0 回答
61 浏览

pdf - 使用 Camelot 从 PDF 中提取时缺少某些表

我尝试使用以下代码从多页多表 PDF 中提取表数据

在此处输入图像描述

但是第 2 页中的 4,5 个表没有被提取。在其他页面中正确提取的相同类型的表

附上我尝试的PDF文件图像作为示例

没有显示错误

0 投票
1 回答
41 浏览

c# - 自动断线 PdfTable 单元格 PdfFileWriter c#

我正在编写一个程序,它从 SQLite 文件中检索 Cutomer 数据并将它们存储在 PDF 文件中的 PdfTable 中,例如:

这段代码几乎在所有情况下都能正常工作,但由于数十年来数百人收集了数据库中的入口,因此数据值的长度范围很广。虽然我输入的宽度值对于大多数情况来说都足够了,但可能会有更长的特定入口。由于我使用的数据相当关键,我不能忽略这几个案例。我最初的想法是 PdfTable 会自动弯曲一个新行并使单元格更高。但是当我在测试中遇到这个确切的问题时,我注意到文本一直在继续并覆盖下一个单元格。是否有一个简单的解决方法,我可以告诉 PdfTable 自动执行此操作,还是我必须计算字符串中的字母数并为每个长的值分配它?由于我仍然是编程的初学者,因此我非常感谢任何帮助和输入。