问题标签 [pdftables]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

18 问题

0 投票

2 回答

2545 浏览

python - 在python中从PDF中提取所有表格

我有一个 PDF，想从该 PDF 中提取所有表格。当我运行下面的代码时，我得到空列表。

2018-09-07T09:06:55.170

0 投票

0 回答

259 浏览

itext - 从 html 字符串中提取并使用生成 pdf
我正在尝试从字符串中提取表格标签（html）并将它们输出为我在本地下载的 pdf 表格。

由于包含 html 内容的字符串是动态的，所以我不能逐个单元格或逐行映射。

例如。

`private String message = "<html><body><p class=\"MsoNormal\">`



我正在尝试从字符串中提取表格标签（html）并将它们输出为我在本地下载的 pdf 表格。

由于包含 html 内容的字符串是动态的，所以我不能逐个单元格或逐行映射。

例如。


我将收到这样的字符串，它将保存 html 内容。我必须生成与此类内容对应的pdf文件。输入字符串可能有也可能没有任何表格内容。

我在下面尝试过，但它不起作用，我收到“表格宽度不能为 0”的错误。  


有没有办法可以从提供的任何 html 字符串生成 pdf？或者，如果有任何其他工具可以用于此，请告诉我。


当一个元素被动态创建时，任何预定义的事件都不会附加到它上面。因此需要在父元素上注册事件监听器，如下所示。


第二个参数on是要触发事件的目标（动态创建的元素的类）。

        
            
itextportletpdftables            
            




         

    
            
                
             
    

            2018-10-12T06:59:54.923


    
        

                
            0
            投票
        
        
            1
            回答
        
        
            326
            浏览
        



    
    


pdf - PDFplumber 密码和 check_extractable


我正在使用 pdfplumber 库来解析 pdf。访问 pdf 文件的方法是“pdfplumber.open(path)”。有人可以帮我如何传递密码和 check_extractable 参数。

        
            
pdfpdf-parsingpdfpagespdfparserpdftables            
            




         

    
            
                
             
    

            2019-02-22T10:45:32.853


    
        

                
            0
            投票
        
        
            1
            回答
        
        
            1202
            浏览
        



    
    


java - 从 PdfPTable 列（iText）获取绝对宽度


当用相对大小指定表列时，如何从iText获取列的绝对宽度？

我试过的

我指定了 3 列，它们的相对宽度为 float，如下所示：


我得到了什么

我尝试使用table2.getAbsoluteWidths()[2]但结果是 float 0.0。

我所期望的

在 PDF 上动态计算表格宽度之后，我想获得每一列的绝对宽度（最大化）。

-  -  -  -  -  -  -  -  -  -  - - 编辑  -  -  -  -  -  -  -  -  -  -  - 

实际上，在添加文档之前我需要一列的宽度，然后替换我的硬编码浮点变量限制。

我有很多数据字符串，想在另一列中设置最大宽度页面，并在函数restrictWidthOfFont中进行拆分


在添加表格文档之前可能获得一列的宽度？

        
            
javaitextcolumn-widthpdftables            
            




         

    
            
                
             
    

            2019-03-04T06:37:03.900


    
        

                
            0
            投票
        
        
            2
            回答
        
        
            867
            浏览
        



    
    


pdf - 如何格式化/标记水平跨多个页面的可访问 PDF 表格？


我负责修复由我无法访问其布局或设计的第三方专有系统生成的 PDF。目标是在发布前通过 adobe acrobat DC 可访问性检查器。

PDF 中的某些表格水平跨越多个页面（即在第 4 列（共 7 列）有分页符）。到目前为止，我已将每个文本内容指定为“单元格”并将它们分组到“表格行”标签中，并将每个标题和子标题定义为“表格标题单元格”。

但是，Acrobat DC 似乎对每个表格元素的相对大小和间距感到困惑。它正在创建虚拟列标题并重新排列或组合行，以适应更标准的每页布局的外观。但由于我需要一张有凝聚力的表格来跨越两页，这破坏了我的可访问性。

根据我嵌套表格元素的方式，我得到了一个类似于以下两个示例之一的表格布局：

为多列标题行包含空白单元格时的示例

将多列标题行的列跨度定义为“7”时的示例

如您所见，布局不统一，没有通过规律性检查。另外，当我添加更多带有几个空白单元格的行时，表格编辑器会产生一个错误，内容为：“遇到未知的表格结构”

我设法消除此错误的唯一方法是从标记结构中完全排除粗体的主要部分子标题，但我不能将它们保留为未标记的内容并通过检查器。

请帮忙。

        
            
pdftagsaccessibilitypdftables            
            




         

    
            
                
             
    

            2019-04-01T20:57:31.227


    
        

                
            0
            投票
        
        
            1
            回答
        
        
            33
            浏览
        



    
    


pdftables - 是否可以在 PDFTables 包中转换图像 pdf


我正在尝试使用作为文本图像的 PDFtables 包转换 PDF，即当我们在 PDF 查看器中打开 PDF 并且我们无法用光标选择单词或行时。

是否有使用 PDFtables 包转换此类文件的任何解决方案？

        
            
pdftables            
            




         

    
            
                
             
    

            2019-05-06T09:44:43.950


    
        

                
            0
            投票
        
        
            0
            回答
        
        
            101
            浏览
        



    
    


r - 从R中的pdf框中提取数据


PDF 有数据框。我想从 R 中的这些框中提取所有数据。我希望在不使用 OCR 的情况下提取这些数据。



我试过 Tabulizer 包，但它给出的结果杂乱无章，无法提取。

report <- extract_tables("C:\\Users\\672158\\Desktop\\example1.pdf", encoding = "UTF-8")

        
            
rpdf-extractiontabulizerpdftables            
            




         

    
            
                
             
    

            2019-07-25T10:48:16.907


    
        

                
            0
            投票
        
        
            1
            回答
        
        
            1090
            浏览
        



    
    


java - iText 7 防止单元格在分页符上拆分


我正在尝试使用包含形状单元格的表格生成 PDF。

我覆盖CellRenderer类并在新类中绘制形状DrawableCellRenderer#draw。

有时当表格需要拆分并且单元格具有行跨度时，我想防止它拆分并从下一页开始。


我尝试过，setKeepTogether(true)但没有奏效。嵌套表也不能正常工作。

这是我使用的代码：


我想阻止这个并实现那个。

提前致谢。

        
            
javaitext7pdftables            
            




         

    
            
                
             
    

            2019-11-13T11:30:33.517


    
        

                
            0
            投票
        
        
            0
            回答
        
        
            100
            浏览
        



    
    


pdf - r 中的制表器库在 PDF 中识别表格上的非字母数字（符号）字符时出现问题


我正在使用 r 中的制表器库从位于公共网站（https://www.waterboards.ca.gov/sandiego/water_issues/programs/basin_plan/docs/update082812/Chpt_2_2012.pdf的 PDF 内的表格中捕获数据）。  

我感兴趣的示例表位于 PDF 的第 23 页（第 2-21 页，文档开头有几个空白页）。该表格具有非标准格式和不同的符号（单元格中的非字母数字字符）。我想从这个文档中提取大部分（如果不是全部的话）表。

我想最终得到一个包含带有代码的字符的表格（即，带有 999 的黑色圆圈，带有 777 的白色圆圈，以及带有 -99 的符号等）。

Tabulizer 在将黑圈转换为一致的字母数字代码并保留加号的大部分情况下做得很好，但在带有白圈的 REC1 列上遇到问题，这很奇怪，因为它似乎可以识别其他列上的奇异字符.

有人可以帮忙解决这个问题吗？我也尝试选择表格区域，但输出更糟。下面是我正在使用的 r 代码。

我知道我可以使用 PDF 的内置选择和导出工具为文档中的所有表格手动完成此过程，但希望自动化该过程。


        
            
pdfsymbolspdf-scrapingnon-alphanumericpdftables            
            




         

    
            
                
             
    

            2019-12-10T01:38:18.297


    
        

                
            0
            投票
        
        
            0
            回答
        
        
            95
            浏览
        



    
    


python - 如何在 python 中使用 glob 验证数据格式？


我的文件夹中有一个不同文件的列表，这些文件有多种格式，如 PDF、txt、Docx 和 HTML。我想验证python中文件的格式。

这是我的尝试


这样做的原因是我想遍历每个文件并检查文件是否为pdf，然后是pdf，使用python中PDFTable_api包中的API将其转换为excel并将其保存在目标文件夹中。但我觉得这不是一种有效的方法。

如果有一种有效的方法可以实现这一目标，任何人都可以帮助我吗？

        
            
pythonoperating-systemcondaglobpdftables            
            




         

    
            
                
             
    

            2020-03-28T01:59:59.443

12345678910




 
  
	Reference
	
		php × 1429865 
	
	
		c/c++ × 756500 
	
	
		nginx × 49975 
	
	
		mongodb × 159057 
	
	
		mybatis × 3233 
	
	
		anaconda × 13410 
	
		
		pycharm × 14671 
	
	
		python × 1902243 
	
	
		vscode × 56040 
	
		
		docker × 110988 
	
	
		github × 49000 
	
	
		flask × 49129 
	
	
		ffmpeg × 24037 
	
	
	
		jmeter × 16910 
	
	
		matplotlib × 63493 
	
	
		bootstrap × 54641

问题标签 [pdftables]

itext - 从 html 字符串中提取并使用生成 pdf我正在尝试从字符串中提取表格标签（html）并将它们输出为我在本地下载的 pdf 表格。 由于包含 html 内容的字符串是动态的，所以我不能逐个单元格或逐行映射。 例如。

我试过的

我得到了什么

我所期望的

Reference