最近我尝试使用 tabula 来解析 pdf 中的表格,该表格的每个字段中都不包含任何行。
这导致创建一个列表,将所有不同的字段组合成一个(输出示例)。
如何将此单个字符串转换为数据框,以便我可以操纵数字?非常感谢
问题中没有给出要测试的虚拟文件,但是如果 pdf 表的列之间没有分隔线,并且从表格中提取后表格合并为一列,请尝试在表格中使用参数“列”。阅读_pdf。
根据Tabula Documentation,此参数的工作方式如下:
columns (list, optional) –
X coordinates of column boundaries.
因此,如果每个 PDF 的 PDF 格式都相同,您可以找到要从中分离数据的列的 X 坐标。为此,您可以使用任何 PDF 工具,例如 Adobe,也可以点击试用。
仍有疑问,请附上虚拟 PDF,以便查看。