我正在尝试通过使用 pandas 作为桥梁将表格从 PDF 转换为文本格式。为此,我使用了 pdflumber 并成功地从每个单元格中手动提取文本,同时保存它们的坐标,然后使用它们将我的表格转换为 pandas Dataframe。
当我使用.to_string()
时,单元格中最大文本的大小会迫使其他尺寸很小的单元格丢失表格格式,以便以这种方式表示行:
当我使用.to_string(max_colwidth = 10)
文本时,即使保持行顺序,文本也不会自动垂直排列并消失。
String_format = final_df.to_string(header = ['Bag type', 'Mass', 'Dimension', 'Conveyability'], max_colwidth =10)
list_string = String_format.splitlines()
print(list_string)
输出:
['0 Bag type Mass Dimension Conveyability',
'1 Standard Ranges... The su... The sh... ',
'2 Bulky When e... The su... Accept... ']
如果单元格有两三个句子,如何处理这个问题?