我正在使用 camelot 进行表数据提取,但是标题没有被提取为 PDF 的一部分。
下面附上目标PDF链接和目标表在第3页和第4页,需要提取。
https://drive.google.com/file/d/1xniTIwpnNIdA_k4xvEARlVH97Lk-K2Yr/view?usp=sharing
我看过 camelot 文档,我认为问题与“检测短线”有关
https://camelot-py.readthedocs.io/en/master/user/advanced.html#detect-short-lines
但是无法通过调整line_size_scaling参数来解决问题。
请协助。