我正在使用 Camelot 从 pdf 中提取文本。pdf 还包含 Camelot 为其打印Cid的中文字符。例如(cid:3634)
我想去掉那些 CID,因为汉字对我没有影响。
我试过这个:
>>> tables = camelot.read_pdf('D:/iolo/1. Hangcha/1. FORKLIFTS ELECTRIC/2. NK15E - 3 WHEEL - NEW-(2014)/copy.pdf',pages='12',strip_text='(cid:[0-9])')
但只删除 CID 帧而不是其中的数字。
请在此处查看示例输出图像 请帮助。