-1

我使用 pdfminer 将 pdf-text 转换为 txt。pdfminer 遍历 pdf 文件并逐行读取。每行都分配给一个矩阵变量。问题是,由于某种原因,在极少数情况下,矩阵例如x =

[[Г, 'problems', -436, 'have', -448, 'usually', -435, 'found', -452]]

显然 Г 不带引号是矩阵(或列表)的无效语法。但是, x存在但无法删除 Г,可以理解del x[0][0]不起作用。

现在我正在询问如何访问x并删除第一个元素的想法。提前谢谢了!

4

1 回答 1

0

我解决了我的问题:

from ast import literal_eval
mr_x = str(x)
quote_pos = mr_x.find("'")
mr_x = '[[' + mr_x[quote_pos:]
x = literal_eval(mr_x)
print x

[['problems', -436, 'have', -448, 'usually', -435, 'found', -452]]
于 2015-01-20T09:11:05.130 回答