我已经获取了一个 PDF 并将其转换为文本,我试图通过“FIGURE”将其分解为不同的部分。当我在整个文本文件的一个子集上运行我的代码时,它会运行,但是当我尝试执行整个文本文件时它不会运行。有任何想法吗?这是我得到的错误和我的代码。
UnicodeDecodeError:“ascii”编解码器无法解码位置 851 中的字节 0x92:序数不在范围内(128)
import re
import pandas as pd
from pandas import ExcelWriter
with open(r'\Desktop\Python\Python 2.7\InFile\dataIn.txt',
'r') as myFile:
data = myFile.read().replace('\n', '').decode('utf-8')
file = re.split('FIGURE',data)
df = pd.DataFrame(file, columns=None)
writer = ExcelWriter('PythonExport.xlsx')
df.to_excel(writer,'Sheet1')
writer.save()