pandas - UTF-8 编码错误，但已编码

问问题 2017-06-02T19:54:58.860

82 次

我已经获取了一个 PDF 并将其转换为文本，我试图通过“FIGURE”将其分解为不同的部分。当我在整个文本文件的一个子集上运行我的代码时，它会运行，但是当我尝试执行整个文本文件时它不会运行。有任何想法吗？这是我得到的错误和我的代码。

UnicodeDecodeError：“ascii”编解码器无法解码位置 851 中的字节 0x92：序数不在范围内（128）

import re
import pandas as pd
from pandas import ExcelWriter

with open(r'\Desktop\Python\Python 2.7\InFile\dataIn.txt', 
'r') as myFile:
    data = myFile.read().replace('\n', '').decode('utf-8')
    file = re.split('FIGURE',data)


df = pd.DataFrame(file, columns=None)

writer = ExcelWriter('PythonExport.xlsx')
df.to_excel(writer,'Sheet1')
writer.save()

pandas - UTF-8 编码错误，但已编码

0 回答 0

Related

Reference