python - 无法写入/读取从 PDF 中提取的字符串文本

问问题 2019-05-29T18:47:23.043

65 次

我已经从 PDF 中提取了整个文本并保存在变量“CCR”中。我可以打印，它可以很好地显示文本。但是当我尝试读取它的行或保存在 txt 文件中时，它只会显示/保存空白/什么都没有。有任何想法吗？

我打印变量时的示例（工作正常）：

“第 9 章 - 数字化转型”

我使用 tika 服务器来提取文本。

txt_CCR = open(r"C:\Users\guerr\OneDrive\Documentos\PYTHON\TXT_FILES\CCR.txt", "w")

txt_CCR.write(CCR)
txt_CCR.close()

当我尝试写入文件时，它给了我这个错误：

UnicodeEncodeError                        Traceback (most recent call last)
<ipython-input-23-94a2126671fc> in <module>()
      1 txt_CCR = open(r'C:\Users\guerr\OneDrive\Documentos\PYTHON\TXT_FILES\CCR.txt', 'w')
----> 2 txt_CCR.write(CCR)
      3 txt_CCR.close()

~\Anaconda3\lib\encodings\cp1252.py in encode(self, input, final)
     17 class IncrementalEncoder(codecs.IncrementalEncoder):
     18     def encode(self, input, final=False):
---> 19         return codecs.charmap_encode(input,self.errors,encoding_table)[0]
     20 
     21 class IncrementalDecoder(codecs.IncrementalDecoder):

UnicodeEncodeError: 'charmap' codec can't encode character '\uf0b7' in position 95944: character maps to <undefined>

python - 无法写入/读取从 PDF 中提取的字符串文本

0 回答 0

Related

Reference