我已经从 PDF 中提取了整个文本并保存在变量“CCR”中。我可以打印,它可以很好地显示文本。但是当我尝试读取它的行或保存在 txt 文件中时,它只会显示/保存空白/什么都没有。有任何想法吗?
我打印变量时的示例(工作正常):
“第 9 章 - 数字化转型”
我使用 tika 服务器来提取文本。
txt_CCR = open(r"C:\Users\guerr\OneDrive\Documentos\PYTHON\TXT_FILES\CCR.txt", "w")
txt_CCR.write(CCR)
txt_CCR.close()
当我尝试写入文件时,它给了我这个错误:
UnicodeEncodeError Traceback (most recent call last)
<ipython-input-23-94a2126671fc> in <module>()
1 txt_CCR = open(r'C:\Users\guerr\OneDrive\Documentos\PYTHON\TXT_FILES\CCR.txt', 'w')
----> 2 txt_CCR.write(CCR)
3 txt_CCR.close()
~\Anaconda3\lib\encodings\cp1252.py in encode(self, input, final)
17 class IncrementalEncoder(codecs.IncrementalEncoder):
18 def encode(self, input, final=False):
---> 19 return codecs.charmap_encode(input,self.errors,encoding_table)[0]
20
21 class IncrementalDecoder(codecs.IncrementalDecoder):
UnicodeEncodeError: 'charmap' codec can't encode character '\uf0b7' in position 95944: character maps to <undefined>