我正在尝试摆脱文本文件中的变音符号。我使用不是我自己制作的工具将 pdf 转换为文本。我无法理解他们使用哪种编码。文本是用Nahuatl写的,正字法上熟悉西班牙语。
我将文本转换为字符串列表。不,我正在尝试执行以下操作:
# check whether there is a not-ascii character in the item
def is_ascii(word):
check = string.ascii_letters + "."
if word not in check:
return False
return True
# if there is a not ascii-character encode the string
def to_ascii(word):
if is_ascii(word) == False:
newWord = word.encode("utf8")
return newWord
return word
我想要得到的是我的字符串的 unicode 版本。到目前为止它不起作用,我尝试了几种编码,如 latin1、cp1252、iso-8859-1。我得到的是谁能告诉我我做错了什么?
我怎样才能找到正确的编码?
谢谢!
编辑:我写信给开发转换器(pdf-txt)的人,他们说他们已经在使用 unicode。所以 John Machin 在他的回答中是正确的 (1)。正如我在一些我不清楚的评论中所写的那样,因为在 Eclipse 调试器中,列表本身在 unicode 中显示了一些标志,而其他则没有。如果我分别查看这些项目,它们都以某种方式被解码,所以我实际上看到了 unicode。
感谢您的帮助!