我是 Python 新手,我正在尝试编写一个 Python 脚本,它将文本文件(以特定格式编写)解析为 XML 文件。文本文件是用非欧洲语言编写的,以 UTF-8 编码(从右到左书写),仅此一项就给我带来了一些麻烦。
文本文件格式:
{number}"|"{number}"|" {text in UTF-8}
一个例子是:
1|2|حمد ހުރީ، عالم ތަކުގެ ވެރި اللَّه އަށެވެ
最初的问题是,当从文本中读取时,单词的顺序在 Python 中被切换了。如果要阅读文本: 1|2| ABC DEF,Python 会将其显示为 1|2| DEF ABC 这显然是不正确的。
我正在使用file = open("text.txt")
并运行readlines()
它来获取文本。
为了解决这个错误,我尝试split()
将单词分开并将它们放入列表中,然后根据需要重新排序,但在这种情况下,可能存在转换错误并且我收到垃圾字符。将此类 UTF-8 字符存储到 Python 列表中并检索它们存在问题;字符没有被保留。
如果这个列表处理错误得到修复,那么编写 XML 文件应该是小菜一碟。
编辑:如果有帮助,语言是 Dhivehi,字母表是 Thaana。