我对 Python 很陌生,所以我的问题可能很愚蠢,但即使阅读了很多线程,我也没有找到问题的答案。
我有一个混合源文档,其中包含 html、xml、latex 和其他文本格式,并且我尝试将其转换为纯乳胶格式。
因此,我使用 python 将不同的命令识别为正则表达式,并用适当的 latex 命令替换它们。到目前为止,一切都很好。
现在我留下了一些“原始类型”的 Unicode 符号,例如希腊字母。不幸的是,手工完成的工作太多了。因此,我也在寻找一种聪明的方法来做到这一点。Python有没有办法识别/读取它们?我如何告诉 python 识别/读取例如 Pi 写成希腊字母?
我使用的代码的一个最小示例是:
fh = open('SOURCE_DOCUMENT','r')
stuff = fh.read()
fh.close()
new_stuff = re.sub('READ','REPLACE',stuff)
fh = open('LATEX_DOCUMENT','w')
fh.write(new_stuff)
fh.close()
我不确定这是否是重要信息,但我使用的是在 Windows 上运行的 Python 2.6。
如果有人可以给我提示,我会非常高兴,至少在哪里可以找到相关信息或这可能如何工作。或者我是否完全错了,Python无法完成这项工作......
提前谢谢了。
干杯,
布丽塔