编写一个简单的程序以从一个大的纯文本文件中提取所有邮政地址,但由于某些地址使用非标准字符而存在问题。
这是我需要处理的文件中的一些源文本:
Rua Vale de Louro, N=BA 97 Bloco 2, 1=BA A
但它需要阅读:
Rua Vale de Louro, Nº 97 Bloco 2, 1º A
现在显然我可以为这个字符做一个简单的替换,但我需要它来处理每个字符。
BA 是 utf32 中 º 符号的十六进制值(尽管前面有一个零负载)所以如果我可以编写一些代码来查找字符串中的所有这些“=xx”实例并将它们替换为可以解决的正确 utf 字符它。但对于我的生活,我无法弄清楚如何。
任何人都可以帮忙吗?
谢谢