我从 MySQL 数据库中得到了一个导出,随着时间的推移,它的编码似乎有些混乱,并且包含HTML char codes
诸如& uuml;
和更多问题字符的混合,代表相同的字母,例如ü
和Ã
。我的任务是使文件恢复一些一致性并将所有内容都转换为正确的拉丁字符,例如ú
和ó
.
我正在处理的那种字符串的一个例子是
Desinfektionslösungstücher für Flächen
这应该等于
50 Tattoo Desinfektionsl ö sungst ü cher f ü r Fl ä chen
50 Tattoo Desinfektionsl ö sungst ü cher f ü r Fl ä chen
C#/.Net 4.5 中是否有一种方法可以成功地重新编码ü
和Ã
to之类的方法UTF-8
?
否则什么方法是可取的?
上面示例字符串中的段落¶
字符也是实际的段落字符还是其他字符组合的一部分?
在需要查找和替换的情况下,我创建了一个查找表,如下所示,但是我不确定它的完整性。
É -> É
“ -> "
†-> "
Ç -> Ç
à -> Ã
é, 'é
à -> ú -> ú
• -> -
Ø -> Ø
õ -> õ
à -> í
â -> â
ã -> ã
ê -> ê
á -> á
é -> é
ó -> ó
– -> –
ç -> ç
ª -> ª
º -> º
à -> à