我们的编程团队目前使用的是一个使用Win1252编码的数据库,但是这个数据库本身也不太擅长过滤掉坏数据。
很多时候,我们程序的最终用户只是简单地从 MSWord 复制并粘贴他们的信息,然后插入到我们的数据库中,这会导致我们的数据库中出现各种有时无法解释的时髦字符。
目前是否有任何库可以解析使用 MSWord 的本机编码编码的字符串并将其转换为类似的ascii、UTF8 或 Win1252 格式?
类似地,我的意思是将看起来像 `` 的奇怪双引号翻译成典型的 "。
如果我的问题完全模糊,请通知我,以便我可以根据需要进行更新。