4

我有一堆输入数据,有时我会得到一些垃圾字符,例如:

“点婴儿送礼会邀请函”

显然在过去的某个时候它是"Dots Baby Shower Invitations"。但它对我来说是乱码。在这种情况下,我很乐意删除垃圾â字符。

但是我的数据集非常大,仅删除所有非英文字符可能有点幼稚,就像单词 naïve 一样。我当然不想ï被删除。

那么这个问题是否有潜在的自动化解决方案?有没有人来过我这个问题?这是“计算机不如人类聪明”的案例吗?

4

1 回答 1

1

您可以使用WordNet之类的英语词典,只修改其中找不到的单词。例如, naïve包含一个“奇怪”字符,但在字典中,因此它不会被更改。â另一方面,Dots 也包含一个奇怪的字符,但不会(希望)出现在字典中,因此将对其进行修改并删除â 。

这可能需要付出太多努力,但是正如您所说,您需要一个快速可行的解决方案,也许值得一试……而且它可能比快速破解的启发式更好!

于 2013-01-06T00:58:18.213 回答