我正在开展一项调查计划,人们将在他们第一次填写调查表时获得促销考虑。在很多情况下,我们可以阻止人们欺骗系统并获得他们不应得到的晋升的唯一方法是相互检查街道地址字符串。
我正在考虑使用 levenshtein 距离给我一个数字来衡量相似性,并将低于某个阈值的那些视为重复项。
但是,如果有人想玩这个系统,他们可以很容易地写成“S 5th St”而不是“South Fifth Street”,levenshtein 会认为这些字符串非常不同。所以然后我想将所有字符串转换为“标准地址形式”,即“South”变成“s”,“Fifth”变成“5th”,等等。
然后我在想这是没有希望的,并且需要付出太多努力才能使其正常运行。是吗?
我正在使用 PHP/MySql,所以我有该系统固有的限制。