我们对 Apple App Store 上的应用程序进行索引,但需要过滤掉那些描述不是用英文写成的应用程序。
但是,我们当前的算法失败了。例如,它在为这场比赛打分时失败了,因为它不是用英文写的。
这是我们用来确定某些内容是否被视为英语的布尔方法和正则表达式:
NonEnglishRegex = /[^\040-\176\u2000-\u206F\u2100-\u214F\u2E00-\u2E7F\u3000-\u303F\u00AE\u2605\u272b-\u272e\s]/
def not_english?(text)
text.gsub(NonEnglishRegex, '').length.to_f / text.length < 0.95
end
有没有更好的办法?我们正在使用 Ruby。