问题
我们正在接收字符串,它们可能代表公司名称或个人姓名。我们需要一个启发式来确定这一点。
最初的想法
使用带有节点 Commercial String /Commercial 或 Personal String /Personal 的 XML 文档,并且得分匹配字符串 +1(抱歉不知道如何在 SO 中格式化 XML)
不能只检查专有名词。IE Bob's Company 是一家以 Bob Compton 命名的公司
需要以某种格式返回置信水平。我想不出如何用百分比来做,我能想到的就是如果找到匹配项使用整数
可能的商业(全部都将转换为小写):co、co.、inc、inc. 等(每个的详细版本)
我可以从网上得到一份英文名单
问题
有没有人遇到过这种域问题?你用了什么方法?有什么华丽的方法可以解决这个问题吗?
谢谢你。