4

我正在使用来自英国公共部门的开放政府数据进行竞争对手分析。但是我的结果有一些异常。当我按公司名称对合同进行分组时,会出现很多问题,例如公司拼写错误或名称不同。例如 HP、Hewlett-Packard、Hewlett-Packard Limited、ibm、ibm UK、ibm UK Limited 等。问题是我已经运行了我的代码并手动修复了结果。现在我已经更改了部分代码,需要再次运行它。但我不能再回去做同样的事情,因为它很昂贵。目前我正在考虑编写一个通用规则,按字母顺序对这些公司进行排序,并在它们匹配前几个单词时合并它们。但这不是一个完全可靠的方法,因为惠普和惠普会有所不同。有没有人做过类似的工作或者可以参考我他们的工作。我将感激不尽。谢谢。

4

1 回答 1

4

这是我过去工作过的一个问题,但我是针对不同的域进行的。您可以从提供公司列表及其缩写的在线资源开始,将它们抓取并以某种格式(如 hashmap)存储它们。现在您可以使用缩写来查找与 original 和 abbr 匹配的子字符串。有一些阈值的词(比如说 90%)。

具体到您的情况,您可以开始使用 JSOUP抓取此站点http://www.abbreviations.com/acronyms/FIRMS 。这有非常丰富的公司缩写来源。如果此列表还不够,您将不得不寻找其他一些来源。希望这可以帮助。

于 2015-04-24T18:25:46.690 回答