3

您是否知道任何实体集扩展算法的任何语言(最好是 python)的任何现有实现,例如来自 Google 集的那个?( http://labs.google.com/sets )

我找不到任何实现此类算法的库,我想与其中一些库一起玩,看看它们在我想实现的某些特定任务上如何执行。

欢迎任何帮助!

非常感谢你的帮助,

问候,

尼古拉斯。

4

1 回答 1

2

我不知道有任何可以使用的开源库,这些库可以根据 Google Sets 提供的命名实体的需求实现聚类。但是,有一些学术论文详细描述了如何构建类似的系统,例如:

以下是 Wang 和 Cohen 方法的简要总结。如果您最终自己实现了类似的东西,那么从他们的方法开始可能会很好。我怀疑大多数人会发现它比 Ghahramani 和 Heller 的公式更直观。

王和科恩 2009

Wang 和 Cohen 首先描述了一种自动构建提取模式的方法,该模式允许他们在任何类型的结构化文档中查找命名实体的列表。该方法查看将已知出现的命名实体括起来的前缀和后缀。然后使用这些前缀和后缀来标识同一文档中的其他命名实体。

为了完成实体集群,他们构建了一个图,该图由命名实体之间的互连、与它们关联的提取模式和文档组成。使用该图并从集群种子实体的节点(即要完成的集合中的初始实体集)开始,它们在图上执行大量随机游走,最长可达 10 步。他们计算到达与非种子实体相对应的节点的次数。然后可以使用具有高计数的非种子实体来完成集群。

于 2010-05-05T05:22:34.110 回答