0

每个人。

这是问题及其背景。我从网上收集了很多名字实体。有很多长词。所以我想找到名字实体(或核心词)的俗语。

例如,

我有洛杉矶这个词,我想得到洛杉矶。

或一个非常正式的地名,我想得到它的简称。

OOV 很多,所以查字典是不可能的。

我该如何解决这个问题?谢谢。

4

1 回答 1

0

如果案例像 THU = Tsinghua University,并且我们希望它尽可能准确,那么我认为我们需要依赖现有的知识源,因为没有算法可以正确猜测所有案例,因为有许多不同的可能性/替代方案给定命名实体(例如,TU)。

您可以尝试以下来源: http ://acronyms.thefreedictionary.com ,甚至我的维基百科,寻找括号。

如果您不需要 100% 的精确度,那么您可以根据角色的情况从 Los Angeles - LA 等首字母开始。对于清华大学,我相信你需要参考汉字作为指导:清 - 清华 - 华大学 - 大学 -> THU。

但首字母并不总是所有情况的基础。例如,American Online = AOL而不仅仅是AO. 您可以使用谷歌搜索进行一些验证,查询"American Online (AO)"(包括引号,因为介绍首字母缩写词的文本通常是这样写的),只是为了找到没有匹配的链接,但使用查询"American Online (AOL)"结果来进行几个完全匹配。

于 2012-08-24T13:30:38.460 回答