每个人。
这是问题及其背景。我从网上收集了很多名字实体。有很多长词。所以我想找到名字实体(或核心词)的俗语。
例如,
我有洛杉矶这个词,我想得到洛杉矶。
或一个非常正式的地名,我想得到它的简称。
OOV 很多,所以查字典是不可能的。
我该如何解决这个问题?谢谢。
每个人。
这是问题及其背景。我从网上收集了很多名字实体。有很多长词。所以我想找到名字实体(或核心词)的俗语。
例如,
我有洛杉矶这个词,我想得到洛杉矶。
或一个非常正式的地名,我想得到它的简称。
OOV 很多,所以查字典是不可能的。
我该如何解决这个问题?谢谢。
如果案例像 THU = Tsinghua University,并且我们希望它尽可能准确,那么我认为我们需要依赖现有的知识源,因为没有算法可以正确猜测所有案例,因为有许多不同的可能性/替代方案给定命名实体(例如,TU)。
您可以尝试以下来源: http ://acronyms.thefreedictionary.com ,甚至我的维基百科,寻找括号。
如果您不需要 100% 的精确度,那么您可以根据角色的情况从 Los Angeles - LA 等首字母开始。对于清华大学,我相信你需要参考汉字作为指导:清 - 清华 - 华大学 - 大学 -> THU。
但首字母并不总是所有情况的基础。例如,American Online = AOL
而不仅仅是AO
. 您可以使用谷歌搜索进行一些验证,查询"American Online (AO)"
(包括引号,因为介绍首字母缩写词的文本通常是这样写的),只是为了找到没有匹配的链接,但使用查询"American Online (AOL)"
结果来进行几个完全匹配。