有没有办法识别一个词可能是/不可能是一个人的名字?
因此,如果我看到“理解”这个词,我会得到 0.01 的概率,而“约翰逊”这个词会返回 0.99 的概率,而像 Smith 这样的词会返回 0.75,而像 Apple 这样的词会返回 0.15。
有没有办法做到这一点?
目标是,如果有人搜索,比如说Charles Darwin galapagos
,搜索引擎猜测它应该在作者字段中搜索Charles
和,Darwin
以及在标题和摘要字段中搜索galapagos
。
有没有办法识别一个词可能是/不可能是一个人的名字?
因此,如果我看到“理解”这个词,我会得到 0.01 的概率,而“约翰逊”这个词会返回 0.99 的概率,而像 Smith 这样的词会返回 0.75,而像 Apple 这样的词会返回 0.15。
有没有办法做到这一点?
目标是,如果有人搜索,比如说Charles Darwin galapagos
,搜索引擎猜测它应该在作者字段中搜索Charles
和,Darwin
以及在标题和摘要字段中搜索galapagos
。
我的快速破解是这样的:
从人口普查局按受欢迎程度获取名单,它是免费提供的。给每个名字一个标准化的流行度分数(1.0 = 最受欢迎,0.0 = 最少)。
然后,获取一个开源词典,并进行一些研究以汇总每个单词的频率分数。你可以在这里找到一个,在维基词典。为每个单词分配一个流行度分数,从 1.0 到 0.0。方便的是,如果您在频率列表中找不到单词,您可以假设它是一个非常不常见的单词。
在两个列表中查找一个词。如果它只是一个或另一个,你就完成了。如果两者都有,请使用公式来计算加权概率……例如(名称流行度)/(名称流行度+其他流行度)。如果它不在任何一个列表中,它可能是一个名字。
仅基于单词(或不构成句子的一系列单词),我会说不,或者至少没有一个能够提供比“已知单词词典”查找更多信息的单词。
不同的语言环境也会有不同的概率,并且很大程度上取决于单词在句子中的位置以及其他单词的位置,表明它是名称还是其他名词/动词。
例如,“Word”可能是:
这一切都取决于上下文和句子中的位置 - 以及这种从语言到语言的变化的规则。此外,还会定期发明新名字——明年最受欢迎的婴儿名字可能是“加拉帕戈斯”而不是“利亚姆”。