11

有没有办法识别一个词可能是/不可能是一个人的名字?

因此,如果我看到“理解”这个词,我会得到 0.01 的概率,而“约翰逊”这个词会返回 0.99 的概率,而像 Smith 这样的词会返回 0.75,而像 Apple 这样的词会返回 0.15。

有没有办法做到这一点?

目标是,如果有人搜索,比如说Charles Darwin galapagos,搜索引擎猜测它应该在作者字段中搜索Charles和,Darwin以及在标题和摘要字段中搜索galapagos

4

3 回答 3

8

我的快速破解是这样的:

从人口普查局按受欢迎程度获取名单,它是免费提供的。给每个名字一个标准化的流行度分数(1.0 = 最受欢迎,0.0 = 最少)。

然后,获取一个开源词典,并进行一些研究以汇总每个单词的频率分数。你可以在这里找到一个,在维基词典。为每个单词分配一个流行度分数,从 1.0 到 0.0。方便的是,如果您在频率列表中找不到单词,您可以假设它是一个非常不常见的单词。

在两个列表中查找一个词。如果它只是一个或另一个,你就完成了。如果两者都有,请使用公式来计算加权概率……例如(名称流行度)/(名称流行度+其他流行度)。如果它不在任何一个列表中,它可能是一个名字。

于 2012-09-05T23:24:46.983 回答
7

自然语言处理中的一项相关任务称为命名实体识别,它处理人名、组织名、位置等。

大多数旨在解决这个问题的模型本质上都是统计的,并且在预测中同时使用上下文和先验知识。有许多可以使用的开源实现,例如斯坦福 NER,请参阅在线演示

于 2012-09-05T23:06:46.227 回答
0

仅基于单词(或不构成句子的一系列单词),我会说不,或者至少没有一个能够提供比“已知单词词典”查找更多信息的单词。

不同的语言环境也会有不同的概率,并且很大程度上取决于单词在句子中的位置以及其他单词的位置,表明它是名称还是其他名词/动词。

例如,“Word”可能是:

  1. 名词- “页面上的字很模糊”
  2. 动词- “我仔细地用词”
  3. 形容词- “我喜欢文字游戏”
  4. 正确的名字- “我的朋友 Word 对我很好”

这一切都取决于上下文和句子中的位置 - 以及这种从语言到语言的变化的规则。此外,还会定期发明新名字——明年最受欢迎的婴儿名字可能是“加拉帕戈斯”而不是“利亚姆”。

于 2012-09-05T22:52:00.827 回答