您将如何解析一串自由格式的文本,以根据位置和名称的字典检测位置和名称等内容?在我的特定应用程序中,我的字典中将有数以万计的条目,所以我很确定只运行它们是不可能的。此外,有没有办法添加“模糊”匹配,以便您还可以检测x
字典单词编辑中的子字符串?如果我没记错的话,这属于自然语言处理领域,更具体地说是命名实体识别(NER);然而,我试图找到有关 NER 背后的算法和过程的信息的尝试是徒劳的。我更喜欢为此使用 Python,因为我对此最熟悉,尽管我愿意查看其他解决方案。
问问题
413 次
1 回答
1
您可以尝试下载斯坦福命名实体识别器:http: //nlp.stanford.edu/software/CRF-NER.shtml
如果您不想使用别人的代码并且想自己做,我建议您查看他们相关论文中的算法,因为他们用于此的条件随机场模型已经变得相当普遍NER的方法。
我不确定如何在没有更多详细信息的情况下回答您关于查找子字符串的问题的第二部分。您可以修改斯坦福程序,或者您可以使用词性标注器来标记文本中的专有名词。这不会将位置与名称区分开来,但它会使查找与每个专有名词相距 x 个单词的单词变得非常简单。
于 2011-07-16T03:23:46.657 回答