0

有没有办法从纯文本中解析名称(名字和姓氏)。名字可以来自任何国家。现在我正在建立一个我可以获得的可能名称的数据库。有没有其他好的方法?

4

1 回答 1

1

一般来说,NLP 这个问题是NER(命名实体识别)问题的一个子集。至少可以通过两种方式进行处理:

  • 基于规则的系统 - 因此您可以构建简单的规则,例如字典检查、一些博士的正则表达式。前缀等,并将您的提取基于这些
  • 基于机器学习的系统 - 您使用一些词汇和统计属性来表征每个单词标记,并训练一些分类器(例如HMMCRF)来检测特定单词(标记)是名字还是姓氏。
于 2013-09-18T11:57:15.787 回答