我正在为 java 寻找一个简单但“足够好”的命名实体识别库(和字典),我正在寻找处理电子邮件和文档并提取一些“基本信息”,例如:姓名、地点、地址和日期
我一直在环顾四周,大多数似乎都偏重于 NLP 类项目。
有什么建议吗?
我正在为 java 寻找一个简单但“足够好”的命名实体识别库(和字典),我正在寻找处理电子邮件和文档并提取一些“基本信息”,例如:姓名、地点、地址和日期
我一直在环顾四周,大多数似乎都偏重于 NLP 类项目。
有什么建议吗?
您可能想看看我之前对类似问题的回答之一。
除此之外,大多数较轻的 NER 系统在很大程度上取决于所使用的域。例如,您会发现很多关于生物医学 NER 系统的工具和论文。除了我之前的帖子(如果你想做 NER,它已经包含了我的主要建议),这里还有一些你可能想要研究的工具:
补充一点:如果不对输入进行标记化,您将无法逃脱。自然语言的标记化有点不重要,这就是为什么我建议你使用一个为你做这两件事的工具箱。
顺便说一句,我最近遇到了OpenCalais,它似乎具有我一直在关注的功能。
您可能还想尝试Alchemy API。它类似于 Open Calais。
对于 NLP 语法,您可以查看http://code.google.com/p/graph-expression/和http://gate.ac.uk/