6

我正在寻找从非常短的文本示例中提取名称和地点

“多伦多红雀队对阵松鸦队”
 “ Daniel Nestor 和 Nenad Zimonjic 饰演 Jonas Bjorkman 和 Kevin Ullyett,巴黎时间待定”
“简森按钮 - 杆位,肌肉 - 梅赛德斯 - 摩纳哥”。

这些数据目前在 MySQL 数据库中,我(几乎)对每个运动员都有单独的记录,尽管名称有时拼写错误等。

我想提取运动员和地点。我通常在 PHP 中工作,但一直找不到用于实体提取的库(将来我可能想更深入地研究一些NLPML)。

根据我的发现,LingPipeNLTK似乎是最受推荐的,但我不知道是否真的适合我的目的,或者其他东西是否会更好。

我没有用 Java 或 Python 编程过,所以在开始学习新语言之前,我希望得到一些关于我应该遵循什么路线的建议,或者其他建议。

4

1 回答 1

4

您所描述的是命名实体识别。因此,如果您还没有看过有关此主题的其他问题,我建议您查看它们。对我来说似乎是最有用的答案。

我无法真正评论 NLTK 或 LingPipe 是否最适合这项任务,尽管从查看答案来看,似乎还有很多其他资源是用 Java 编写的。

使用 NLTK 的一个优点是 Python 作为一种语言非常易于使用。另一个优点是NLTK 书(免费提供)同时介绍了 Python 和 NLTK,这对您很有用。

于 2009-11-02T16:43:00.470 回答