我正在寻找从非常短的文本示例中提取名称和地点
“多伦多红雀队对阵松鸦队” “ Daniel Nestor 和 Nenad Zimonjic 饰演 Jonas Bjorkman 和 Kevin Ullyett,巴黎时间待定” “简森按钮 - 杆位,肌肉 - 梅赛德斯 - 摩纳哥”。
这些数据目前在 MySQL 数据库中,我(几乎)对每个运动员都有单独的记录,尽管名称有时拼写错误等。
我想提取运动员和地点。我通常在 PHP 中工作,但一直找不到用于实体提取的库(将来我可能想更深入地研究一些NLP和ML)。
根据我的发现,LingPipe和NLTK似乎是最受推荐的,但我不知道是否真的适合我的目的,或者其他东西是否会更好。
我没有用 Java 或 Python 编程过,所以在开始学习新语言之前,我希望得到一些关于我应该遵循什么路线的建议,或者其他建议。