我正在考虑编写一个 mashup 应用程序,该应用程序将从 subreddit 中获取提交标题,并尝试根据它们可能相关的位置将它们绘制在地图上。我还想稍后添加 Twitter 等内容。
我在计划中遇到的困难是如何从标题中检测出最有可能相关的国家。我的第一个猜测是有一个国家列表,以及它们的匹配排列(例如“English”匹配“England”等),并检查这些项目在文本中的出现。但是,这可能会很慢,并且需要我列出每个国家/地区的所有格*名称。
我正计划在 Python 中执行此操作(以便学习使用它),所以我想知道是否有 a)执行此操作的库(并且我可以从中学习)或 b)更明显的方法这?
为了让我了解我正在使用的输入类型,这里有一些示例以及我试图从中得到什么:
- “好吧,他们不能逮捕我们所有人——向英国法律体系竖起中指(图片)”
- 关键字:英国(英国)
- “民意调查:维基解密阿桑奇领先时代‘年度人物’——澳大利亚人阿桑奇因公布有关伊拉克和阿富汗战争的美国秘密军事文件而成为五角大楼的眼中钉,获得了 21,736 票星期五的。”
- 关键词:阿富汗,伊拉克,[澳大利亚](阿富汗,伊拉克,[澳大利亚])-澳大利亚很难被认为是无关紧要的,但这对我的目的来说是可以接受的
- “对诺贝尔和平奖网站发起网络攻击。保持优雅,中国。”
- 关键词:中国(中国)
- “一名犹太外科医生在发现患者手臂上有纳粹纹身后,拒绝为患者进行手术并走出手术室。”
- 关键字:无- 对我而言可接受
* 这可能是用错词