3

我正在考虑编写一个 mashup 应用程序,该应用程序将从 subreddit 中获取提交标题,并尝试根据它们可能相关的位置将它们绘制在地图上。我还想稍后添加 Twitter 等内容。

我在计划中遇到的困难是如何从标题中检测出最有可能相关的国家。我的第一个猜测是有一个国家列表,以及它们的匹配排列(例如“English”匹配“England”等),并检查这些项目在文本中的出现。但是,这可能会很慢,并且需要我列出每个国家/地区的所有格*名称。

我正计划在 Python 中执行此操作(以便学习使用它),所以我想知道是否有 a)执行此操作的库(并且我可以从中学习)或 b)更明显的方法这?

为了让我了解我正在使用的输入类型,这里有一些示例以及我试图从中得到什么:

  • “好吧,他们不能逮捕我们所有人——向英国法律体系竖起中指(图片)”
    • 关键字:英国(英国)
  • “民意调查:维基解密阿桑奇领先时代‘年度人物’——澳大利亚人阿桑奇因公布有关伊拉克和阿富汗战争的美国秘密军事文件而成为五角大楼的眼中钉,获得了 21,736 票星期五的。”
    • 关键词:阿富汗,伊拉克,[澳大利亚](阿富汗,伊拉克,[澳大利亚])-澳大利亚很难被认为是无关紧要的,但这对我的目的来说是可以接受的
  • “对诺贝尔和平奖网站发起网络攻击。保持优雅,中国。”
    • 关键词:中国(中国)
  • “一名犹太外科医生在发现患者手臂上有纳粹纹身后,拒绝为患者进行手术并走出手术室。”
    • 关键字:- 对我而言可接受

* 这可能是用错词

4

3 回答 3

3

你可以看看雅虎!地方制作者 API

Placemaker 为大部分在地理上相关但在地理上不可发现的 Web 内容提供地理丰富。提供自由格式文本,该服务识别文本中提到的地点,消除这些地点的歧义,并返回每个地点的唯一标识符 (WOEID),以及有关在文本中找到该地点的次数以及在文本中的位置的信息它被找到了。服务返回的 WOEID 可以传递给 Yahoo! 的 GeoPlanet™ API,以进一步丰富和发现地理信息。

于 2010-11-13T02:42:16.123 回答
0

在 MySQL 中使用全文搜索索引。然后使用 AJAX 调用来查询您的数据库。

于 2010-11-13T02:44:42.020 回答
0

请查看答案是否有帮助:

[The package geograpy3] allows you to extract place names from a URL or text, and add context to those names -- for example distinguishing between a country, region or city.

于 2021-02-25T11:29:37.630 回答