0

在 Solr 服务器中索引 Wikipedia 文章(包含地理位置 lon/lat)的最佳方法是什么?

例如,我有一个给定的 lon/lat 位置,并且想要索引 60 公里范围内的所有 Wikipedia 文章。

我可以下载整个 Wikipedia Dump 并编写一个应用程序,该应用程序尝试在给定点的距离内获取 xml 中的所有数据。但是转储大约是 40GB,这可能需要很长时间。而且我有以下条件:我想保持数据最新(它们应该每 48 小时更新一次)。是否有可用的部分 wiki 转储(例如每个国家/地区)或用于这种情况的 API / 应用程序?

4

1 回答 1

1

特别:您在评论中提到的附近曾经由 Solr 提供支持,但它现在使用 Elasticsearch。提供地理空间搜索的扩展 - GeoData - 还支持基于 MySQL 的搜索,这对于小型数据集更实用。如果你对 Solr 特别感兴趣,你可以看看在我杀死它之前它是如何完成的,因为 Elasticsearch 好得多。

于 2015-02-23T07:13:23.587 回答