2

我正在寻找 php 中的算法,该算法允许使用 wikipedia API 或 wikipedia pagecounts dumps 获取维基百科(红色链接)(或子项目之一)中尚未出现的大多数搜索词(文章)。我已经知道 statsgrok 统计信息(这个项目的维护者 Henrik 没有在他的维基百科页面上做出回应),但它没有提供任何关于“红色链接”的信息。我想获得有关用户在维基百科的搜索页面中输入一些单词并且维基百科建议创建此页面的情况的统计信息,因为该单词尚未出现在维基百科中。

编辑:实际上,wikimedia bugzilla 已经报告了这个错误:错误 6373 — 提供2006 年注册的不成功搜索列表,但关于这个错误的最后一次活动是在 2012 年 4 月 2 日 18:58 UTC 注册的......所以,它会解决这个问题还有很长的路要走,我想也许,有人找到了一些缓解这个问题的方法?

4

3 回答 3

1

您应该提交一个错误以请求在wikistats的某处公开此信息。

或者,开始讨论wikitech-l,因为我确信其他人有兴趣获取此类数据。

于 2013-09-06T15:39:53.203 回答
0

如何跟踪数据库表中的“已搜索但未找到”搜索以及在单独字段中搜索它们的次数?

这可以很容易地完成。但是,您必须处理人们将搜索的标题的差异,或者只是将它们分成单词并仅跟踪单词(忽略语法命题等)

于 2013-09-06T14:46:28.367 回答
0

User:West.andrew.g 维护了一个列表,这可能是目前获取该信息的最佳资源。该页面每周更新。您可以从该页面提取数据,或者如果您需要不同的参数(更高的更新频率、每周查看次数少于 1k 的红色链接等),可以采用与他相同的方法。他似乎从Wikimedia 转储中获取数据,并在服务器上查询超过 1k 次/周阈值的每个条目。

顺便说一句,事实证明 stats.grok.se确实收集了红色链接(示例)上的统计信息,尽管它没有提供此类页面的编译列表。

于 2013-11-28T17:52:38.020 回答