我想构建一个 Hadoop-Job,它基本上将 wikipedia pagecount-statistic作为输入并创建一个类似的列表
en-Articlename: en:count de:count fr:count
为此,我需要与每种语言相关的不同文章名称 - 即布鲁日(en,fr),Brügge(de),MediaWikiApi 查询 articlewise(http://en.wikipedia.org/w/api.php?action=query&titles =布鲁日&prop=langlinks&lllimit=500)。
我的问题是找到解决这个问题的正确方法。
我的草图方法是:
- 逐行处理pagecount文件(行示例'de Brugge 2 48824')
- 查询 MediaApi 并写入。like'en-Articlename: process-language-key:count'
- 将所有 en-Articlename-values 聚合到一行(也许在第二份工作中?)
现在,为每一行查询 MediaAPI 似乎相当不方便,但目前我无法找到更好的解决方案。
您认为当前的方法是否可行,或者您能想出不同的方法吗?
旁注:创建的作业链将用于对我的(小型)Hadoop-Cluster 进行一些时间测量,因此更改任务仍然可以
编辑: 这是我刚刚发现的一个非常相似的讨论..