0

我有一个 IP 地址列表。我需要为每个 IP 分配一个国家/地区。例如http://www.ip2nation.com/提供此服务。我找到了一些 IP2Country 的数据库,但是如何将它与 pig 集成?

输入:

14.59.63.28
145.89.87.211
54.27.253.89
98.201.50.22
116.48.29.143
145.89.87.211
20.109.204.65
20.109.204.65

预期输出:

14.59.63.28     country1
145.89.87.211   country2
54.27.253.89    country3
98.201.50.22    country4
116.48.29.143   country5
145.89.87.211   country2
20.109.204.65   country6
20.109.204.65   country6
4

1 回答 1

0

您将需要从该数据库中获取 IP 和国家名称数据库的提取。然后使用提取的数据与您流式传输的数据执行连接。

我会直接加入。为了获得更好的性能,您可以检查 Pig http://pig.apache.org/docs/r0.7.0/piglatin_ref1.html#Replicated+Joins中的复制连接

于 2013-10-08T18:42:53.277 回答