0

我相信 BigQueryfh-bigquery.geocode.geolite_city_bq_b2数据集中存在不准确之处,我很好奇其他人是否也注意到了这一点。

背景:我正在运行Ramtin M. Seraj的 BigQuery 代码,他/我的逻辑似乎是合理的。然而,已知 IP 地址代表某些地方,例如 Tokyo @ 150.249.199.17,但 Ramtin 的查询表明它们位于美国纽约州罗切斯特或加拿大安大略省渥太华。如果查询逻辑是合理的,那么唯一的结论是底层的 Geolite 数据集不是。

要验证,请查看此查询的结果:

SELECT *
FROM `fh-bigquery.geocode.geolite_city_bq_b2b`
WHERE classB = 38649

从这些结果中注意到startIp= 150.245.0.0 和endIp= 150.249.255.255,因此地址 150.249.199.17 在此 IP 范围内。

现在与https://ipinfo.io/150.249.199.17的结果以及以下 BigQuery 的结果进行比较。请注意,所有计算值(例如 IP 地址的 IPV4_TO_INT64())都在上述查询返回的范围内。

SELECT '150.249.199.17' as ipAddress
  , NET.IPV4_TO_INT64(NET.IP_FROM_STRING('150.249.199.17')) AS clientIpNum_int
  , TRUNC(NET.IPV4_TO_INT64(NET.IP_FROM_STRING('150.249.199.17'))/(256*256)) AS classB
  , CAST(TRUNC(NET.IPV4_TO_INT64(NET.IP_FROM_STRING('150.249.199.17'))/(256*256)) as INT64) as client_classB_int

ps 我会支持第一个答案,或者添加评论,但我还没有足够的声望!

4

1 回答 1

1

2019,大大改进的答案

#standardSQL
# replace with your source of IP addresses
# here I'm using the same Wikipedia set from the previous article
WITH source_of_ip_addresses AS (
  SELECT REGEXP_REPLACE(contributor_ip, 'xxx', '0')  ip, COUNT(*) c
  FROM `publicdata.samples.wikipedia`
  WHERE contributor_ip IS NOT null  
  GROUP BY 1
)
SELECT country_name, SUM(c) c
FROM (
  SELECT ip, country_name, c
  FROM (
    SELECT *, NET.SAFE_IP_FROM_STRING(ip) & NET.IP_NET_MASK(4, mask) network_bin
    FROM source_of_ip_addresses, UNNEST(GENERATE_ARRAY(9,32)) mask
    WHERE BYTE_LENGTH(NET.SAFE_IP_FROM_STRING(ip)) = 4
  )
  JOIN `fh-bigquery.geocode.201806_geolite2_city_ipv4_locs`  
  USING (network_bin, mask)
)
GROUP BY 1
ORDER BY 2 DESC

我即将在 BigQuery 中发布一个大大改进的 Geolite 版本。请继续关注https://twitter.com/felipehoffahttps://medium.com/@hoffa。然后我也会更新这个答案。

话虽如此,为了回答标题这个问题的准确性部分,Maxmind 说:

GeoLite2 数据库是免费的 IP 地理定位数据库,可与 MaxMind 的 GeoIP2 数据库相媲美,但不如 MaxMind 的 GeoIP2 数据库准确

于 2019-01-24T21:58:23.607 回答