2

我正在构建一个脚本来处理 Web 服务器日志,并且我正在尝试将 MaxMinds 的 IP 数据集 ( http://dev.maxmind.com/geoip/legacy/geolite/ ) 合并到脚本中,以便让该国打击来自。

目前,当我让它提取我想要的信息时,我的脚本运行良好,但是当我尝试添加 IP 查找时,它会减慢 - 很多 - 大约 1800%。所以,我很好奇这是否与我的代码有关,或者是否有一种方法可以加快速度。

例如,当我运行以下代码提取日期和 IP 地址时,对于这个实验,它大约需要 6.5 秒。

extractedData = []

for log in logList:
    ip = log[-1]
    date = log[0]
    dateIP = [date, ip]
    extractedData.append(dateIP)

当我添加 pyGeoIP 并尝试合并国家代码时,它会变慢。以下代码运行了 2 分钟和 7 秒。

extractedData = []

gi = pygeoip.GeoIP('/path/to/GeoIP.dat') 

for log in logList:
    ip = log[-1]
    country = gi.country_name_by_addr(ip)
    date = log[0]
    dateCountry = [date, country]
    extractedData.append(dateCountry)

那么,有没有办法加快速度,因为这种查找会减慢处理速度。

谢谢!

4

2 回答 2

3

由于您正在执行许多查询,因此您应该将数据库加载到内存中。就目前而言,您正在反复从磁盘读取数据,这非常缓慢。

交换这一行:

gi = pygeoip.GeoIP('/path/to/GeoIP.dat') 

对此:

gi = pygeoip.GeoIP('/path/to/GeoIP.dat', pygeoip.MEMORY_CACHE) 
于 2014-02-04T16:56:16.183 回答
0

我遇到了同样的问题,但在 CentOS 机器上尝试了 Python 和 PHP。通过 Python 脚本运行 3M 的 IP 地址需要 19.5 分钟。应用 MEMORY_CACHE 优化将其缩短到 8 分钟。通过 PHP 脚本运行相同的数据需要 2-2/3 分钟。

于 2014-02-21T20:37:43.793 回答