1

我有以下用于获取 IP 信息的代码:

import requests
import json
import pandas as pd
import swifter  

def get_ip(ip):
    response = requests.get ("http://ip-api.com/json/" + ip.rstrip())
    geo = response.json()
    location = {'lat': geo.get('lat', ''),
                'lon': geo.get('lon', ''),
                'region': geo.get('regionName', ''),
                'city': geo.get('city', ''),
                'org': geo.get('org', ''),
                'country': geo.get('countryCode', ''),
                'query': geo.get('query', '')
                }
    return(location)

为了将其应用于整个 IP 数据帧(df),我正在使用下一个:

df=pd.DataFrame(['85.56.19.4','188.85.165.103','81.61.223.131'])

for lab,row in df.iterrows():
    dip = get_ip(df.iloc[lab][0])
    try:
        ip.append(dip["query"])
        private.append('no')
        country.append(dip["country"])
        city.append(dip["city"])
        region.append(dip["region"])
        organization.append(dip["org"])
        latitude.append(dip["lat"])
        longitude.append(dip["lon"])
    except:
        ip.append(df.iloc[lab][0])
        private.append("yes")

但是,由于 iterrows 非常慢而且我需要更高的性能,所以我想使用 swiftapply,它是 apply 函数的扩展。我用过这个:

def ip(x):
    dip = get_ip(x)
    if (dip['ip']=='private')==True:
        ip.append(x)
        private.append("yes")
    else:
        ip.append(dip["ip"])
        private.append('no')
        country.append(dip["country"])
        city.append(dip["city"])
        region.append(dip["region"])
        organization.append(dip["org"])
        latitude.append(dip["lat"])
        longitude.append(dip["lon"])

df.swifter.apply(ip)

我收到以下错误: AttributeError: ("'Series' object has no attribute 'rstrip'", 'occured at index 0')

我该如何解决?

4

1 回答 1

1

rstrip是一个字符串操作。为了将字符串操作应用于系列Series,您必须首先调用str系列上的函数,这允许在Series.

具体来说,在您的代码更改ip.rstrip()ip.str.rstrip()应该解决您的AttributeError.

经过一番挖掘,事实证明requests.get您尝试执行的操作无法在其中进行矢量化pandas(请参阅Using Python Requests for several URLS in a dataframe)。我破解了以下应该比使用iterrows. 下面所做的是利用np.vectorize运行函数来获取每个 IP 地址的信息。位置输入保存为新 DataFrame 中的新列。

首先,我更改了您的get_ip函数以返回location字典,而不是(location).

接下来,我使用以下方法创建了一个矢量化函数np.vectorize

vec_func = np.vectorize(lambda url: get_ip(url))

最后,vec_func应用于df创建一个新的 DataFrame,它与包含URL 的列的位置df输出合并:vec_funcdf[0]

new_df = pd.concat([df, pd.DataFrame(vec_func(df[0]), columns=["response"])["response"].apply(pd.Series)], axis=1)

上面的代码以字典形式为 DataFrame 中的每一行检索 API 响应,然后将字典映射到 DataFrame 中的列。最后,您的新 DataFrame 将如下所示:

                0      lat     lon     region      city             org country           query
0      85.56.19.4  37.3824 -5.9761  Andalusia   Seville   Orange Espana      ES      85.56.19.4
1  188.85.165.103  41.6561 -0.8773     Aragon  Zaragoza  Vodafone Spain      ES  188.85.165.103
2   81.61.223.131  40.3272 -3.7635     Madrid   Leganés    Vodafone Ono      ES   81.61.223.131

希望这可以解决InvalidSchema错误并让您获得比iterrows().

于 2018-09-26T14:13:32.113 回答