1

有一个带有dict元素的列的 SFrame。

import graphlab
import numpy as np
a = graphlab.SFrame({'col1':[{'oshan':3,'modi':4},{'ravi':1,'kishan':5}],
                     'col2':[{'oshan':1,'rawat':2},{'hari':3,'kishan':4}]})

我想为cosineSFrame 的每一行计算这两列之间的距离。下面是使用for loop.

dis = np.zeros(len(a),dtype = float)
for i in range(len(a)):
    dis[i] = graphlab.distances.cosine(a['col1'][i],a['col2'][i])

a['distance12'] = dis

这是非常低效的,如果行数很大,则需要数小时。有人可以建议一个更好的方法。

4

1 回答 1

3

apply您通常可以通过使用该函数来避免在 SFrame 上循环。在您的情况下,它看起来像这样:

a.apply(lambda row: graphlab.distances.cosine(row['col1'], row['col2']))

这应该比在 Python 中循环要快得多。

于 2016-04-21T16:50:23.277 回答