python - 对系列设置操作

Question

我想知道是否有人可以帮助我想出解决问题的方法；我基本上有一个 pandas 系列列表（空格分隔），我使用 pandas 在 series - 上的字符串操作创建了这些列表str.split(' ')。我需要创建另一系列列表，这些列表是每个列表与另一个列表的交集。

我相信 apply() 是这里缺少的部分，但我的用法一定是不正确的，因为我收到了一个错误。pandas 手册并未真正涵盖在 apply() 中使用集合操作，但我认为它应该可行吗？

基本上，我有一组事件（evector），并且想要设置一个向量，其中事件与给定事件（e2）共享用户。到目前为止，这些是我的方法：

原始尝试：

evector = attendframe.yes.str.split(' ') #creates the series of lists

e2 = [attendframe.yes[attendframe.event==686467261]] #just for testing - returns [0
  #  1975964455 252302513 4226086795 3805886383 142...
  #Name: yes]

sharedvector = evector.apply(lambda x: [n for n in [x] if n in e2]) # the important bit

print sharedvector

错误： 数组长度不同：1 vs 7

我将问题缩小到以下行： evector = attendframe.yes.str.split(' ').apply(lambda x: set([x]))

然后我又做了几次尝试让它正确。

尝试 1

evector = attendframe.yes.str.split(' ').apply(lambda x: set([x]))
#Unhashable type "list"

尝试 2

evector = attendframe.yes.str.split(' ').apply(lambda x: set(x))
#TypeError: 'float' object is not iterable

尝试 3（归功于安迪·海登）

evector = attendframe.yes.str.split(' ').apply(lambda x: x
                                                if isinstance(x, float)
                                                else set(x))

e2 = set([2394228942, 2686116898, 1056558062, 379294223])
sharedvector = evector.apply(lambda x: x if isinstance(x, float) else x.intersection(e2))
sharedvector.dropna())
#works, but returns empty arrays.

这是导致问题的数据本身的示例：

print attendframe.yes.str.split(' ')

0     [1975964455, 252302513, 4226086795, 3805886383...
1     [2394228942, 2686116898, 1056558062, 379294223...
2                                                   NaN
3                                                   NaN

如果它与最终解决方案有任何相关性，我最终想创建一个数据框，其边距包含事件，其单元格包含在任何两个给定事件之间共享的用户列表。生成列向量是其中的第一部分，然后我希望在函数中运行类似的 apply() 步骤以创建完整矩阵。

score 1 · Accepted Answer

既然你问的是集合操作，为什么不使用set对象：

evector = attendframe.yes.str.split(' ').apply(set)
e2 = set(attendframe[attendframe.event==686467261]]['yes'])

并应用集合交集：

sharedvector = evector.apply(lambda x: x & e2)

如果您的数据有NaN，您可以包装每个 set 调用以测试它是否为浮点数：

evector = df.yes.str.split(' ').apply(lambda x: x
                                                if isinstance(x, float)
                                                else set(x))
e2 = set(attendframe[attendframe.event==686467261]]['yes'])
sharedvector = evector.apply(lambda x: x if isinstance(x, float) else x & e2)

python - 对系列设置操作

1 回答 1

Related

Reference