python - 另一列的“以前见过”列

Question

考虑以下数据框：

是否有一种方便的方法（无需迭代行）来为 column 的每个值创建一个表示“之前见过”的列a。例如，该示例所需的输出是（0 表示以前未见过，1 表示以前见过）：

如果这是可能的，有没有办法通过以前出现的次数来增强它，而不仅仅是二进制指标？

score 4 · Accepted Answer

应该只是.duplicated()（见文档）。然后，如果您想将其转换为 0 和 1 的整数，而不是False您True可以.astype(int)在输出中使用：

来自pd.DataFrame：

df.duplicated(subset="a").astype(int)
0    0
1    1
2    0
3    0
4    0
5    0
6    1
dtype: int32

来自pd.Series：

df["a"].duplicated().astype(int)
0    0
1    1
2    0
3    0
4    0
5    0
6    1
Name: a, dtype: int32

这会将一个值第一次“看到”为False，并将所有后续值都“看到”为True。int通过将其强制转换为数据类型astype将更改False -> 0并且True -> 1

score 2 · Accepted Answer

2

使用分配和复制：

df.assign(seenbefore = lambda x: x.a.duplicated().astype(int))

于 2020-11-02T19:32:17.420 回答

2 回答 2