python - 子集 Python DataFrame

Question

我正在从 R 过渡到 Python。我刚开始使用熊猫。我有一个很好的子集的 R 代码：

k1 <- subset(data, Product = p.id & Month < mn & Year == yr, select = c(Time, Product))

现在，我想在 Python 中做类似的事情。这是我到目前为止所得到的：

import pandas as pd
data = pd.read_csv("../data/monthly_prod_sales.csv")


#first, index the dataset by Product. And, get all that matches a given 'p.id' and time.
 data.set_index('Product')
 k = data.ix[[p.id, 'Time']]

# then, index this subset with Time and do more subsetting..

我开始觉得我做错了。也许，有一个优雅的解决方案。任何人都可以帮忙吗？我需要从我拥有的时间戳中提取月份和年份并进行子集化。也许有一个单线可以完成所有这些：

k1 <- subset(data, Product = p.id & Time >= start_time & Time < end_time, select = c(Time, Product))

谢谢。

score 98 · Accepted Answer

我假设TimeandProduct是 a 中的列DataFrame， df是的一个实例DataFrame，并且其他变量是标量值：

现在，您必须引用该DataFrame实例：

k1 = df.loc[(df.Product == p_id) & (df.Time >= start_time) & (df.Time < end_time), ['Time', 'Product']]

括号也是必需的，因为&运算符与比较运算符的优先级。该&运算符实际上是一个重载的按位运算符，它与算术运算符具有相同的优先级，而算术运算符又比比较运算符具有更高的优先级。

在pandas0.13DataFrame.query()中将提供一种新的实验方法。它与以参数为模的子集非常相似select：

query()你会这样做：

df[['Time', 'Product']].query('Product == p_id and Month < mn and Year == yr')

这是一个简单的例子：

In [9]: df = DataFrame({'gender': np.random.choice(['m', 'f'], size=10), 'price': poisson(100, size=10)})

In [10]: df
Out[10]:
  gender  price
0      m     89
1      f    123
2      f    100
3      m    104
4      m     98
5      m    103
6      f    100
7      f    109
8      f     95
9      m     87

In [11]: df.query('gender == "m" and price < 100')
Out[11]:
  gender  price
0      m     89
4      m     98
9      m     87

您感兴趣的最终查询甚至可以利用链式比较，如下所示：

k1 = df[['Time', 'Product']].query('Product == p_id and start_time <= Time < end_time')

score 20 · Accepted Answer

仅适用于寻找更类似于 R 的解决方案的人：

df[(df.Product == p_id) & (df.Time> start_time) & (df.Time < end_time)][['Time','Product']]

不需要data.locor query，但我确实认为它有点长。

score 15 · Accepted Answer

我发现您可以通过将任何子集条件包装在 [] 中来为给定列使用任何子集条件。例如，您有一个 df 列 ['Product','Time', 'Year', 'Color']

假设你想包括 2014 年之前生产的产品。你可以写，

df[df['Year'] < 2014]

返回出现这种情况的所有行。您可以添加不同的条件。

df[df['Year'] < 2014][df['Color' == 'Red']

然后只需按照上面的指示选择所需的列。例如，上面 df 的产品颜色和键，

df[df['Year'] < 2014][df['Color'] == 'Red'][['Product','Color']]

score 0 · Accepted Answer

关于前面答案中提到的一些要点，并提高可读性：

不需要 data.loc 或查询，但我确实认为它有点长。

括号也是必需的，因为 & 运算符与比较运算符的优先级。

我喜欢这样写这样的表达式 - 更少的括号，更快的输入，更容易阅读。也更接近 R。

q_product = df.Product == p_id
q_start = df.Time > start_time
q_end = df.Time < end_time

df.loc[q_product & q_start & q_end, c('Time,Product')]

# c is just a convenience
c = lambda v: v.split(',')

score -1 · Accepted Answer

创建具有已知列名的空数据框：

Names = ['Col1','ActivityID','TransactionID']
df = pd.DataFrame(columns = Names)

从csv创建数据框：

df = pd.DataFrame('...../file_name.csv')

创建一个动态过滤器来子集 a dtaframe：

i = 12
df[df['ActivitiID'] <= i]

创建动态过滤器以子集所需的 dtaframe 列

df[df['ActivityID'] == i][['TransactionID','ActivityID']]

python - 子集 Python DataFrame

5 回答 5

Related

Reference