1

我是 Pandas 的新手,我正在尝试将它应用到我已经编写的脚本中。我有一个 csv 文件,我从中提取数据,并为我的数据框使用列“候选”、“最终轨道”和“状态”。

我的问题是,我想过滤数据,也许使用 Wes Mckinney 的 10 分钟教程中显示的方法(' http://nbviewer.ipython.org/urls/gist.github.com/wesm/4757075/raw/a72d3450ad4924d0e74fb57c9f62d1d895ea4574/ PandasTour.ipynb ')。在In [80]:他使用的部分中aapl_bars.close_price['2009-10-15']

我想使用类似的方法来选择所有*作为状态的数据。如果该行中没有 *,则其他列中的数据也会被删除。

我目前的代码

def establish_current_tacks(filename):

    df=pd.read_csv(filename)    
    cols=[df.iloc[:,0], df.iloc[:,10], df.iloc[:,11]]
    current_tracks=pd.concat(cols, axis=1)
    return current_tracks

我的数据框

>>> current_tracks
<class 'pandas.core.frame.DataFrame'>
Int64Index: 707 entries, 0 to 706
Data columns (total 3 columns):
candidate       695  non-null values
 final track    670  non-null values
 status         670  non-null values
dtypes: float64(1), object(2)

我想使用诸如 之类的东西current_tracks.status['*'],但这不起作用

抱歉,如果这很明显,我有点挣扎以解决它。

4

1 回答 1

2

由于您要过滤的数据不是数据框索引的一部分,而是常规列,因此您需要执行以下操作:

current_tracks[current_tracks.status == '*']

完整示例:

import pandas as pd
current_tracks = pd.DataFrame({'candidate': ['Bob', 'Jim', 'Alice'],
'final_track': [10, 15, 13], 'status': ['*', '.', '*']})
current_tracks
Out[3]: 
  candidate  final_track status
0       Bob           10      *
1       Jim           15      .
2     Alice           13      *

current_tracks[current_tracks.status == '*']
Out[4]: 
  candidate  final_track status
0       Bob           10      *
2     Alice           13      *

如果status是您的数据框索引的一部分,那么您的原始语法会起作用:

current_tracks = current_tracks.set_index('status')
current_tracks.candidate['*']
Out[8]: 
status
*           Bob
*         Alice
Name: candidate, dtype: object
于 2013-09-24T10:50:14.783 回答