python - 输出熊猫数据框中所有列的数据

Question

我有一个名为 .csv 的 csv 文件params.csv。我打开ipython qtconsole并使用以下方法创建了一个熊猫dataframe：

import pandas
paramdata = pandas.read_csv('params.csv', names=paramnames)

其中，paramnames是字符串对象的 python 列表。示例paramnames（实际列表长度为 22）：

paramnames = ["id",
"fc",
"mc",
"markup",
"asplevel",
"aspreview",
"reviewpd"]

在 ipython 提示符下，如果我键入paramdata并按 Enter 键，那么我不会得到带有列和值的数据框，如Pandas 网站上的示例所示。相反，我得到了有关数据框的信息。我得到：

In[35]: paramdata
Out[35]: 
<class 'pandas.core.frame.DataFrame'>
Int64Index: 59 entries, 0 to 58
Data columns:
id                    59  non-null values
fc                    59  non-null values
mc                    59  non-null values
markup                59  non-null values
asplevel              59  non-null values
aspreview             59  non-null values
reviewpd              59  non-null values

如果我输入paramdata['mc']，那么我确实得到了mc列的预期值。我有两个问题：

(1) 在 pandas 网站上的示例中（例如，参见此处的输出：http df: //pandas.sourceforge.net/indexing.html#additional-column-access）输入数据框的名称给出了实际的数据。为什么我得到如上所示的数据框信息而不是实际数据？我需要在某处设置一些输出选项吗？

(2) 如何将数据框中的所有列输出到屏幕而无需输入它们的名称，即无需输入类似paramdata[['id','fc','mc']].

我正在使用熊猫 0.8 版。

谢谢你。

score 306 · Accepted Answer

采用：

pandas.set_option('display.max_columns', 7)

这将强制 Pandas 显示您拥有的 7 列。或更一般地说：

pandas.set_option('display.max_columns', None)

这将强制它显示任意数量的列。

说明：的默认值max_columns是0，它告诉 Pandas 仅当所有列都可以压缩到控制台的宽度时才显示表格。

或者，您可以使用以下命令将控制台宽度（以字符为单位）从默认值 80 更改为：

pandas.set_option('display.width', 200)

score 46 · Accepted Answer

屏幕上要显示的数据太多，因此改为显示摘要。

如果您仍然想输出数据（它可能不适合屏幕并且看起来不太好）：

print paramdata.values

将数据帧转换为其 numpy-array 矩阵表示。

paramdata.columns

存储各自的列名和

paramdata.index

存储相应的索引（行名）。

score 29 · Accepted Answer

我知道这是一个老问题，但我刚刚遇到了类似的问题，我认为我所做的也对你有用。

我使用了 to_csv() 方法并写入标准输出：

import sys

paramdata.to_csv(sys.stdout)

这应该转储整个数据帧，无论它是否可以很好地打印，并且您可以使用 to_csv 参数来配置列分隔符、是否打印索引等。

编辑：现在可以None用作.to_csv()具有类似效果的目标，这可以说要好得多：

paramdata.to_csv(None)

score 22 · Accepted Answer

在ipython中，我使用它来打印运行良好的数据帧的一部分（打印前 100 行）：

print paramdata.head(100).to_string()

score 9 · Accepted Answer

9

您还可以使用DataFrame.head(x)/.tail(x)显示 DataFrame 的第一/最后 x 行。

于 2012-07-06T16:50:17.943 回答

score 7 · Accepted Answer

我从 R 来到 python，R 的head()函数以非常方便的方式包装行来查看数据：

> head(cbind(mtcars, mtcars, mtcars))
                   mpg cyl disp  hp drat    wt  qsec vs am gear carb  mpg cyl
Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4 21.0   6
Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4 21.0   6
Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1 22.8   4
Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1 21.4   6
Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2 18.7   8
Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1 18.1   6
                  disp  hp drat    wt  qsec vs am gear carb  mpg cyl disp  hp
Mazda RX4          160 110 3.90 2.620 16.46  0  1    4    4 21.0   6  160 110
Mazda RX4 Wag      160 110 3.90 2.875 17.02  0  1    4    4 21.0   6  160 110
Datsun 710         108  93 3.85 2.320 18.61  1  1    4    1 22.8   4  108  93
Hornet 4 Drive     258 110 3.08 3.215 19.44  1  0    3    1 21.4   6  258 110
Hornet Sportabout  360 175 3.15 3.440 17.02  0  0    3    2 18.7   8  360 175
Valiant            225 105 2.76 3.460 20.22  1  0    3    1 18.1   6  225 105
                  drat    wt  qsec vs am gear carb
Mazda RX4         3.90 2.620 16.46  0  1    4    4
Mazda RX4 Wag     3.90 2.875 17.02  0  1    4    4
Datsun 710        3.85 2.320 18.61  1  1    4    1
Hornet 4 Drive    3.08 3.215 19.44  1  0    3    1
Hornet Sportabout 3.15 3.440 17.02  0  0    3    2
Valiant           2.76 3.460 20.22  1  0    3    1

我开发了以下小python函数来模仿这个功能：

def rhead(x, nrow = 6, ncol = 4):
    pd.set_option('display.expand_frame_repr', False)
    seq = np.arange(0, len(x.columns), ncol)
    for i in seq:
        print(x.loc[range(0, nrow), x.columns[range(i, min(i+ncol, len(x.columns)))]])
    pd.set_option('display.expand_frame_repr', True)

（显然，这取决于 pandas 和 numpy）

score 0 · Accepted Answer

您可以使用序列切片语法，即

paramdata[:5] # first five records
paramdata[-5:] # last five records
paramdata[:] # all records

有时数据框可能不适合屏幕缓冲区，在这种情况下，您最好打印一个小子集或将其导出到其他东西，绘图或（再次为 csv）

python - 输出熊猫数据框中所有列的数据

7 回答 7

Related

Reference