0

按照此处的 scikit-learn 教程,如果我们有一个Pandas.DataFrame名为 的列colors,我们如何创建一个循环来遍历 DataFrame 的所有列(或包含所需列的列表),以便所有分类变量(例如变量colors可以有值blue, red, purple) 将被len(colors)虚拟变量列数colors#blue, colors#red, colors#purple?

刚刚学了python,所以我会用一些伪代码来写我的想法。

尝试(伪代码)

cols_to_process = ['colors']

# Create new columns for dummy variables
// if listings.keyname in cols_to_process:
    // unique_values = list of unique values in listings[col]
    // listings = listings.join(unique_values, axis=1)

# Populate dummy variable columns

# Remove old columns that have dummy variable columns created
4

2 回答 2

3

您可以使用该pandas.get_dummies功能来做到这一点:

>>> import pandas as pd
>>> pd.get_dummies(listings['color'], 'color')
于 2013-05-05T18:22:45.703 回答
0

因此,如果我了解您有一列具有一堆颜色的值,并且您想将这些值全部更改为该列的长度?这将做到这一点:

df['column_name'] = len(df['column_name'])

如果这不是你想要的,请让你的问题更清楚

于 2013-05-05T13:41:14.833 回答