按照此处的 scikit-learn 教程,如果我们有一个Pandas.DataFrame
名为 的列colors
,我们如何创建一个循环来遍历 DataFrame 的所有列(或包含所需列的列表),以便所有分类变量(例如变量colors
可以有值blue
, red
, purple
) 将被len(colors)
虚拟变量列数colors#blue
, colors#red
, colors#purple
?
刚刚学了python,所以我会用一些伪代码来写我的想法。
尝试(伪代码)
cols_to_process = ['colors']
# Create new columns for dummy variables
// if listings.keyname in cols_to_process:
// unique_values = list of unique values in listings[col]
// listings = listings.join(unique_values, axis=1)
# Populate dummy variable columns
# Remove old columns that have dummy variable columns created