0

将 AZ ML 工作台用于类项目(必需工具)我在探索笔记本中编写了下面的所需逻辑,但找不到将其包含到数据准备转换数据流中的方法。

all_columns = df.columns sum_columns = [col_name for col_name in all_columns if col_name not in ['NPI', 'Gender', 'State', 'Credentials', 'Specialty']] sum_op_columns = list(set(sum_columns) & set(df_op['Drug Name'].values))

逻辑是使用来自一个数据源 df_op(阿片类药物)的列名来选择要从另一个数据源 df(所有药物)中包含哪些列子集。添加 py 脚本/表达式转换数据流时,我只看到引用单个 df 的能力。备择方案?

4

1 回答 1

-1

我可能有办法让您访问这两个数据框。

在 Workbench 中,一旦您加载了需要加载的数据源,右键单击一个并选择“生成数据访问代码文件”。

数据源

在那里,您将自动获得访问该特定文件的代码。但是,您可以使用相同的代码来访问其他文件。

在上面的屏幕截图中,我有两个数据源。我可以使用下面的代码将它们作为pandas数据框访问并根据需要进行操作。

df_salary = datasource.load_datasource('SalaryData.dsource')
df_startup = datasource.load_datasource('50-Startups.dsource')

我相信您可以从那里将更新的数据框保存到 CSV,然后在train脚本中使用它。

希望对您有所帮助或至少为您指出另一种解决方案。

于 2018-03-14T16:31:51.220 回答