0

我的变量由多种成分组成。每个都由不同的成分组成,用逗号分隔。我对多个值使用了 One Hot Encoding(MultiLabelBinarizer()),但它增加了我的数据集维度。

对于这种情况,我们有什么合适的方法吗?

我的变量如下所示:

df['ingredients_str'].head()

0    romaine lettuce, black olives, grape tomatoes
1    plain flour,ground pepper,salt,tomatoes
2    eggs,pepper,salt,mayonaise,cooking oil
3    water,vegetable oil,wheat,salt
4    black pepper,shallots,cornflour,cayenne
Name: ingredients_str, dtype: object
4

0 回答 0