在处理文本数据时,我理解需要将文本标签编码为一些数字表示(即,通过使用LabelEncoder
等OneHotEncoder
)
但是,我的问题是,当您使用某些特征提取类(即等)时,您是否需要明确执行此步骤TfidfVectorizer
,CountVectorizer
或者这些是否会为您编码标签?
如果您确实需要自己单独对标签进行编码,您是否可以在 a 中执行此步骤Pipeline
(例如下面的那个)
pipeline = Pipeline(steps=[
('tfidf', TfidfVectorizer()),
('sgd', SGDClassifier())
])
或者您是否需要事先对标签进行编码,因为管道期望fit()
和transform()
数据(而不是标签)?