我是 ML.Net 的新手,正在玩一些基本的 MultiClassClassification 场景,想知道它现在是否已经可以默认处理停用词,或者我应该在我的数据准备中这样做吗?
问问题
368 次
我是 ML.Net 的新手,正在玩一些基本的 MultiClassClassification 场景,想知道它现在是否已经可以默认处理停用词,或者我应该在我的数据准备中这样做吗?
请查看ML.NET 食谱的这一部分。
如果您mlContext.Transforms.Text.FeaturizeText
在管道中使用,它将默认删除英语停用词。
当然,您可以使用其他 ML.NET 提供的组件随意调整您的 NLP 预处理,但是,根据我对文本分类的一点经验,在FeaturizeText
大多数情况下,包罗万象的工作是合理的。