我正在研究 ML 文档分类问题。有谁知道如何在 Azure ML 中进行 n-gram Tfidf 特征提取和 sublinear_tf 缩放。
过去,我使用 TfidfVectorizer 进行了 inSci-Kit 学习(参见下面的示例),但问题是在 AzureML 中,我无法使用 python 模块明确定义自己的方法或类,并且宁愿不上传压缩代码。
我是 python 人,但如果有等价物,我愿意使用 R。市场上有一个 R 样本,但它依赖于 unigram。
TfidfVectorizer(max_df=.67,min_df=.015,lowercase=False ,sublinear_tf=True,norm='l2',tokenizer=AbstractTokenizer())
最好的,-阿里