python - 用于 Azure ML 中的特征提取的 TfidfVectorizer 和 sublinear_tf 缩放

Question

我正在研究 ML 文档分类问题。有谁知道如何在 Azure ML 中进行 n-gram Tfidf 特征提取和 sublinear_tf 缩放。

过去，我使用 TfidfVectorizer 进行了 inSci-Kit 学习（参见下面的示例），但问题是在 AzureML 中，我无法使用 python 模块明确定义自己的方法或类，并且宁愿不上传压缩代码。

我是 python 人，但如果有等价物，我愿意使用 R。市场上有一个 R 样本，但它依赖于 unigram。

TfidfVectorizer(max_df=.67,min_df=.015,lowercase=False ,sublinear_tf=True,norm='l2',tokenizer=AbstractTokenizer())

最好的，-阿里

score 0 · Accepted Answer

欢迎使用 AzureML。

对于定义自己的方法的问题，AzureML 是一种用于 ML 建模的基于流的可视化编程工具。它与在本地主机上编程不同。您可以为不同的数据集过程定义模块，并通过拖放在两个模块之间链接的线来链接它们。ML Stduio 上有一个现有模块的列表，请参阅https://msdn.microsoft.com/en-us/library/azure/dn906033.aspx。您只需将它们组合起来即可制作您自己的 ML 模型。

对于 Python Module 的使用问题，AzureML 上的 Python 有一些限制。不能自定义 Python 安装，参考https://azure.microsoft.com/en-us/documentation/articles/machine-learning-execute-python-scripts/#limitations的第 4 项。

但是，对于 R 语言，您可以导入尚未安装在 ML Studio 中的包。请参阅https://azure.microsoft.com/en-us/documentation/articles/machine-learning-extend-your-experiment-with-r/#importing-packages。

同时，您还可以在 AzureML 中编写自定义 R 模块。请参阅https://azure.microsoft.com/en-us/documentation/articles/machine-learning-extend-your-experiment-with-r/#importing-packages。

所以我认为你可以通过在 API 中安装依赖“unigrams”来运行 R 示例install.packages('<pkgs.zip>', ...)。

此致。

python - 用于 Azure ML 中的特征提取的 TfidfVectorizer 和 sublinear_tf 缩放

1 回答 1

Related

Reference