0

我正在研究 ML 文档分类问题。有谁知道如何在 Azure ML 中进行 n-gram Tfidf 特征提取和 sublinear_tf 缩放。

过去,我使用 TfidfVectorizer 进行了 inSci-Kit 学习(参见下面的示例),但问题是在 AzureML 中,我无法使用 python 模块明确定义自己的方法或类,并且宁愿不上传压缩代码。

我是 python 人,但如果有等价物,我愿意使用 R。市场上有一个 R 样本,但它依赖于 unigram。

TfidfVectorizer(max_df=.67,min_df=.015,lowercase=False ,sublinear_tf=True,norm='l2',tokenizer=AbstractTokenizer())

最好的,-阿里

4

1 回答 1

0

欢迎使用 AzureML。

对于定义自己的方法的问题,AzureML 是一种用于 ML 建模的基于流的可视化编程工具。它与在本地主机上编程不同。您可以为不同的数据集过程定义模块,并通过拖放在两个模块之间链接的线来链接它们。ML Stduio 上有一个现有模块的列表,请参阅https://msdn.microsoft.com/en-us/library/azure/dn906033.aspx。您只需将它们组合起来即可制作您自己的 ML 模型。

对于 Python Module 的使用问题,AzureML 上的 Python 有一些限制。不能自定义 Python 安装,参考https://azure.microsoft.com/en-us/documentation/articles/machine-learning-execute-python-scripts/#limitations的第 4 项。

但是,对于 R 语言,您可以导入尚未安装在 ML Studio 中的包。请参阅https://azure.microsoft.com/en-us/documentation/articles/machine-learning-extend-your-experiment-with-r/#importing-packages

同时,您还可以在 AzureML 中编写自定义 R 模块。请参阅https://azure.microsoft.com/en-us/documentation/articles/machine-learning-extend-your-experiment-with-r/#importing-packages

所以我认为你可以通过在 API 中安装依赖“unigrams”来运行 R 示例install.packages('<pkgs.zip>', ...)

此致。

于 2015-09-30T08:15:01.703 回答