我打算将 Microsoft Azure ML 用于某些文本分析目的,例如关键字提取,并且由于我的输入量很大,我想知道 ML 包是否实际上使用 Hadoop (HDP) 作为其底层?如果没有,我如何将 ML 与 Hadoop 结合使用?
Mahout 有一些文本分析工具吗?
我打算将 Microsoft Azure ML 用于某些文本分析目的,例如关键字提取,并且由于我的输入量很大,我想知道 ML 包是否实际上使用 Hadoop (HDP) 作为其底层?如果没有,我如何将 ML 与 Hadoop 结合使用?
Mahout 有一些文本分析工具吗?
Microsoft Azure ML不使用 hadoop。它使用自定义后端独立运行实验的每个模块(并且在 DAG 允许时并行运行)。
Azure ML 不是一个包,而是一个用于创建和操作 ML 解决方案的设计工作室。
你的数据集的大小是多少?
Azure ML 目前支持大约 6gigs 的训练数据。
如果您需要对数据进行预处理,建议您使用 hdinsight。这也是提取特定特征的好地方。对训练数据样本使用特征提取模块可以帮助确定关键列。
拥有大量数据从来都不是坏事。我建议将您的数据下采样到大约 512-1 gigs 的小块。使用该数据大小确定您的准确度,然后将 2 倍或 3 倍扩大到 6 个演出,看看您获得了多少准确度。