3

我一直在寻找一个最大熵分类实现,它可以处理 500 个类和 1000 个特征的输出大小。我的训练数据大约有 30,000,000 行。我曾尝试使用 64 位 R maxent 软件包 MegaM,这是爱丁堡大学的 maxent 工具,但正如预期的那样,它们都无法处理数据的大小。但是,对于这种性质的 nlp 任务,数据集的大小似乎并不过分。有什么我应该采用的技术吗?或者对我可以使用的工具包有什么建议?我正在尝试在具有 8GB RAM 的 64 位 Windows 机器上运行它,并在需要时使用 Cygwin。

4

1 回答 1

10

Vowpal Wabbit目前被认为是最快的大规模学习器。LibLinear是一种替代方案,但我不确定它是否可以处理 3e10 元素的矩阵。

请注意,术语“MaxEnt”几乎只由 NLP 人员使用;机器学习人员将其称为逻辑回归或 logit,因此如果您搜索它,您可能会发现比搜索 MaxEnt 时更多的工具。

于 2012-06-07T14:46:40.407 回答