3

我希望将我们自己开发的各种机器学习算法平台从 C# 移植到更强大的数据挖掘平台,例如 R。虽然很明显 R 在许多类型的数据挖掘任务中都很出色,但我不清楚是否它可以用于文本分类。

具体来说,我们从文本中提取二元组列表,然后将其分类为 15 个不同类别之一,例如:

Bigram 列表:珠宝、书籍、手表、鞋子、百货商店 -> 类别:购物

我们既想在 R 中训练模型,又想连接到数据库以更大规模地执行此操作。

可以在R中完成吗?

4

1 回答 1

1

嗯,我开始研究机器学习,但我可能有一个建议:你考虑过Weka吗?周围有很多不同的算法,并且有一些文档。另外,还有一个RWeka使用 Weka jar 的 R 包。

编辑:Witten 等人也有一篇不错的综合读物。:数据挖掘,其中包含对 Weka 的广泛描述以及其他有趣的内容。研究 API 机会。

于 2011-11-02T08:05:32.380 回答