1

我有一个非常大的语料库,每个元素都包含大量高维数据。元素不断被添加到语料库中。潜在地,每次交互只需要考虑语料库的一部分。元素被标记,可能带有多个标签和与这些标签的强度相关的权重。据我了解,数据并不稀疏。

输入数据是一组介于 -1...1 范围内的参数,介于大约 (10-1000) 个输入之间。这可能有点灵活,具体取决于最合适的机器学习方法。

我的目标是高端智能手机设备。理想情况下,处理可以在同一设备上完成,但我愿意将其传输到适度的服务器。

对于这种情况,什么是合适的机器学习方法?

我一直在阅读有关随机福雷斯特决策树、受限博尔兹曼机、深度学习博尔兹曼机等的信息,但我真的可以使用经验丰富的人的建议来指导我采用一些可以很好地提供条件的研究方法。

如果我的描述看起来有问题,请让我知道,因为我仍在掌握这些想法,并且可能从根本上误解了某些方面。

4

1 回答 1

0

尝试使用最简单的 k 近邻算法。您可以使用曼哈顿距离函数来获得快速距离函数。然后,您可以根据最近的点进行加权平均或多数类。

这也类似于内核回归。我建议使用诸如 kd 树之类的数据结构来有效地存储您的点。

于 2013-02-11T19:30:43.993 回答