我有一个由数百万个示例组成的数据集,其中每个示例包含 128 个按名称分类的连续值特征。我正在尝试找到一个强大的大型数据库/索引来用作高维数据的 KNN 分类器。我尝试了Weka 的 IBk 分类器,但它在这么多数据上窒息,即使那样它也必须加载到内存中。Lucene ,特别是通过PyLucene接口,会是一个可能的替代方案吗?
我找到了Lire,它似乎以类似的方式使用 Lucene,但是在查看代码之后,我不确定他们是如何将其拉下来的,或者这是否与我正在尝试做的事情相同。
我意识到 Lucene 被设计为文本索引工具,而不是通用分类器,但是可以以这种方式使用它吗?