hadoop - 是否有 SparseVectorsFromSequenceFiles、RowIdJob 和 RowSimilarityJob 作业的内存实现

Question

我一直在使用Mahout 提供的和Hadoop 作业执行潜在语义分析SparseVectorsFromSequenceFiles，这些作业运行 Map/Reduce 作业。我一直在尝试为这些在内存中运行的功能找到一个等效的实现，或者在单个线程中，或者最好在多个线程中。RowIdJobRowSimilarityJob

有这样的事吗？

score 2 · Accepted Answer

我不知道，不这么认为，但是写起来很简单。您只需SequenceFile.Reader为每条记录打开一个和，Vector从值中获取Writable并做您想做的事情。这可能是 10 行代码，不值得一个工具。

hadoop - 是否有 SparseVectorsFromSequenceFiles、RowIdJob 和 RowSimilarityJob 作业的内存实现

1 回答 1

Related

Reference