0

我一直在使用Mahout 提供的和Hadoop 作业执行潜在语义分析SparseVectorsFromSequenceFiles,这些作业运行 Map/Reduce 作业。我一直在尝试为这些在内存中运行的功能找到一个等效的实现,或者在单个线程中,或者最好在多个线程中。RowIdJobRowSimilarityJob

有这样的事吗?

4

1 回答 1

2

我不知道,不这么认为,但是写起来很简单。您只需SequenceFile.Reader为每条记录打开一个和,Vector从值中获取Writable并做您想做的事情。这可能是 10 行代码,不值得一个工具。

于 2012-07-02T08:03:40.300 回答