“mahout”的相关标签问题_Stack Overflow中文网

0 投票

4 回答

2248 浏览

hadoop - 在实践中，您需要多少台机器才能让 Hadoop / MapReduce / Mahout 加速非常可并行化的计算？

我需要做一些繁重的机器学习计算。我有少量机器在 LAN 上空闲。我需要多少台机器才能使用 hadoop / mapreduce / mahout 分布我的计算比在没有这些分布式框架的单台机器上运行要快得多？这是一个计算开销与收益的实际问题，因为我假设仅在 2 台机器之间分配总时间会比不分配并仅在单台机器上运行更糟糕（只是因为分配计算所涉及的所有开销）。

技术说明：一些繁重的计算非常可并行化。只要每台机器都有自己的原始数据副本，所有这些都是。

user334911

2011-07-13T16:40:32.030

0 投票

1 回答

266 浏览

java - 使用 Apache Mahout - MinLLR 参数对文档进行矢量化

我正在使用 Apache Mahout 对一组大小合适的文档（约 500k）进行矢量化和聚类。在研究项目网站和 Mahout in Action 书中的示例时，我已经多次看到使用的minLLR参数seq2sparse，但我不确定它期望什么样的值。是否有任何一种“起点”或方法来估计该参数的合适值？

java apache mahout

2011-07-14T12:44:28.220

0 投票

1 回答

3667 浏览

hadoop - HBase & Mahout - 使用 HBase 作为 Mahout 的数据存储/源 - 分类

我正在处理一个大型文本分类项目，我们将文本数据（简单消息）存储在 HBase 中。

我们有两个问题，首先我们想使用 HBase 作为 Mahout 分类器的来源，即 Bayers 和随机森林。

其次，我们希望能够将生成的模型存储在 HBase 中，而不是使用内存中的方法 (InMemoryBayesDatastore)，但是随着我们的集合增长，我们遇到了内存利用率问题，并希望测试 HBase 作为一种可行的替代方案。

使用带有 Mahout 的 HBase 以及是否可以将其用作潜在数据源的材料似乎很少。我在具有 InMemory 数据存储的 Java 中使用 Mahout 0.6 核心 API。

做了一些挖掘，我相信有一个 HBase Bayers Datastore 组件 -org.apache.mahout.classifier.bayes.datastore.HBaseBayesDatastore在此处查看较旧的 JavaDoc：http ://www.jarvana.com/jarvana/view/org/apache/mahout/mahout-core/0.3/mahout -core-0.3-javadoc.jar!/org/apache/mahout/classifier/bayes/datastore/HBaseBayesDatastore.html

但是，看看最新的文档，这个功能似乎已经消失了..？https://builds.apache.org/job/Mahout-Quality/javadoc/

我想知道是否仍然可以将 HBase 用作 Bayers 和 RandomForests 的数据源，并且在这方面是否有任何以前的用例？

谢谢！

hadoop machine-learning hbase classification mahout

2011-07-25T12:52:43.307

0 投票

3 回答

114 浏览

java - 如何理解此代码段的错误消息？

我需要使用开源软件 mahout 开展一个项目。一个示例程序如下。

eclipse 编译器给出错误信息，例如

GenderItemSimilarity 类型必须实现继承的抽象方法 ItemSimilarity.allSimilarItemIDs(long)

在我看来，这个错误消息表明存在一个类 ItemSimilarity，它有一个 allSimilarItemIDs(long) 的方法。但是，目前的程序没有这种方法。我的分析正确吗？添加这种方法会解决问题吗？

java eclipse mahout

2011-08-02T03:35:37.927

0 投票

2 回答

1473 浏览

java - 运行 Mahout 示例的错误

我下载了“Mahout in Action”第09章的最新版本示例。我可以成功运行几个示例，但是对于三个文件，NewsKMeansClustering.java、ReutersToSparseVectors.java 和 NewsFuzzyKMeansClusteing.java。运行这三个程序会给出类似的错误消息：

2011 年 8 月 3 日下午 2:03:54 org.apache.hadoop.metrics.jvm.JvmMetrics init INFO：使用 processName=JobTracker、sessionId= 初始化 JVM 指标

2011 年 8 月 3 日下午 2:03:54 org.apache.hadoop.mapred.JobClient configureCommandLineOptions 警告：使用 GenericOptionsParser 解析参数。应用程序应该
实现同样的工具。

2011 年 8 月 3 日下午 2:03:54 org.apache.hadoop.mapred.JobClient configureCommandLineOptions 警告：未设置作业 jar 文件。可能找不到用户类。请参阅 JobConf(Class) 或 JobConf#setJar(String)。

线程“主”org.apache.hadoop.mapreduce.lib.input.InvalidInputException 中的异常：输入路径不存在：文件：/home/user1/workspaceMahout1/recommender/inputDir

在 org.apache.hadoop.mapreduce.lib.input.FileInputFormat.listStatus(FileInputFormat.java:224)

在 org.apache.hadoop.mapreduce.lib.input.SequenceFileInputFormat.listStatus(SequenceFileInputFormat.java:55)

在 org.apache.hadoop.mapreduce.lib.input.FileInputFormat.getSplits(FileInputFormat.java:241)

在 org.apache.hadoop.mapred.JobClient.writeNewSplits(JobClient.java:885) 在 org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:779) 在 org.apache.hadoop.mapreduce.Job.submit (Job.java:432) 在 org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:447)

在 org.apache.mahout.vectorizer.DocumentProcessor.tokenizeDocuments(DocumentProcessor.java:93) 在 mia.clustering.ch09.NewsKMeansClustering.main(NewsKMeansClustering.java:54)

对于上述消息，我不太明白这两个警告是什么意思？而且，看起来应该已经创建了“输入路径”，我该如何创建这种类型的输入？谢谢。

java mahout

2011-08-04T02:46:24.847

0 投票

2 回答

526 浏览

java - 在我的代码中使用“SequenceFilesFromDirectory”的问题

我正在尝试编写一个示例程序，可以调用使用“SequenceFilesFromDirectory”的主要方法，该方法旨在将一组文件转换为序列文件格式。

但是 Eclipse 告诉我，我所做的错误是以下错误消息

此行有多个标记 - 标记“main”上的语法错误，= 此标记之后的预期 - 标记上的语法错误，错误的构造 - 无法解析 SequenceFilesFromDirectory

我想我没有正确使用此方法，但我不知道如何解决？非常感谢。

以下是 SequenceFilesFromDirectory 的定义方式。SequenceFilesFromDirectory 的 API 链接是http://search-lucene.com/jd/mahout/utils/org/apache/mahout/text/SequenceFilesFromDirectory.html

java eclipse mahout

2011-08-05T16:48:09.630

0 投票

2 回答

165 浏览

windows - 在 mahout 安装 grouplens 数据时遇到问题

通过链接安装 mahout 的任务 ( http://girlincomputerscience.blogspot.com/2010/11/apache-mahout.html )

在将库复制到任务网络文件夹的过程中。我收到这样的错误..

用于命令

它没有找到 grouplens.jar 到目标文件夹..

提前致谢....

维涅什

windows cygwin mahout

2011-08-09T10:53:14.783

0 投票

0 回答

316 浏览

hadoop - 这是使用 NewsKMeasnClustering.java 的错误还是设置问题

这是一个错误还是 NewsKMeansClustering.java 中的设置，这是 Mahout-in-Action 第 9 章中给出的示例代码？我正在针对序列文件的目录运行该程序。输出错误信息如下：

线程“main”java.io.FileNotFoundException 中的异常：文件 newsClusters/clustersclusteredPoints/part-m-00000 不存在。在 org.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:361) 在 org.apache.hadoop.fs.FilterFileSystem.getFileStatus(FilterFileSystem.java:245) 在 org.apache.hadoop.fs.FileSystem.getLength (FileSystem.java:676) 在 org.apache.hadoop.io.SequenceFile$Reader.(SequenceFile.java:1417) 在 org.apache.hadoop.io.SequenceFile$Reader.(SequenceFile.java:1412) 在 mia。 clustering.ch09.NewsKMeansClustering.main(NewsKMeansClustering.java:76)

我的开发环境的目录结构也如下所示：

~/workspaceMahout1/recommender/newsClusters% ls canopy-centroids clusters df-count dictionary.file-0 frequency.file-0 tfidf-vectors tf-vectors tokenized-documents wordcount ~/workspaceMahout1/recommender/newsClusters/clusters/clusteredPoints% ls part -m-00000

之后，我将原始代码更改为

至

该程序可以通过而不给出上述错误消息。我想知道是原始代码中的错误还是还有其他隐藏的问题？

hadoop mahout

2011-08-09T15:43:44.233

0 投票

2 回答

1177 浏览

machine-learning - Mahout K-means 聚类给我的结果就像 0 属于集群 1.0：[]

我针对一组序列文件运行了 K-means 聚类算法。但是，生成的结果如下所示：

0 属于集群 1.0：[]

0 属于集群 1.0：[]

0 属于集群 1.0：[]

0 属于集群 1.0：[]

0 属于集群 1.0：[]

0 属于集群 1.0：[]

我使用的程序是从 NewsKMeansClustering.java 借来的，这是 Mahout-in-Action 第 9 章中给出的示例。

你想让我知道为什么我会得到这种结果吗？是因为任何特定的参数设置要求还是其他原因？

该程序中的核心聚类代码是

machine-learning mahout

2011-08-10T13:54:53.557

0 投票

1 回答

354 浏览

lucene - 在 Windows 上使用 Lucene 对 Mahout 进行集群

我是使用 Mahout 和 Lucene 的新手。我查看了每个论坛和提出的问题，但我还不能理解一些事情。我用 TermVectors 完成了我的 Lucene 索引。但是我需要使用 Mahout 对这些信息进行聚类。

我已经看到每个人都使用命令。问题是我的项目是在 Windows 环境中使用 NetBeans 制作的。因此，当我看到所有命令行表达式时，不可能在 Windows 终端上使用它们。此外，我看到有些人使用 Hadoop，但我不知道是否对我的应用程序有用。

谁能帮我如何使用 Mahout？是否可以将 jar 库导入我的项目并直接从我的项目中使用它？

lucene cluster-analysis mahout

2011-08-11T15:26:43.297

问题标签 [mahout]

Reference