问题标签 [mahout]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 在实践中,您需要多少台机器才能让 Hadoop / MapReduce / Mahout 加速非常可并行化的计算?
我需要做一些繁重的机器学习计算。我有少量机器在 LAN 上空闲。我需要多少台机器才能使用 hadoop / mapreduce / mahout 分布我的计算比在没有这些分布式框架的单台机器上运行要快得多?这是一个计算开销与收益的实际问题,因为我假设仅在 2 台机器之间分配总时间会比不分配并仅在单台机器上运行更糟糕(只是因为分配计算所涉及的所有开销)。
技术说明:一些繁重的计算非常可并行化。只要每台机器都有自己的原始数据副本,所有这些都是。
java - 使用 Apache Mahout - MinLLR 参数对文档进行矢量化
我正在使用 Apache Mahout 对一组大小合适的文档(约 500k)进行矢量化和聚类。在研究项目网站和 Mahout in Action 书中的示例时,我已经多次看到使用的minLLR
参数seq2sparse
,但我不确定它期望什么样的值。是否有任何一种“起点”或方法来估计该参数的合适值?
hadoop - HBase & Mahout - 使用 HBase 作为 Mahout 的数据存储/源 - 分类
我正在处理一个大型文本分类项目,我们将文本数据(简单消息)存储在 HBase 中。
我们有两个问题,首先我们想使用 HBase 作为 Mahout 分类器的来源,即 Bayers 和随机森林。
其次,我们希望能够将生成的模型存储在 HBase 中,而不是使用内存中的方法 (InMemoryBayesDatastore),但是随着我们的集合增长,我们遇到了内存利用率问题,并希望测试 HBase 作为一种可行的替代方案。
使用带有 Mahout 的 HBase 以及是否可以将其用作潜在数据源的材料似乎很少。我在具有 InMemory 数据存储的 Java 中使用 Mahout 0.6 核心 API。
做了一些挖掘,我相信有一个 HBase Bayers Datastore 组件 -org.apache.mahout.classifier.bayes.datastore.HBaseBayesDatastore
在此处查看较旧的 JavaDoc:http ://www.jarvana.com/jarvana/view/org/apache/mahout/mahout-core/0.3/mahout -core-0.3-javadoc.jar!/org/apache/mahout/classifier/bayes/datastore/HBaseBayesDatastore.html
但是,看看最新的文档,这个功能似乎已经消失了..?https://builds.apache.org/job/Mahout-Quality/javadoc/
我想知道是否仍然可以将 HBase 用作 Bayers 和 RandomForests 的数据源,并且在这方面是否有任何以前的用例?
谢谢!
java - 如何理解此代码段的错误消息?
我需要使用开源软件 mahout 开展一个项目。一个示例程序如下。
eclipse 编译器给出错误信息,例如
GenderItemSimilarity 类型必须实现继承的抽象方法 ItemSimilarity.allSimilarItemIDs(long)
在我看来,这个错误消息表明存在一个类 ItemSimilarity,它有一个 allSimilarItemIDs(long) 的方法。但是,目前的程序没有这种方法。我的分析正确吗?添加这种方法会解决问题吗?
java - 运行 Mahout 示例的错误
我下载了“Mahout in Action”第09章的最新版本示例。我可以成功运行几个示例,但是对于三个文件,NewsKMeansClustering.java、ReutersToSparseVectors.java 和 NewsFuzzyKMeansClusteing.java。运行这三个程序会给出类似的错误消息:
2011 年 8 月 3 日下午 2:03:54 org.apache.hadoop.metrics.jvm.JvmMetrics init INFO:使用 processName=JobTracker、sessionId= 初始化 JVM 指标
2011 年 8 月 3 日下午 2:03:54 org.apache.hadoop.mapred.JobClient configureCommandLineOptions 警告:使用 GenericOptionsParser 解析参数。应用程序应该
实现同样的工具。2011 年 8 月 3 日下午 2:03:54 org.apache.hadoop.mapred.JobClient configureCommandLineOptions 警告:未设置作业 jar 文件。可能找不到用户类。请参阅 JobConf(Class) 或 JobConf#setJar(String)。
线程“主”org.apache.hadoop.mapreduce.lib.input.InvalidInputException 中的异常:输入路径不存在:文件:/home/user1/workspaceMahout1/recommender/inputDir
在 org.apache.hadoop.mapreduce.lib.input.FileInputFormat.listStatus(FileInputFormat.java:224)
在 org.apache.hadoop.mapreduce.lib.input.SequenceFileInputFormat.listStatus(SequenceFileInputFormat.java:55)
在 org.apache.hadoop.mapreduce.lib.input.FileInputFormat.getSplits(FileInputFormat.java:241)
在 org.apache.hadoop.mapred.JobClient.writeNewSplits(JobClient.java:885) 在 org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:779) 在 org.apache.hadoop.mapreduce.Job.submit (Job.java:432) 在 org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:447)
在 org.apache.mahout.vectorizer.DocumentProcessor.tokenizeDocuments(DocumentProcessor.java:93) 在 mia.clustering.ch09.NewsKMeansClustering.main(NewsKMeansClustering.java:54)
对于上述消息,我不太明白这两个警告是什么意思?而且,看起来应该已经创建了“输入路径”,我该如何创建这种类型的输入?谢谢。
java - 在我的代码中使用“SequenceFilesFromDirectory”的问题
我正在尝试编写一个示例程序,可以调用使用“SequenceFilesFromDirectory”的主要方法,该方法旨在将一组文件转换为序列文件格式。
但是 Eclipse 告诉我,我所做的错误是以下错误消息
此行有多个标记 - 标记“main”上的语法错误,= 此标记之后的预期 - 标记上的语法错误,错误的构造 - 无法解析 SequenceFilesFromDirectory
我想我没有正确使用此方法,但我不知道如何解决?非常感谢。
以下是 SequenceFilesFromDirectory 的定义方式。SequenceFilesFromDirectory 的 API 链接是http://search-lucene.com/jd/mahout/utils/org/apache/mahout/text/SequenceFilesFromDirectory.html
windows - 在 mahout 安装 grouplens 数据时遇到问题
通过链接安装 mahout 的任务 ( http://girlincomputerscience.blogspot.com/2010/11/apache-mahout.html )
在将库复制到任务网络文件夹的过程中。我收到这样的错误..
用于命令
它没有找到 grouplens.jar 到目标文件夹..
提前致谢....
维涅什
hadoop - 这是使用 NewsKMeasnClustering.java 的错误还是设置问题
这是一个错误还是 NewsKMeansClustering.java 中的设置,这是 Mahout-in-Action 第 9 章中给出的示例代码?我正在针对序列文件的目录运行该程序。输出错误信息如下:
线程“main”java.io.FileNotFoundException 中的异常:文件 newsClusters/clustersclusteredPoints/part-m-00000 不存在。在 org.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:361) 在 org.apache.hadoop.fs.FilterFileSystem.getFileStatus(FilterFileSystem.java:245) 在 org.apache.hadoop.fs.FileSystem.getLength (FileSystem.java:676) 在 org.apache.hadoop.io.SequenceFile$Reader.(SequenceFile.java:1417) 在 org.apache.hadoop.io.SequenceFile$Reader.(SequenceFile.java:1412) 在 mia。 clustering.ch09.NewsKMeansClustering.main(NewsKMeansClustering.java:76)
我的开发环境的目录结构也如下所示:
~/workspaceMahout1/recommender/newsClusters% ls canopy-centroids clusters df-count dictionary.file-0 frequency.file-0 tfidf-vectors tf-vectors tokenized-documents wordcount ~/workspaceMahout1/recommender/newsClusters/clusters/clusteredPoints% ls part -m-00000
之后,我将原始代码更改为
至
该程序可以通过而不给出上述错误消息。我想知道是原始代码中的错误还是还有其他隐藏的问题?
machine-learning - Mahout K-means 聚类给我的结果就像 0 属于集群 1.0:[]
我针对一组序列文件运行了 K-means 聚类算法。但是,生成的结果如下所示:
0 属于集群 1.0:[]
0 属于集群 1.0:[]
0 属于集群 1.0:[]
0 属于集群 1.0:[]
0 属于集群 1.0:[]
0 属于集群 1.0:[]
我使用的程序是从 NewsKMeansClustering.java 借来的,这是 Mahout-in-Action 第 9 章中给出的示例。
你想让我知道为什么我会得到这种结果吗?是因为任何特定的参数设置要求还是其他原因?
该程序中的核心聚类代码是
lucene - 在 Windows 上使用 Lucene 对 Mahout 进行集群
我是使用 Mahout 和 Lucene 的新手。我查看了每个论坛和提出的问题,但我还不能理解一些事情。我用 TermVectors 完成了我的 Lucene 索引。但是我需要使用 Mahout 对这些信息进行聚类。
我已经看到每个人都使用命令。问题是我的项目是在 Windows 环境中使用 NetBeans 制作的。因此,当我看到所有命令行表达式时,不可能在 Windows 终端上使用它们。此外,我看到有些人使用 Hadoop,但我不知道是否对我的应用程序有用。
谁能帮我如何使用 Mahout?是否可以将 jar 库导入我的项目并直接从我的项目中使用它?