问题标签 [mahout]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
453 浏览

xml - hadoop 中的 XML 处理

我在 hdfs 中有近 200 多个 xml 文件。我使用 XmlInputFormat(mahout 的)来流式传输元素。映射器能够获取 xml 内容并对其进行处理。但问题是只有第一个 xml 文件被单独处理。但是当我们处理大量的小文本文件时,处理完第一个文件后,下一个文件将由 Hadoop 传递给映射器。让我知道这是否不是 xml 文件的默认行为,以及应该如何迭代整个 xml 文件集。谢谢。

0 投票
3 回答
5470 浏览

mahout - Mahout 堆空间不足

我正在使用 Mahout 在一组推文上运行 NaiveBayes。两个文件,一个 100 MB 和一个 300 MB。我将 JAVA_HEAP_MAX 更改为 JAVA_HEAP_MAX=-Xmx2000m (之前是 1000)。但即便如此,mahout 也运行了几个小时(准确地说是 2 小时),然后才抱怨堆空间错误。我应该怎么做才能解决?

如果有帮助,请提供更多信息:我在单个节点上运行,我的笔记本电脑实际上具有 3GB 的 RAM(仅)。

谢谢。

编辑:我第三次使用 <1/2 我第一次使用的数据(第一次使用 550 万条推文,第二次使用 200 万条)运行它,但我仍然遇到堆空间问题。为了完成目的,我发布了完整的错误:

我正在发布我更改的 bin/mahout 脚本的一部分:原文:

修改的 :

0 投票
2 回答
778 浏览

mahout - Mahout——推荐给一类人

我是新手学习mahout。

我了解到 mahout 有五个推荐人。基于用户,基于项目,...

我使用的数据集是movielens 100K

我正在考虑实现与基于用户的电影推荐器略有不同的电影推荐器。即,我不想将用户 ID 作为仅向一个用户推荐电影的输入,而是要获取用户人口统计信息,例如年龄范围、性别、职业和邮政编码。

但问题是如何创建自己的用户相似度方法(原来的方法是以两个长类型用户 id 作为参数)以及如何将 u.user 文件和 u.data 文件结合在一起?

0 投票
1 回答
629 浏览

mahout - mahout中基于用户喜好的推荐系统

我们如何根据用户喜欢或浏览历史在 Apache Mahout 上运行推荐系统?简而言之,在基于内容的网站上,95% 的流量来自非登录用户,他们将来自搜索引擎。它们只有这样我们才能通过使用 IP 来使它们独一无二。Apache Mahout 上是否有我们可以找出用户相似的浏览行为并推荐相关内容的地方?

0 投票
1 回答
916 浏览

java - 如何追溯这个编译错误?

我从书中复制的示例开始学习使用 mahout。但是,eclipse 编译器给了我以下信息:

在我看来,问题来自属于这个库本身的 FileDataModel.java。如何追溯或分析此错误。

示例代码如下,正是从书中复制的。造成问题的线路是

0 投票
1 回答
639 浏览

java - 与 slf4j 库相关的编译问题

我正在尝试编译一个开源库,并遇到以下问题。当我保留 slf4j-jcl-1.6.0.jar 和 slf4j-api-1.6.0.jar 这两个库时,eclipse 编译器会给我以下错误消息:

SLF4J:类路径包含多个 SLF4J 绑定。SLF4J:在 [jar:file:/home/chengs6/mahout/mahout-distribution-0.5/mahout-examples-0.5-job.jar!/org/slf4j/impl/StaticLoggerBinder.class] 中找到绑定 SLF4J:在 [ jar:file:/home/chengs6/mahout/mahout-distribution-0.5/lib/slf4j-jcl-1.6.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]

如果我删除这两个库,那么编译器会给我以下错误消息:

2011 年 6 月 15 日下午 2:51:12 org.slf4j.impl.JCLLoggerAdapter 错误

如何解决这个问题?谢谢。

0 投票
1 回答
461 浏览

java - 当我尝试在 Apache Mahout 中运行示例时,此错误告诉我们什么?

我正在学习使用 Apache Mahout,并在运行其中一个示例后收到以下消息:

其实*/output/data运行后发现目录就是在那里创建的。我不明白这个错误信息告诉我们什么?

0 投票
4 回答
6096 浏览

r - 具有非常大矩阵的 K 均值

我必须在一个非常大的矩阵(大约 300.000x100.000 值,超过 100Gb)上执行 k 均值聚类。我想知道我是否可以使用 R 软件来执行此操作或 weka。我的计算机是具有 8Gb 内存和数百 Gb 可用空间的多处理器。

我有足够的空间进行计算,但加载这样的矩阵似乎是 R 的问题(我认为使用 bigmemory 包不会帮助我,如果空间不足,大矩阵会自动使用我的所有 RAM,然后使用我的交换文件)。

所以我的问题是:我应该使用什么软件(最终与其他一些软件包或自定义设置相关联)。

谢谢你帮助我。

注意:我使用linux。

0 投票
1 回答
683 浏览

eclipse - 关于“将 Mahout 的 Maven 项目转换为 Eclipse 项目”的问题

在安装 Mahout 之类的开源软件时,我阅读了一些注释,例如

将 Mahout 的 Maven 项目转换为 Eclipse 项目

这是什么意思?Maven 项目和 Eclipse 项目有什么区别?

0 投票
2 回答
2607 浏览

java - 是什么导致了“构造函数未定义”之类的错误

我正在尝试在 Eclipse 中编译“Mahout in Action”的示例代码。有一个名为“LimitedMemoryDiffStorage.java”的 java 文件。本质上只是定义一个类

}

但是eclipse编译器声明

构造函数 MemoryDiffStorage(DataModel, Weighting, boolean, long) 未定义

我认为它是在 mahout-core 库中定义的并且已经包含在构建路径中,为什么它仍然会导致这种错误?