问题标签 [mahout]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
xml - hadoop 中的 XML 处理
我在 hdfs 中有近 200 多个 xml 文件。我使用 XmlInputFormat(mahout 的)来流式传输元素。映射器能够获取 xml 内容并对其进行处理。但问题是只有第一个 xml 文件被单独处理。但是当我们处理大量的小文本文件时,处理完第一个文件后,下一个文件将由 Hadoop 传递给映射器。让我知道这是否不是 xml 文件的默认行为,以及应该如何迭代整个 xml 文件集。谢谢。
mahout - Mahout 堆空间不足
我正在使用 Mahout 在一组推文上运行 NaiveBayes。两个文件,一个 100 MB 和一个 300 MB。我将 JAVA_HEAP_MAX 更改为 JAVA_HEAP_MAX=-Xmx2000m (之前是 1000)。但即便如此,mahout 也运行了几个小时(准确地说是 2 小时),然后才抱怨堆空间错误。我应该怎么做才能解决?
如果有帮助,请提供更多信息:我在单个节点上运行,我的笔记本电脑实际上具有 3GB 的 RAM(仅)。
谢谢。
编辑:我第三次使用 <1/2 我第一次使用的数据(第一次使用 550 万条推文,第二次使用 200 万条)运行它,但我仍然遇到堆空间问题。为了完成目的,我发布了完整的错误:
我正在发布我更改的 bin/mahout 脚本的一部分:原文:
修改的 :
mahout - Mahout——推荐给一类人
我是新手学习mahout。
我了解到 mahout 有五个推荐人。基于用户,基于项目,...
我使用的数据集是movielens 100K
我正在考虑实现与基于用户的电影推荐器略有不同的电影推荐器。即,我不想将用户 ID 作为仅向一个用户推荐电影的输入,而是要获取用户人口统计信息,例如年龄范围、性别、职业和邮政编码。
但问题是如何创建自己的用户相似度方法(原来的方法是以两个长类型用户 id 作为参数)以及如何将 u.user 文件和 u.data 文件结合在一起?
mahout - mahout中基于用户喜好的推荐系统
我们如何根据用户喜欢或浏览历史在 Apache Mahout 上运行推荐系统?简而言之,在基于内容的网站上,95% 的流量来自非登录用户,他们将来自搜索引擎。它们只有这样我们才能通过使用 IP 来使它们独一无二。Apache Mahout 上是否有我们可以找出用户相似的浏览行为并推荐相关内容的地方?
java - 如何追溯这个编译错误?
我从书中复制的示例开始学习使用 mahout。但是,eclipse 编译器给了我以下信息:
在我看来,问题来自属于这个库本身的 FileDataModel.java。如何追溯或分析此错误。
示例代码如下,正是从书中复制的。造成问题的线路是
java - 与 slf4j 库相关的编译问题
我正在尝试编译一个开源库,并遇到以下问题。当我保留 slf4j-jcl-1.6.0.jar 和 slf4j-api-1.6.0.jar 这两个库时,eclipse 编译器会给我以下错误消息:
SLF4J:类路径包含多个 SLF4J 绑定。SLF4J:在 [jar:file:/home/chengs6/mahout/mahout-distribution-0.5/mahout-examples-0.5-job.jar!/org/slf4j/impl/StaticLoggerBinder.class] 中找到绑定 SLF4J:在 [ jar:file:/home/chengs6/mahout/mahout-distribution-0.5/lib/slf4j-jcl-1.6.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]
如果我删除这两个库,那么编译器会给我以下错误消息:
2011 年 6 月 15 日下午 2:51:12 org.slf4j.impl.JCLLoggerAdapter 错误
如何解决这个问题?谢谢。
java - 当我尝试在 Apache Mahout 中运行示例时,此错误告诉我们什么?
我正在学习使用 Apache Mahout,并在运行其中一个示例后收到以下消息:
其实*/output/data
运行后发现目录就是在那里创建的。我不明白这个错误信息告诉我们什么?
r - 具有非常大矩阵的 K 均值
我必须在一个非常大的矩阵(大约 300.000x100.000 值,超过 100Gb)上执行 k 均值聚类。我想知道我是否可以使用 R 软件来执行此操作或 weka。我的计算机是具有 8Gb 内存和数百 Gb 可用空间的多处理器。
我有足够的空间进行计算,但加载这样的矩阵似乎是 R 的问题(我认为使用 bigmemory 包不会帮助我,如果空间不足,大矩阵会自动使用我的所有 RAM,然后使用我的交换文件)。
所以我的问题是:我应该使用什么软件(最终与其他一些软件包或自定义设置相关联)。
谢谢你帮助我。
注意:我使用linux。
eclipse - 关于“将 Mahout 的 Maven 项目转换为 Eclipse 项目”的问题
在安装 Mahout 之类的开源软件时,我阅读了一些注释,例如
将 Mahout 的 Maven 项目转换为 Eclipse 项目
这是什么意思?Maven 项目和 Eclipse 项目有什么区别?
java - 是什么导致了“构造函数未定义”之类的错误
我正在尝试在 Eclipse 中编译“Mahout in Action”的示例代码。有一个名为“LimitedMemoryDiffStorage.java”的 java 文件。本质上只是定义一个类
}
但是eclipse编译器声明
构造函数 MemoryDiffStorage(DataModel, Weighting, boolean, long) 未定义
我认为它是在 mahout-core 库中定义的并且已经包含在构建路径中,为什么它仍然会导致这种错误?