问题标签 [mahout]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
913 浏览

hadoop - 对大量字符串进行文本挖掘

我有字符串列表。(相当大的 id 和字符串列表分散在 4-5 个大文件中。每个大约 1 GB)。这些字符串的格式如下:

1,嗨

2,你好怎么ru?

2、怎么熬?

3、去哪儿?

3、这是什么意思

3、什么意思

现在我想对这些字符串进行文本挖掘,并想准备一个树状图,我想用以下方式显示字符串

1-嗨

2-嗨,你好吗?

3-这是什么意思?

3-你在哪里?

此输出基于特定人员的 id(假设使用这些字符串的人的 ID)后面的逗号后的字符串的相似性。如果其他人使用相同的词,则应根据他使用的字符串进行分组。

现在,这似乎是一项简单的任务。但我想在 hadoop/Mahout 上做这样的事情,或者在集群的 linux 机器上支持大量数据的事情。以及我应该如何解决这个问题。我已经在 Mahout 中尝试过不同的方法,其中我尝试创建序列文件和 seq2sparse 向量,然后尝试进行聚类。但这对我不起作用。方向上的任何帮助或指示将是一个很大的帮助。

谢谢和问候, 阿图尔

0 投票
1 回答
714 浏览

hadoop - Mahout LDA 给出 FileNotFound 异常

我创建了我的术语向量,如下所述

然后我跑

我得到:

MAHOUT-JOB:/home/ben/Scripts/Mahout/trunk/examples/target/mahout-examples-0.6-SNAPSHOT-job.jar 11/09/04 16:28:59 INFO common.AbstractJob:命令行参数:{ --endPhase=2147483647, --input=/home/ben/Scripts/eipi/termvecs, --maxIter=-1, --numTopics=2, --numWords=100, --output=/home/ben/Scripts /eipi/lda_working,--startPhase=0,--tempDir=temp,--topicSmoothing=-1.0} 11/09/04 16:29:00 信息 lda.LDADriver:LDA 迭代 1 11/09/04 16:29 :01 INFO input.FileInputFormat:要处理的总输入路径:4 11/09/04 16:29:01 INFO mapred.JobClient:清理暂存区文件:/tmp/hadoop-ben/mapred/staging/ben692167368/。 staging/job_local_0001 线程“主”java.io.FileNotFoundException 中的异常:文件文件:/home/ben/Scripts/eipi/termvecs/tokenized-documents/data 不存在。在 org.apache.hadoop.fs.RawLocalFileSystem。

没错,那个文件不存在。我应该如何创建它?

0 投票
1 回答
215 浏览

algorithm - Mahout 算法的信心和支持

有任何人知道 mahout 中的推荐算法,以便从给定的 User id 、 Item id 和 Item 偏好值的数据集中找到支持和置信度......并根据这些信息,算法推荐项目......

0 投票
4 回答
17717 浏览

lucene - 在提供 Lucene 索引时使用免费工具进行实体提取/识别

我目前正在研究从文本(网络上的很多文章)中提取人名、位置、技术词汇和类别的选项,然后将其输入到 Lucene/ElasticSearch 索引中。然后将附加信息添加为元数据,并应提高搜索的精度。

例如,当有人查询“wicket”时,他应该能够确定他是指板球运动还是 Apache 项目。到目前为止,我试图自己实现这一点,但取得了轻微的成功。现在我找到了很多工具,但我不确定它们是否适合这项任务,哪些与 Lucene 集成得很好,或者实体提取的精度是否足够高。

我的问题:

  • 有人对上面列出的一些工具及其精度/召回有经验吗?或者,如果需要 + 可用的训练数据。
  • 是否有文章或教程可以让我开始使用每个工具的实体提取 (NER)?
  • 它们如何与 Lucene 集成?

以下是与该主题相关的一些问题:

0 投票
3 回答
1016 浏览

mahout - Apache 口味字符串 ID

是否可以使用不是整数的 id 使用味道?

我的模型可能对远程产品有偏好。为了区分这些,我们使用字符串标识符“locationId:itemId”。但是,我看不到对此的支持。
有没有其他方法可以解决这个问题?

0 投票
1 回答
771 浏览

mahout - 如何构建数据以便在 mahout 中使用项目偏好推荐

首先是 mahout、apache、maven 等的新手——如果这很明显,请道歉。

我有一个典型的购物篮数据集,即

用户 1,项目 1

用户 1,项目 2

用户 2,项目 1

用户 2,项目 3

用户 3,项目 2

我的查询 - 对 user3 有什么建议?(是的,我知道答案是 item1!)。

我如何构建它以在 Mahout 中使用?我查看了页面 - https://cwiki.apache.org/MAHOUT/recommender-documentation.html - 这非常有用 - 但就在我想要有趣的位时 - 即如何构建相关数据 - 它说:

而我要计算的那一点是缺失的......!

虽然这完全是错误的做法,但我调整了我的数据集,使其看起来与 movielens 结构相同(给出 5 作为评级,但实际上它应该是二进制真的),但所有用户的所有建议始终相同产品清单。

请问有什么建议吗?

0 投票
1 回答
321 浏览

mahout - https://cwiki.apache.org/MAHOUT/itembased-collaborative-filtering.html 的示例命令行和数据集

在阅读https://cwiki.apache.org/MAHOUT/itembased-collaborative-filtering.html之后,我确定这正是我想做的......但是..我实际上没有任何例子可以确认这。

能否请一位好心人给我一个 linux cmd 行(最好带有 5 行数据示例),说明我如何使用这个数据集运行 mahout?它完全按照安装说明进行安装,即通过 svn 和 maven。

0 投票
1 回答
2791 浏览

similarity - Mahout 布尔基于用户的推荐器的相似度函数

我正在使用Mahout构建一个基于用户的推荐系统,该系统使用布尔数据进行操作。

我使用GenericBooleanPrefUserBasedRecommender,NearestNUserNeighborhood现在尝试确定最合适的用户相似度函数。

建议使用LogLikelihoodSimilarityTanimotoCoefficientSimilarity。我都尝试了,并且在这两种情况下都得到了[主观评估]有意义的结果。然而,相同数据集的 RMSE 评级优于 LogLikehood。两种情况下“不推荐”的数量相似。

谁能推荐这些相似性函数中的哪一个最适合这种情况?

0 投票
1 回答
408 浏览

tomcat - Mahout servlets per data model

I am implementing the Mahout user-based recommendation engine where the recommendations will be served via RecommenderServlet running in Tomcat.

So far looks like a basic setup, but it has some extra properties:

  1. Recommendations will be served from 100 different data models, depending on user's context. Each data model is ~2 Mb.

  2. There could be 1000s of concurrent users querying recommendations at a given time.

One option I considered is setting up one RecommenderServlet per data model. So there will be 100 of them distributed between multiple Tomcat instances.

The main question for Mahout experts:

Would you recommend to set up one RecommenderServlet per data model, or there are better alternatives?

0 投票
1 回答
413 浏览

mahout - Mahout:如何转换 SparseVector 格式的自定义文档以使用 LDA

我有一组文档,其中每一行都有一定数量的字符串,用“\t|\t”分隔。每个字符串(之间可能包含空格)是一个不可分割的字典项。现在我必须使用 LDA 来查找这些文档之间关于每个字典单词(我的词汇中的字符串)的相关性。

请指导我如何将这些文档转换为备用矢量格式,然后如何在它们上应用 LDA?