“mahout”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

913 浏览

hadoop - 对大量字符串进行文本挖掘

我有字符串列表。（相当大的 id 和字符串列表分散在 4-5 个大文件中。每个大约 1 GB）。这些字符串的格式如下：

1，嗨

2，你好怎么ru？

2、怎么熬？

3、去哪儿？

3、这是什么意思

3、什么意思

现在我想对这些字符串进行文本挖掘，并想准备一个树状图，我想用以下方式显示字符串

1-嗨

2-嗨，你好吗？

3-这是什么意思？

3-你在哪里？

此输出基于特定人员的 id（假设使用这些字符串的人的 ID）后面的逗号后的字符串的相似性。如果其他人使用相同的词，则应根据他使用的字符串进行分组。

现在，这似乎是一项简单的任务。但我想在 hadoop/Mahout 上做这样的事情，或者在集群的 linux 机器上支持大量数据的事情。以及我应该如何解决这个问题。我已经在 Mahout 中尝试过不同的方法，其中我尝试创建序列文件和 seq2sparse 向量，然后尝试进行聚类。但这对我不起作用。方向上的任何帮助或指示将是一个很大的帮助。

谢谢和问候，阿图尔

2011-09-04T22:46:19.790

0 投票

1 回答

714 浏览

hadoop - Mahout LDA 给出 FileNotFound 异常

我创建了我的术语向量，如下所述：

然后我跑

我得到：

MAHOUT-JOB：/home/ben/Scripts/Mahout/trunk/examples/target/mahout-examples-0.6-SNAPSHOT-job.jar 11/09/04 16:28:59 INFO common.AbstractJob：命令行参数：{ --endPhase=2147483647, --input=/home/ben/Scripts/eipi/termvecs, --maxIter=-1, --numTopics=2, --numWords=100, --output=/home/ben/Scripts /eipi/lda_working，--startPhase=0，--tempDir=temp，--topicSmoothing=-1.0} 11/09/04 16:29:00 信息 lda.LDADriver：LDA 迭代 1 11/09/04 16:29 ：01 INFO input.FileInputFormat：要处理的总输入路径：4 11/09/04 16:29:01 INFO mapred.JobClient：清理暂存区文件：/tmp/hadoop-ben/mapred/staging/ben692167368/。 staging/job_local_0001 线程“主”java.io.FileNotFoundException 中的异常：文件文件：/home/ben/Scripts/eipi/termvecs/tokenized-documents/data 不存在。在 org.apache.hadoop.fs.RawLocalFileSystem。

没错，那个文件不存在。我应该如何创建它？

hadoop mahout lda

2011-09-05T14:45:11.220

0 投票

1 回答

215 浏览

algorithm - Mahout 算法的信心和支持

有任何人知道 mahout 中的推荐算法，以便从给定的 User id 、 Item id 和 Item 偏好值的数据集中找到支持和置信度......并根据这些信息，算法推荐项目......

algorithm mahout recommendation-engine mahout-recommender

2011-09-14T14:33:46.530

0 投票

4 回答

17717 浏览

lucene - 在提供 Lucene 索引时使用免费工具进行实体提取/识别

我目前正在研究从文本（网络上的很多文章）中提取人名、位置、技术词汇和类别的选项，然后将其输入到 Lucene/ElasticSearch 索引中。然后将附加信息添加为元数据，并应提高搜索的精度。

例如，当有人查询“wicket”时，他应该能够确定他是指板球运动还是 Apache 项目。到目前为止，我试图自己实现这一点，但取得了轻微的成功。现在我找到了很多工具，但我不确定它们是否适合这项任务，哪些与 Lucene 集成得很好，或者实体提取的精度是否足够高。

我的问题：

有人对上面列出的一些工具及其精度/召回有经验吗？或者，如果需要 + 可用的训练数据。
是否有文章或教程可以让我开始使用每个工具的实体提取 (NER)？
它们如何与 Lucene 集成？

以下是与该主题相关的一些问题：

lucene nlp semantic-web mahout opennlp

2011-09-17T13:42:53.950

0 投票

3 回答

1016 浏览

mahout - Apache 口味字符串 ID

是否可以使用不是整数的 id 使用味道？

我的模型可能对远程产品有偏好。为了区分这些，我们使用字符串标识符“locationId:itemId”。但是，我看不到对此的支持。
有没有其他方法可以解决这个问题？

mahout

2011-09-21T10:31:38.070

0 投票

1 回答

771 浏览

mahout - 如何构建数据以便在 mahout 中使用项目偏好推荐

首先是 mahout、apache、maven 等的新手——如果这很明显，请道歉。

我有一个典型的购物篮数据集，即

用户 1，项目 1

用户 1，项目 2

用户 2，项目 1

用户 2，项目 3

用户 3，项目 2

我的查询 - 对 user3 有什么建议？（是的，我知道答案是 item1！）。

我如何构建它以在 Mahout 中使用？我查看了页面 - https://cwiki.apache.org/MAHOUT/recommender-documentation.html - 这非常有用 - 但就在我想要有趣的位时 - 即如何构建相关数据 - 它说：

而我要计算的那一点是缺失的......！

虽然这完全是错误的做法，但我调整了我的数据集，使其看起来与 movielens 结构相同（给出 5 作为评级，但实际上它应该是二进制真的），但所有用户的所有建议始终相同产品清单。

请问有什么建议吗？

mahout

2011-09-21T12:29:28.437

0 投票

1 回答

321 浏览

mahout - https://cwiki.apache.org/MAHOUT/itembased-collaborative-filtering.html 的示例命令行和数据集

在阅读https://cwiki.apache.org/MAHOUT/itembased-collaborative-filtering.html之后，我确定这正是我想做的......但是..我实际上没有任何例子可以确认这。

能否请一位好心人给我一个 linux cmd 行（最好带有 5 行数据示例），说明我如何使用这个数据集运行 mahout？它完全按照安装说明进行安装，即通过 svn 和 maven。

mahout

2011-09-21T13:19:56.513

0 投票

1 回答

2791 浏览

similarity - Mahout 布尔基于用户的推荐器的相似度函数

我正在使用Mahout构建一个基于用户的推荐系统，该系统使用布尔数据进行操作。

我使用GenericBooleanPrefUserBasedRecommender,NearestNUserNeighborhood现在尝试确定最合适的用户相似度函数。

建议使用LogLikelihoodSimilarity或TanimotoCoefficientSimilarity。我都尝试了，并且在这两种情况下都得到了[主观评估]有意义的结果。然而，相同数据集的 RMSE 评级优于 LogLikehood。两种情况下“不推荐”的数量相似。

谁能推荐这些相似性函数中的哪一个最适合这种情况？

2011-09-23T13:00:32.020

0 投票

1 回答

408 浏览

tomcat - Mahout servlets per data model

I am implementing the Mahout user-based recommendation engine where the recommendations will be served via RecommenderServlet running in Tomcat.

So far looks like a basic setup, but it has some extra properties:

Recommendations will be served from 100 different data models, depending on user's context. Each data model is ~2 Mb.
There could be 1000s of concurrent users querying recommendations at a given time.

One option I considered is setting up one RecommenderServlet per data model. So there will be 100 of them distributed between multiple Tomcat instances.

The main question for Mahout experts:

Would you recommend to set up one RecommenderServlet per data model, or there are better alternatives?

tomcat servlets mahout collaborative-filtering

2011-09-27T14:42:16.283

0 投票

1 回答

413 浏览

mahout - Mahout：如何转换 SparseVector 格式的自定义文档以使用 LDA

我有一组文档，其中每一行都有一定数量的字符串，用“\t|\t”分隔。每个字符串（之间可能包含空格）是一个不可分割的字典项。现在我必须使用 LDA 来查找这些文档之间关于每个字典单词（我的词汇中的字符串）的相关性。

请指导我如何将这些文档转换为备用矢量格式，然后如何在它们上应用 LDA？

mahout lda

2011-09-28T16:17:44.033

问题标签 [mahout]

Reference