问题标签 [mahout]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 对大量字符串进行文本挖掘
我有字符串列表。(相当大的 id 和字符串列表分散在 4-5 个大文件中。每个大约 1 GB)。这些字符串的格式如下:
1,嗨
2,你好怎么ru?
2、怎么熬?
3、去哪儿?
3、这是什么意思
3、什么意思
现在我想对这些字符串进行文本挖掘,并想准备一个树状图,我想用以下方式显示字符串
1-嗨
2-嗨,你好吗?
3-这是什么意思?
3-你在哪里?
此输出基于特定人员的 id(假设使用这些字符串的人的 ID)后面的逗号后的字符串的相似性。如果其他人使用相同的词,则应根据他使用的字符串进行分组。
现在,这似乎是一项简单的任务。但我想在 hadoop/Mahout 上做这样的事情,或者在集群的 linux 机器上支持大量数据的事情。以及我应该如何解决这个问题。我已经在 Mahout 中尝试过不同的方法,其中我尝试创建序列文件和 seq2sparse 向量,然后尝试进行聚类。但这对我不起作用。方向上的任何帮助或指示将是一个很大的帮助。
谢谢和问候, 阿图尔
hadoop - Mahout LDA 给出 FileNotFound 异常
我创建了我的术语向量,如下所述:
然后我跑
我得到:
MAHOUT-JOB:/home/ben/Scripts/Mahout/trunk/examples/target/mahout-examples-0.6-SNAPSHOT-job.jar 11/09/04 16:28:59 INFO common.AbstractJob:命令行参数:{ --endPhase=2147483647, --input=/home/ben/Scripts/eipi/termvecs, --maxIter=-1, --numTopics=2, --numWords=100, --output=/home/ben/Scripts /eipi/lda_working,--startPhase=0,--tempDir=temp,--topicSmoothing=-1.0} 11/09/04 16:29:00 信息 lda.LDADriver:LDA 迭代 1 11/09/04 16:29 :01 INFO input.FileInputFormat:要处理的总输入路径:4 11/09/04 16:29:01 INFO mapred.JobClient:清理暂存区文件:/tmp/hadoop-ben/mapred/staging/ben692167368/。 staging/job_local_0001 线程“主”java.io.FileNotFoundException 中的异常:文件文件:/home/ben/Scripts/eipi/termvecs/tokenized-documents/data 不存在。在 org.apache.hadoop.fs.RawLocalFileSystem。
没错,那个文件不存在。我应该如何创建它?
algorithm - Mahout 算法的信心和支持
有任何人知道 mahout 中的推荐算法,以便从给定的 User id 、 Item id 和 Item 偏好值的数据集中找到支持和置信度......并根据这些信息,算法推荐项目......
lucene - 在提供 Lucene 索引时使用免费工具进行实体提取/识别
我目前正在研究从文本(网络上的很多文章)中提取人名、位置、技术词汇和类别的选项,然后将其输入到 Lucene/ElasticSearch 索引中。然后将附加信息添加为元数据,并应提高搜索的精度。
例如,当有人查询“wicket”时,他应该能够确定他是指板球运动还是 Apache 项目。到目前为止,我试图自己实现这一点,但取得了轻微的成功。现在我找到了很多工具,但我不确定它们是否适合这项任务,哪些与 Lucene 集成得很好,或者实体提取的精度是否足够高。
- Dbpedia Spotlight,演示看起来很有希望
- OpenNLP需要训练。使用哪些训练数据?
- OpenNLP 工具
- 斯坦博尔
- NLTK
- 巴列
- UIMA
- 门->示例代码
- Apache Mahout
- 斯坦福 CRF-NER
- maui 索引器
- 槌
- 伊利诺伊州命名实体标记器不是开源但免费的
- 维基百科数据
我的问题:
- 有人对上面列出的一些工具及其精度/召回有经验吗?或者,如果需要 + 可用的训练数据。
- 是否有文章或教程可以让我开始使用每个工具的实体提取 (NER)?
- 它们如何与 Lucene 集成?
以下是与该主题相关的一些问题:
mahout - Apache 口味字符串 ID
是否可以使用不是整数的 id 使用味道?
我的模型可能对远程产品有偏好。为了区分这些,我们使用字符串标识符“locationId:itemId”。但是,我看不到对此的支持。
有没有其他方法可以解决这个问题?
mahout - 如何构建数据以便在 mahout 中使用项目偏好推荐
首先是 mahout、apache、maven 等的新手——如果这很明显,请道歉。
我有一个典型的购物篮数据集,即
用户 1,项目 1
用户 1,项目 2
用户 2,项目 1
用户 2,项目 3
用户 3,项目 2
我的查询 - 对 user3 有什么建议?(是的,我知道答案是 item1!)。
我如何构建它以在 Mahout 中使用?我查看了页面 - https://cwiki.apache.org/MAHOUT/recommender-documentation.html - 这非常有用 - 但就在我想要有趣的位时 - 即如何构建相关数据 - 它说:
而我要计算的那一点是缺失的......!
虽然这完全是错误的做法,但我调整了我的数据集,使其看起来与 movielens 结构相同(给出 5 作为评级,但实际上它应该是二进制真的),但所有用户的所有建议始终相同产品清单。
请问有什么建议吗?
mahout - https://cwiki.apache.org/MAHOUT/itembased-collaborative-filtering.html 的示例命令行和数据集
在阅读https://cwiki.apache.org/MAHOUT/itembased-collaborative-filtering.html之后,我确定这正是我想做的......但是..我实际上没有任何例子可以确认这。
能否请一位好心人给我一个 linux cmd 行(最好带有 5 行数据示例),说明我如何使用这个数据集运行 mahout?它完全按照安装说明进行安装,即通过 svn 和 maven。
similarity - Mahout 布尔基于用户的推荐器的相似度函数
我正在使用Mahout构建一个基于用户的推荐系统,该系统使用布尔数据进行操作。
我使用GenericBooleanPrefUserBasedRecommender
,NearestNUserNeighborhood
现在尝试确定最合适的用户相似度函数。
建议使用LogLikelihoodSimilarity
或TanimotoCoefficientSimilarity
。我都尝试了,并且在这两种情况下都得到了[主观评估]有意义的结果。然而,相同数据集的 RMSE 评级优于 LogLikehood。两种情况下“不推荐”的数量相似。
谁能推荐这些相似性函数中的哪一个最适合这种情况?
tomcat - Mahout servlets per data model
I am implementing the Mahout user-based recommendation engine where the recommendations will be served via RecommenderServlet
running in Tomcat.
So far looks like a basic setup, but it has some extra properties:
Recommendations will be served from 100 different data models, depending on user's context. Each data model is ~2 Mb.
There could be 1000s of concurrent users querying recommendations at a given time.
One option I considered is setting up one RecommenderServlet
per data model. So there will be 100 of them distributed between multiple Tomcat instances.
The main question for Mahout experts:
Would you recommend to set up one RecommenderServlet
per data model, or there are better alternatives?
mahout - Mahout:如何转换 SparseVector 格式的自定义文档以使用 LDA
我有一组文档,其中每一行都有一定数量的字符串,用“\t|\t”分隔。每个字符串(之间可能包含空格)是一个不可分割的字典项。现在我必须使用 LDA 来查找这些文档之间关于每个字典单词(我的词汇中的字符串)的相关性。
请指导我如何将这些文档转换为备用矢量格式,然后如何在它们上应用 LDA?