问题标签 [carrot2]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

107 问题

0 投票

0 回答

356 浏览

lucene - 胡萝卜2 3.8.1 不读取lucene 4.6.0 索引

尝试在 lucene 索引上使用集群时，出现以下错误：

处理错误：org.apache.lucene.index.IndexFormatTooNewException：不支持格式版本（资源：ChecksumIndexInput(SimpleFSIndexInput(path="M:\files\projects\LombardiNetworks\lucene\index\segments_1"))）：1（需要>介于 0 和 0 之间）

org.apache.lucene.index.IndexFormatTooNewException：不支持格式版本（资源：ChecksumIndexInput(SimpleFSIndexInput(path="M:\files\projects\LombardiNetworks\lucene\index\segments_1"))）：1（需要>在 0 和 0 之间）

这也出现在 3.9 中。快照。我究竟做错了什么？我错过了一些配置吗？

lucene carrot2

2013-12-13T14:26:08.803

0 投票

1 回答

183 浏览

solr - 基于 solr 字段的 solr 聚类，包括地理空间位置字段

尝试使用胡萝卜2 进行结果集聚类。我对此有几个问题。

a) 我们能否根据 solr 中的特定字段对 Solr/Lucene 中的文档进行聚类？喜欢将它们基于名称、人名和地理距离位置（纬度、经度）与特定字段权重进行聚类？

b）我的集群用例并不是真的在线，它更像是一个批处理用例，鉴于此，我们是否仍然有这个 1K max no 的限制。结果？

2014-01-06T18:43:42.720

0 投票

1 回答

260 浏览

solr - solr在使用STC算法时如何选择标签

我目前正在尝试使用 Solr 进行聚类。我正在使用 STC 算法。但是，我不知道集群的标签是如何生成的。我知道使用后缀树中节点的标签，但是用什么方式呢？将选择什么后缀（术语）？谢谢你。

solr cluster-analysis carrot2

2014-02-11T19:38:28.923

0 投票

1 回答

318 浏览

elasticsearch - 要聚类的文档的最大限制

通过具有弹性搜索的胡萝卜2插件进行聚类时是否有任何文档限制。

这就像我们可以使用胡萝卜2 最多聚集 10000 个文档，有这样的限制吗？

elasticsearch carrot2

2014-02-27T07:41:53.913

0 投票

1 回答

95 浏览

text-analysis - 集群评论列表

我是一个刚刚发现了很棒的 Carrot2 框架的初学者。

我尝试使用 Java API 通过 LingoClusteringAlgorithm 对 Facebook 评论列表（约 100 条评论，大约 10-200 个字符）进行聚类。我可以将评论文本用作“标题”字段并将“片段”、“网址”和“查询”字段留空吗？还是有更好的方法（例如，对“标题”和“片段”使用两次评论文本？）

text-analysis carrot2

2014-03-03T07:49:23.940

0 投票

1 回答

78 浏览

cluster-analysis - 使用 Carrot2 进行顺序聚类？

它可以用carrot2进行“顺序聚类”。我对顺序聚类的意思是，假设我有一组正在聚类的文档，然后在一段时间后有新的文档来进行聚类，是否可以用旧结果对新文档进行聚类，或者我是否需要重新聚类所有文件。

顺便说一句，第一次发帖所以要温柔。

cluster-analysis carrot2

2014-03-14T13:38:23.333

0 投票

2 回答

1964 浏览

elasticsearch - 隐藏 ES 响应中的公共字段

有什么办法可以隐藏一些作为响应返回的公共字段。

例如，如果我得到如下响应：

现在我希望 ES 响应没有take、timed_out、_shards、total、success、failed值以及我不想要_index、_type的名称，因为我正在执行对特定索引和类型的查询。

那么有没有办法以这种方式过滤 ES 响应？

elasticsearch carrot2

2014-03-19T08:44:59.640

0 投票

1 回答

265 浏览

elasticsearch - lingo3g 中用于 Elasticsearch wrt 标签/单词/同义词的用户定义字典

在浏览 lingo3g 手册时，我遇到了http://download.carrotsearch.com/lingo3g/1.9.0/manual/#chapter.lexical-resources

这表明我们可以根据预定义的 Word/Label 字典自定义标签的名称。

所以我对此有一些疑问：

这些文件必须保存在 ES 中的确切位置（在 ES/config 或其他地方）
如果我们使用这些字典，那么带有 POS 的默认字典将无法对标签进行聚类吗？
如果我们使用这些特定的字典，那么聚类后的标签名称将仅在此基础上形成，还是还有其他一些逻辑？
如何检查内置的单词数据库 wrt ES 进行聚类，word-dictionary.en.xml 是 ES 的内置数据库文件吗？来源：http: //download.carrotsearch.com/lingo3g/manual/#section.attribute.use-built-in-word-database-for-label-filtering

elasticsearch carrot2

2014-03-20T08:30:30.170

0 投票

2 回答

187 浏览

solr - 来自 solr 的术语关系和分数

我有下面的人和他的技能数据已经在 solr 中被索引

从上面我想建立与每个技能的术语关系数据以及它们的相关程度，因此稍后这些信息可用于更好地搜索任何要求的候选人，并且新技能可以与现有技能正确关联。

根据研究，我发现我需要对向量项进行聚类可能是 mahout 或 carrot2，但我不确定如何执行此操作。

我相信carrot2在内存集群中确实如此，因此缩放可能是问题，所以我正在寻找mahout的首选选项。

solr cluster-analysis bigdata mahout carrot2

2014-03-20T19:12:18.730

0 投票

1 回答

1955 浏览

elasticsearch - Python Elasticsearch 和胡萝卜

我正在使用 python 弹性搜索，我需要进行文档聚类。我已经安装了 carrot2 ( https://github.com/carrot2/elasticsearch-carrot2 )。

之后如何从python调用胡萝卜聚类模块

elasticsearch carrot2 pyelasticsearch

2014-04-13T20:20:43.000

1 2 3 4 5 6 7 8 9 10

问题标签 [carrot2]

Reference