问题标签 [carrot2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
356 浏览

lucene - 胡萝卜2 3.8.1 不读取lucene 4.6.0 索引

尝试在 lucene 索引上使用集群时,出现以下错误:

处理错误:org.apache.lucene.index.IndexFormatTooNewException:不支持格式版本(资源:ChecksumIndexInput(SimpleFSIndexInput(path="M:\files\projects\LombardiNetworks\lucene\index\segments_1"))):1(需要>介于 0 和 0 之间)

org.apache.lucene.index.IndexFormatTooNewException:不支持格式版本(资源:ChecksumIndexInput(SimpleFSIndexInput(path="M:\files\projects\LombardiNetworks\lucene\index\segments_1"))):1(需要>在 0 和 0 之间)

这也出现在 3.9 中。快照。我究竟做错了什么?我错过了一些配置吗?

0 投票
1 回答
183 浏览

solr - 基于 solr 字段的 solr 聚类,包括地理空间位置字段

尝试使用胡萝卜2 进行结果集聚类。我对此有几个问题。

a) 我们能否根据 solr 中的特定字段对 Solr/Lucene 中的文档进行聚类?喜欢将它们基于名称、人名和地理距离位置(纬度、经度)与特定字段权重进行聚类?

b)我的集群用例并不是真的在线,它更像是一个批处理用例,鉴于此,我们是否仍然有这个 1K max no 的限制。结果?

0 投票
1 回答
260 浏览

solr - solr在使用STC算法时如何选择标签

我目前正在尝试使用 Solr 进行聚类。我正在使用 STC 算法。但是,我不知道集群的标签是如何生成的。我知道使用后缀树中节点的标签,但是用什么方式呢?将选择什么后缀(术语)?谢谢你。

0 投票
1 回答
318 浏览

elasticsearch - 要聚类的文档的最大限制

通过具有弹性搜索的胡萝卜2插件进行聚类时是否有任何文档限制。

这就像我们可以使用胡萝卜2 最多聚集 10000 个文档,有这样的限制吗?

0 投票
1 回答
95 浏览

text-analysis - 集群评论列表

我是一个刚刚发现了很棒的 Carrot2 框架的初学者。

我尝试使用 Java API 通过 LingoClusteringAlgorithm 对 Facebook 评论列表(约 100 条评论,大约 10-200 个字符)进行聚类。我可以将评论文本用作“标题”字段并将“片段”、“网址”和“查询”字段留空吗?还是有更好的方法(例如,对“标题”和“片段”使用两次评论文本?)

0 投票
1 回答
78 浏览

cluster-analysis - 使用 Carrot2 进行顺序聚类?

它可以用carrot2进行“顺序聚类”。我对顺序聚类的意思是,假设我有一组正在聚类的文档,然后在一段时间后有新的文档来进行聚类,是否可以用旧结果对新文档进行聚类,或者我是否需要重新聚类所有文件。

顺便说一句,第一次发帖所以要温柔。

0 投票
2 回答
1964 浏览

elasticsearch - 隐藏 ES 响应中的公共字段

有什么办法可以隐藏一些作为响应返回的公共字段。

例如,如果我得到如下响应:

现在我希望 ES 响应没有take、timed_out、_shards、total、success、failed值以及我不想要_index、_type的名称, 因为我正在执行对特定索引和类型的查询。

那么有没有办法以这种方式过滤 ES 响应?

0 投票
1 回答
265 浏览

elasticsearch - lingo3g 中用于 Elasticsearch wrt 标签/单词/同义词的用户定义字典

在浏览 lingo3g 手册时,我遇到了http://download.carrotsearch.com/lingo3g/1.9.0/manual/#chapter.lexical-resources

这表明我们可以根据预定义的 Word/Label 字典自定义标签的名称。

所以我对此有一些疑问:

  1. 这些文件必须保存在 ES 中的确切位置(在 ES/config 或其他地方)

  2. 如果我们使用这些字典,那么带有 POS 的默认字典将无法对标签进行聚类吗?

  3. 如果我们使用这些特定的字典,那么聚类后的标签名称将仅在此基础上形成,还是还有其他一些逻辑?

  4. 如何检查内置的单词数据库 wrt ES 进行聚类,word-dictionary.en.xml 是 ES 的内置数据库文件吗?来源:http: //download.carrotsearch.com/lingo3g/manual/#section.attribute.use-built-in-word-database-for-label-filtering

0 投票
2 回答
187 浏览

solr - 来自 solr 的术语关系和分数

我有下面的人和他的技能数据已经在 solr 中被索引

从上面我想建立与每个技能的术语关系数据以及它们的相关程度,因此稍后这些信息可用于更好地搜索任何要求的候选人,并且新技能可以与现有技能正确关联。

根据研究,我发现我需要对向量项进行聚类可能是 mahout 或 carrot2,但我不确定如何执行此操作。

我相信carrot2在内存集群中确实如此,因此缩放可能是问题,所以我正在寻找mahout的首选选项。

0 投票
1 回答
1955 浏览

elasticsearch - Python Elasticsearch 和胡萝卜

我正在使用 python 弹性搜索,我需要进行文档聚类。我已经安装了 carrot2 ( https://github.com/carrot2/elasticsearch-carrot2 )。

之后如何从python调用胡萝卜聚类模块