问题标签 [carrot2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
lucene - 胡萝卜2 3.8.1 不读取lucene 4.6.0 索引
尝试在 lucene 索引上使用集群时,出现以下错误:
处理错误:org.apache.lucene.index.IndexFormatTooNewException:不支持格式版本(资源:ChecksumIndexInput(SimpleFSIndexInput(path="M:\files\projects\LombardiNetworks\lucene\index\segments_1"))):1(需要>介于 0 和 0 之间)
org.apache.lucene.index.IndexFormatTooNewException:不支持格式版本(资源:ChecksumIndexInput(SimpleFSIndexInput(path="M:\files\projects\LombardiNetworks\lucene\index\segments_1"))):1(需要>在 0 和 0 之间)
这也出现在 3.9 中。快照。我究竟做错了什么?我错过了一些配置吗?
solr - 基于 solr 字段的 solr 聚类,包括地理空间位置字段
尝试使用胡萝卜2 进行结果集聚类。我对此有几个问题。
a) 我们能否根据 solr 中的特定字段对 Solr/Lucene 中的文档进行聚类?喜欢将它们基于名称、人名和地理距离位置(纬度、经度)与特定字段权重进行聚类?
b)我的集群用例并不是真的在线,它更像是一个批处理用例,鉴于此,我们是否仍然有这个 1K max no 的限制。结果?
solr - solr在使用STC算法时如何选择标签
我目前正在尝试使用 Solr 进行聚类。我正在使用 STC 算法。但是,我不知道集群的标签是如何生成的。我知道使用后缀树中节点的标签,但是用什么方式呢?将选择什么后缀(术语)?谢谢你。
elasticsearch - 要聚类的文档的最大限制
通过具有弹性搜索的胡萝卜2插件进行聚类时是否有任何文档限制。
这就像我们可以使用胡萝卜2 最多聚集 10000 个文档,有这样的限制吗?
text-analysis - 集群评论列表
我是一个刚刚发现了很棒的 Carrot2 框架的初学者。
我尝试使用 Java API 通过 LingoClusteringAlgorithm 对 Facebook 评论列表(约 100 条评论,大约 10-200 个字符)进行聚类。我可以将评论文本用作“标题”字段并将“片段”、“网址”和“查询”字段留空吗?还是有更好的方法(例如,对“标题”和“片段”使用两次评论文本?)
cluster-analysis - 使用 Carrot2 进行顺序聚类?
它可以用carrot2进行“顺序聚类”。我对顺序聚类的意思是,假设我有一组正在聚类的文档,然后在一段时间后有新的文档来进行聚类,是否可以用旧结果对新文档进行聚类,或者我是否需要重新聚类所有文件。
顺便说一句,第一次发帖所以要温柔。
elasticsearch - 隐藏 ES 响应中的公共字段
有什么办法可以隐藏一些作为响应返回的公共字段。
例如,如果我得到如下响应:
现在我希望 ES 响应没有take、timed_out、_shards、total、success、failed值以及我不想要_index、_type的名称, 因为我正在执行对特定索引和类型的查询。
那么有没有办法以这种方式过滤 ES 响应?
elasticsearch - lingo3g 中用于 Elasticsearch wrt 标签/单词/同义词的用户定义字典
在浏览 lingo3g 手册时,我遇到了http://download.carrotsearch.com/lingo3g/1.9.0/manual/#chapter.lexical-resources
这表明我们可以根据预定义的 Word/Label 字典自定义标签的名称。
所以我对此有一些疑问:
这些文件必须保存在 ES 中的确切位置(在 ES/config 或其他地方)
如果我们使用这些字典,那么带有 POS 的默认字典将无法对标签进行聚类吗?
如果我们使用这些特定的字典,那么聚类后的标签名称将仅在此基础上形成,还是还有其他一些逻辑?
如何检查内置的单词数据库 wrt ES 进行聚类,word-dictionary.en.xml 是 ES 的内置数据库文件吗?来源:http: //download.carrotsearch.com/lingo3g/manual/#section.attribute.use-built-in-word-database-for-label-filtering
solr - 来自 solr 的术语关系和分数
我有下面的人和他的技能数据已经在 solr 中被索引
从上面我想建立与每个技能的术语关系数据以及它们的相关程度,因此稍后这些信息可用于更好地搜索任何要求的候选人,并且新技能可以与现有技能正确关联。
根据研究,我发现我需要对向量项进行聚类可能是 mahout 或 carrot2,但我不确定如何执行此操作。
我相信carrot2在内存集群中确实如此,因此缩放可能是问题,所以我正在寻找mahout的首选选项。
elasticsearch - Python Elasticsearch 和胡萝卜
我正在使用 python 弹性搜索,我需要进行文档聚类。我已经安装了 carrot2 ( https://github.com/carrot2/elasticsearch-carrot2 )。
之后如何从python调用胡萝卜聚类模块