问题标签 [snowballanalyzer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
maven-2 - 在 pom.xml 中使用 Snowball 分析器和 Lucene 2.4.0 的正确依赖项是什么?
我正在尝试在我的 Maven 2 项目中将SnowballAnalyzer换成StandardAnalyzer 。我目前正在使用
但我不断收到以下错误:
java - 使用 Lucene 索引文本文档时出现异常,使用 SnowballAnalyzer 进行清理
我正在使用 Lucene 对文档进行索引,并尝试应用 SnowballAnalyzer 从文本中删除标点符号和停用词。我不断收到以下错误:(
IllegalAccessError:试图从类 org.apache.lucene.analysis.snowball.SnowballAnalyzer 访问方法 org.apache.lucene.analysis.Tokenizer.(Ljava/io/Reader;)V
这是代码,我将非常感谢帮助!!!!我是新来的..
公共类索引器{
}
private void indexDocument(File someDoc) 抛出 IOException {
} }
lucene - 在 Lucene 中获取词干
在 Lucene 中,我使用 SnowballAnalyzer 进行索引和搜索。
当我建立索引时,我对我的索引进行查询。例如,我对字段“body”进行了“specialized”查询。IndexSearcher 返回包含“specialize、specialized 等”的文档。因为 SnowballAnalyzer 进行了词干提取。
现在 - 拥有顶级文档 - 我想从正文字段中获取文本片段。此片段应包含查询词的词干版本。
例如,其中一份退回的文件有 body 字段:“不幸的是,在某些州,盲人只能使用一般康复机构,这些机构为各种残疾的人提供服务。在这些情况下,为视障人士提供的专门服务是不适用的。”始终可用。” 然后我希望得到部分'在这些情况下,视觉的专业服务'作为片段。此外,我想从这个片段中获得条款。可以执行此操作的代码,但带有一个标记为“?” 字符,我有一个问题是:
我想怎么做
IndexReader ir = IndexReader.open(fsDir);
TermPositionVector tv = (TermPositionVector)ir.getTermFreqVector(hits.scoreDocs[i].doc, "body");
? - 这里:查询 - 查询必须是术语。因此,如果真正的查询是“专门的”,那么查询应该是专门的,通常雪球分析器会这样做。我怎样才能得到分析器为单个单词或短语分析的术语,因为查询可以包含一个短语:“专业机器”。
int idx = tv.indexOf(query);
int [] idxs = tv.getTermPositions(idx);
for(String t : tv.getTerms()){
int iidx = tv.indexOf(t);
int [] iidxs = tv.getTermPositions(iidx);
for(int ni : idxs){
tmpValue = 0.0f;
for(int nni : iidxs){
if(Math.abs(nni-ni)<= Settings.termWindowSize){
编辑
我找到了获取词干的方法: Query object toString(String fieldName)
Query q = queryParser.parse("some text to be parsed");
String parsedQuery = q.toString();
有一个方法;
lucene - 将 SnowBallAnalyzer 与 PyLucene 结合使用
我正在尝试在 PyLucene 中使用 SnowBallAnalyzer,但我总是收到一条错误消息:当我尝试像这样创建它的实例时出现 InvalidArgsError:
analyzer = SnowBallAnalyzer("Spanish")
或者
analyzer = SnowBallAnalyzer("Spanish", STOPWORDS)
我真正需要的是,如果我搜索“Fútbol”,我应该获得包含“futbol”或“fútbol”这个词的文档。所以...我想将 SnowBallAnalyzer 应用于我想索引查询的文本。
任何帮助将不胜感激。
提前致谢。
solr - Solr SnowballPorterFilterFactory 过滤器提供了不正确的建议
我将 SnowballPorterFilterFactory 用于索引和查询分析器。搜索“苹果”这个词。Solr 成功找到了必要的文章,但 tels 说单词拼写错误并给出建议:“appl”。如果我搜索“apples”,它会正常工作:没有给出建议并找到带有“apple”字样的文章。
架构.xml:
任何想法如何排除不正确的建议?
lucene - 带有词干分析器的 Lucene 荧光笔
我正在使用 Lucene 的 Highlighter 类来突出显示匹配搜索结果的片段,并且效果很好。我想从使用 StandardAnalyzer 搜索切换到 EnglishAnalyzer,它将执行词干提取。
搜索结果很好,但现在荧光笔并不总能找到匹配项。这是我正在查看的示例:
使用 EnglishAnalyzer 并搜索“goat”,两个文档都匹配,但荧光笔只能从文档 2 中找到匹配的片段。有没有办法让荧光笔返回两个文档的数据?
我知道标记的字符不同,但相同的标记仍然存在,因此仅突出显示该位置存在的任何标记似乎是合理的。
如果有帮助,这是使用 Lucene 3.5。
search - Solr SnowballPorterFilterFactory 用于索引和查询分析器
我将SnowballPorterFilterFactory用于索引和查询分析器。当我搜索“专业”这个词时。Solr 成功只找到包含“专业”的文章,但我想要“专业”“专业”...
这是schema.xml上的当前配置
lucene - 在哪里可以找到与 Lucene 3.0 兼容的 snowball.dll
我正在使用 Lucene 3.0,我需要与 Lucene 3.0 兼容的 Snowball 分析器来进行词干提取。我在谷歌搜索了一个小时,但我找不到可靠的来源。请建议我可以从中下载 snowball.dll 的受信任位置。
lucene - 改进 lucene.net 分析器
我在 asp.net 应用程序中使用 lucene.net 和雪球分析器。
对于我使用的特定语言,我有以下问题:对于两个在词干后具有不同含义的特定词,结果是相同的,因此搜索它们中的任何一个都会为这两个词产生结果。
我怎样才能教分析器不要阻止这两个词,或者虽然阻止了它们,但知道它们有不同的含义。
java - 使用 SnowballPorterFilterFactory 进行德语词干处理
我的德语词干 SnowballPorterFilterFactory 有问题。我只是无法让它工作。既不是英语也不是德语。我正在使用这个 AnalzyderDef。
我尝试过这里提到的 walk/walking/walks 。过滤器的组合可能是问题吗?