问题标签 [snowball]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
search - Solr SnowballPorterFilterFactory 用于索引和查询分析器
我将SnowballPorterFilterFactory用于索引和查询分析器。当我搜索“专业”这个词时。Solr 成功只找到包含“专业”的文章,但我想要“专业”“专业”...
这是schema.xml上的当前配置
lucene - 通过 ElasticSearch 使用多种词干提取语言
我正在为一个网站构建一个搜索引擎,用户可以来自许多不同的国家并发布文本内容。
我会考虑: - 法语生成法语和英语内容 - 德语生成德语和英语等内容...
我想知道是否可以同时使用不同的雪球词干分析器语言进行搜索,以便我们同时获得适当的结果。
我们是否必须为每个雪球词干分析器语言创建一个索引?
这种情况有已知的模式吗?
谢谢
.net - 可以在 Lucene.Net 下使用“仅限 Java”分析器吗?
我认为答案是“不”。但我看到了微软 MVP Simone Chiaretta 的一些有趣的话:
目录
索引结构与 Lucene 的所有端口兼容,因此您也可以使用 .NET 完成索引并使用 Java 进行搜索,或者反过来......
分析仪
简而言之,分析器包含从文本中提取索引词的策略。.....而且java版本还有更多的分析器还没有移植到.net。
由此可见,我可以使用非 .NET 功能(例如使用 Snowball 分析器)创建索引,并在 Lucene.Net 驱动的应用程序中使用它。这是真的还是假的?
elasticsearch - 使用受保护词进行词干的 ElasticSearch
我正在使用 ElasticSearch(通过 Ruby、Tire)在电子商务服装网站上进行搜索。我需要一个词干过滤器,但我还需要能够指定一个不受词干的保护词列表。目前我正在使用雪球过滤器进行词干提取,但我不知道是否可以指定受保护的词。我还查看了其他一些词干过滤器:
- Porter Stem 的词干处理似乎过于激进,导致了奇怪的混乱
- KStem 似乎只有英文,这是一个多语言项目
- Stemmer 声称像雪球一样,但功能更全面,但我找不到任何关于它的好文档
我的问题是:有没有办法用雪球来实现这些目标(如果有,怎么做?)还是我需要切换到其他词干过滤器之一?
python - 向 pystemmer 添加语言
我想使用pystemmer
with whoosh
,但不支持我的语言。
我为我的语言 ( Snowball ) 找到了两个雪球文件,并按照此处的建议从它们中制作了 *.c 文件。
现在我想在 pystemmer 中包含 *.c 文件。我将它们添加到源代码中,我编辑了所有找到链接/语言文件列表的文件,但是在安装 pystemmer(从源代码)之后,我仍然无法使用我的语言 - 它不在列表中Stemmer.algorithms()
。
我究竟做错了什么?
java - Italian stemming library in java
i'm searching a java library or something to do stemming of italian strings of words.
The goal is to compare italian words. In this moment words like "attacco", "attacchi","attaccare" etc., are considered different, instead I want returned a true comparison.
I found something like Lucene, snowball.tartarus.org, etc. Is there something else useful, or how can I use them in java?
Thanks for answers.
python - 终端中的 Python NLTK 雪球词干分析器 UnicodeDecodeError 但不是 Eclipse PyDev
我正在使用雪球词干分析器来词干文档中的单词,如下面的代码片段所示。
当我在 Eclipse 中使用 PyDev 在文档上运行它时,我没有收到任何错误。当我在终端(Mac OSX)中运行它时,我收到以下错误。有人可以帮忙吗?
java - 在 JAR 中导出时,Weka 和 Snowball 不起作用
这个问题真的让我抓狂
回答大多数人的想法:是的,我将 snowball.jar 添加到 CLASSPATH
我有一个简单的主类,应该将“going”这个词改为“go”:
首先,当我在 Eclipse 中运行它时,它可以工作,我得到以下输出:
但是,当我从 eclipse“stem.jar”将它导出为可运行 jar 并在终端“java -jar stem.jar”中执行它时,它不起作用,我得到以下输出:
我不知道为什么在导出的 jar 中无法识别 snowball.jar ...虽然 weka.jar 和 snowball.jar 都包含在导出的 jar 中。这是 stem.jar 文件结构:
我将不胜感激任何有关问题的帮助
编辑 1: 生成的 ANT 脚本:
编辑2:
这是所要求的 MANIFEST.MF 的内容。
提前致谢, TeFa
r - R无法加载包雪球,rJava
我试图让 R 包“lsa”运行,而这又需要 Snowball,而后者又会失败。我正在运行 OpenSUSE 12.2 和最新的 R 补丁版本(当前为 3.01)。事情是这样的:如果我执行“sudo R”,库加载没有问题,但如果我尝试以好的方式运行 R,在 emacs ESS 模式下,我没有 sudo 并且尝试失败。这是我看到的:
这是一长串 rJava 问题的结论。
关于如何在没有 sudo 的情况下运行的建议(运行 sudo R 似乎很愚蠢,除了是 ESS 模式的问题)
solr - SOLR 雪球搬运工阿拉伯语
是否有 Snowball Porter 过滤器或任何类似的阿拉伯语过滤器?
<filter class="solr.SnowballPorterFilterFactory" language="English" />
我需要它将复数词标准化为阿拉伯语的单数词