问题标签 [stemming]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql-server-2008 - MSSQL 2008 全文搜索:词干提取是否考虑了语法性别?
我们使用 SQL Server 2008 的全文搜索让客户使用FREETEXTTABLE()
查询检索记录。
给定如下搜索:
或者:
(德语中分别表示“客户”和“读者”。)
,我希望这些词的女性形式也有结果。但是,只有当我明确搜索“Kundin”或“Leserin”时,才会出现这些结果。
服务器的默认全文语言是1031
(即德语)。语言组件是NaturalLanguage6.dll
version 6.0.6001.18000
。
SQL Server iFTS 自动包含可适应其他语言的性别规则的词干逻辑 [..]
这应该工作吗?如果不是,我可以通过 A) 安装附加/不同的语言组件,或 B) 使用不同的全文引擎(例如,Lucene.NET)使其工作吗?
perl - 如何找到基本的、不变形的词进行搜索?
我在尝试编写一个将单词的所有变形都视为同一个基本单词的搜索引擎时遇到了麻烦。
- 所以对于动词来说,这些都是同一个词根,be:
- 数字/人(例如 am; is; are)
- 过去时或将来时的时态/情绪(例如 是;是;将是)
- 过去分词(例如 has been ; had been)
- 现在分词和动名词(例如 is being ; was not be funny; 早点不如正确重要)
虚拟语气(例如 可能是;对完成某事至关重要;我希望是这样)</p>
- 然后对于名词,单数形式和复数形式都应该算作同一个基本词[ ᴇᴅɪᴛᴏʀ's ɴᴏᴛᴇ:这通常被称为单词的引用形式。]
例如,对于“<em>enable”,我不想将“<em>enables”和“<em>enabled”打印为单独的条目。这三个都应该算作同一个基本词,动词enable。
我可以使用以下哈希来防止打印重复项:
有人可以解释一下吗?在下面的评论中解释。
这并不能阻止复数/过去继续。有没有办法做到这一点,或者一些完全不同的方法,可能涉及一个正则表达式和/或替换,然后是一个 unsub ?
我不能用替换来修改这个词,因为那样打印就不会正确打印出来。虽然我还没到阶段,但最终我想包括不规则过去时 [ ᴇᴅɪᴛᴏʀ's ɴᴏᴛᴇ: 和不规则名词?] 以及
我不确定您还需要回答我的问题,所以请让我知道我无意中遗漏的任何内容,我会填写任何缺失的部分以帮助使其更清楚。
lucene.net - Lucene.NET 词干问题
我在 Lucene.NET 中使用 SnowBallAnalyzer 时遇到了问题。它适用于某些单词,但其他单词根本找不到任何结果,我不确定如何进一步深入研究以找出正在发生的事情。我正在测试可在此处找到的 USDA 食品描述文件的搜索(http://www.ars.usda.gov/SP2UserFiles/Place/12354500/Data/SR23/asc/FOOD_DES.txt)。我正在使用英语词干算法。搜索“鸡蛋”时,我得到以下结果:
这些结果很棒。但是,在搜索“苹果”时我根本没有得到任何结果。当我使用 StandardAnalyzer 并搜索“apple”时,我得到以下结果。
不是最好的结果,但至少它显示了一些东西。任何人都知道为什么词干分析器会以我不会得到任何结果的方式进行过滤?
编辑:这是我正在使用的原型代码。
search - 在 Solr 中避免词干搜索的一个词短语搜索
我在我的 Solr 实例中启用了词干,我假设为了在不禁用词干的情况下执行精确的词搜索,就像将词放在引号中一样简单。然而,情况似乎并非如此?
有没有一种简单的方法可以实现这一目标?
search - 如何在 sphinx 搜索中处理单词形式
我有一个狮身人面像服务器来索引一个 django 应用程序的 mysql 数据库。我的搜索工作正常,但我的内容包括医学词汇/短语。因此,例如,我需要搜索“dvt”以匹配“深静脉血栓形成”甚至“深静脉血栓形成”。我浏览了文档,看到了“wordforms”和“morphology”的选项。我应该使用哪些(或其他)?另外,什么会倒退?即,搜索“深静脉血栓形成”/“深静脉血栓形成”将匹配“dvt”。
另外,由于我是狮身人面像的新手,因此我将不胜感激有关如何设置它们的建议。
nlp - 英语词形还原数据库?
您是否知道任何足够大的 lemmatizer 数据库可以为以下示例词返回正确结果:
Wordnet 的形态分析器是不够的,因为它给出了以下不正确的结果:
ruby-on-rails - Ruby on Rails 的词干库/插件
在 Ruby 中寻找一个词干库,它可以让我创建如下映射:
search - Solr 中的精确单词搜索
我有一个与这个问题密切相关的问题。
在我的架构中,我有一个字段
这给出了完全匹配,即。词干禁用
吃=吃
是否有可能,同时配置为 textgen 以搜索单词的其他变体
例如。吃=吃,吃,吃
eat~0 会给出类似的发音词,例如肉、节拍等,但这不是我想要的。
我开始认为实现这一点的唯一方法是添加另一个字段,而不是 textgen,但如果有更简单的方法,我很想听听。
stemming - 是否有克罗地亚语词干算法的实现?
我正在寻找克罗地亚语词干算法的实现。理想情况下是 Java,但我也接受任何其他语言。
是否有一个说英语的开发人员社区,他们正在开发克罗地亚语的搜索应用程序?
谢谢,
java - 我想要一个 Java 阿拉伯语词干分析器
我正在寻找阿拉伯语的 Java 词干分析器。我找到了一个名为 "AraMorph" 的库,但它的输出是无法控制的,它会生成不需要的单词。
阿拉伯语还有其他词干分析器吗?