问题标签 [stemming]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
solr - 启用词干提取后,搜索词根不会产生任何命中
我已经用 solr 索引了一个网站。如果不启用词干提取,它会很好地工作。然而,使用词干提取,solr 在搜索词根时不会返回任何命中。我使用瑞典语词干。
例如,support
如果不使用词干提取,搜索会给出命中。使用词干,搜索support
没有命中。虽然,搜索supporten
返回匹配匹配support
。
通过调试查询,我可以看到它的词干support
为suppor
(顺便说一句,这是不正确的,但这不重要)。但是,如果词干为suppor
,我希望它也可以搜索与原始查询词的匹配项。
我将不胜感激任何帮助!
r - Snowball Stemmer 只提取最后一个词
我想使用 R 中的 tm 包对纯文本文档语料库中的文档进行词干处理。当我将 SnowballStemmer 函数应用于语料库的所有文档时,只有每个文档的最后一个单词会被词干。
我认为这与将文档读入语料库的方式有关。用一些简单的例子来说明这一点:
nlp - 最适合我使用的 IR 软件?
我想获取人们在聊天室中聊天的内容并进行以下信息检索:
- 获取关键字
- 忽略所有干扰词,主要保留动词和名词
- 对关键字执行词干提取,这样我就不会以多种形式存储相同的关键字
- 如果同义词关键字已存储在我的存储中,则应使用现有同义词而不是新关键字
- 将处理后的关键字存储在持久存储中,并参考它所在的聊天消息和说出它的用户
有了这些经过处理的信息,我想慢慢了解人们在聊天室中谈论的内容,然后根据这些关键字自动找到相关的聊天室等。
我的问题如下:执行上述操作的最佳 C/C++ 或 .NET 工具是什么?
java - R语言tm(文本挖掘)包中的stemDocument如何使用?
我正在尝试使用调用 Java 的 R 语言 tm 包中的 stemDocument 来阻止语料库。我已经尝试过 tm 手册中的示例:
并得到以下错误:
任何帮助表示赞赏。我对Java一无所知。
谢谢
c# - 将波特词干算法的输出保存到文本文件
我在 C# 中有这个搬运工算法代码,有人能告诉我如何将此代码的输出保存到 txt 文件吗?我还要输入文件名或其内容吗?
使用系统;使用 System.IO;
命名空间搬运工 { /*
}
java - 在 Java 中将单词转换为其基本形式
在 Java 中使用什么库来将单词转换为其基本形式?也就是说,如果我们在输入上有“go”、“going”和“gone”,我需要在输出上接收 3 次“go”。
lucene - 带有重音词的 Lucene SpanishAnalyzer 类的奇怪行为
我正在使用 Lucene 3.4 中的 SpanishAnalyzer 类。当我想解析重音单词时,我得到了一个奇怪的结果。例如,如果我解析这两个词:“comunicación”和“comunicacion”,我得到的词干是“comun”和“comunicacion”。如果我改为解析“maratón”和“maraton”,我会得到两个词的相同词干(“maraton”)。
所以,至少在我看来,同一个词“comunicación”会根据重音与否而给出不同的结果,这很奇怪。如果我搜索“comunicacion”这个词,无论它是否有重音,我都应该得到相同的结果。
我正在使用的代码是下一个:
我发现能够获得共享“comunicacion”词干的每个单词的解决方案,无论是否带重音,是在第一步中去掉重音,然后用分析器解析它,但我没有知道这是否是正确的方法。
请问,谁能帮帮我?
solr - 如何在 solr 中使用前缀索引单词?
我使用 solr 3.3 来索引我的文件,我想要带有后缀的 solr 索引词,例如我想索引彩色的颜色,当我搜索颜色时,solr 显示任何具有彩色的文档。
solr - 如何在 solr 中用前缀索引单词?
可能重复:
如何在 solr 中使用前缀索引单词?
我正在使用 solr 3.3。我想要带有后缀的 solr 索引词。
当我索引“book”和“books”并搜索“book”时,solr 显示任何包含“book”或“books”的文档,但是当我索引“rain”和“rainy”并搜索“rain”时,solr 显示任何具有“雨”的文档,但我希望 solr 显示任何具有“雨”或“雨”的文档。
python - Python包在文件/url/字符串中查找预定义的关键字/标签
是否有任何 python 包可以获取关键字/标签列表并将它们与给定的字符串/文件/url 匹配?
特别是使用词干和/或其他一些同义词匹配方式。
即我预先保存的关键字:
Ski,
Bike,
Climb
我的文字:
Skiing in the mountains is great
应该被标记为Ski
Skiing and mountain biking is fun
应该用Ski
And标记Bike
如果我有一个同义词文件映射Bike
到某处MTB
MTB is a great way to spend the day
应该被标记Bike