问题标签 [stemming]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
856 浏览

solr - 启用词干提取后,搜索词根不会产生任何命中

我已经用 solr 索引了一个网站。如果不启用词干提取,它会很好地工作。然而,使用词干提取,solr 在搜索词根时不会返回任何命中。我使用瑞典语词干。

例如,support如果不使用词干提取,搜索会给出命中。使用词干,搜索support没有命中。虽然,搜索supporten返回匹配匹配support

通过调试查询,我可以看到它的词干supportsuppor(顺便说一句,这是不正确的,但这不重要)。但是,如果词干为suppor,我希望它也可以搜索与原始查询词的匹配项。

我将不胜感激任何帮助!

0 投票
2 回答
5438 浏览

r - Snowball Stemmer 只提取最后一个词

我想使用 R 中的 tm 包对纯文本文档语料库中的文档进行词干处理。当我将 SnowballStemmer 函数应用于语料库的所有文档时,只有每个文档的最后一个单词会被词干。

我认为这与将文档读入语料库的方式有关。用一些简单的例子来说明这一点:

0 投票
1 回答
258 浏览

nlp - 最适合我使用的 IR 软件?

我想获取人们在聊天室中聊天的内容并进行以下信息检索:

  1. 获取关键字
  2. 忽略所有干扰词,主要保留动词和名词
  3. 对关键字执行词干提取,这样我就不会以多种形式存储相同的关键字
  4. 如果同义词关键字已存储在我的存储中,则应使用现有同义词而不是新关键字
  5. 将处理后的关键字存储在持久存储中,并参考它所在的聊天消息和说出它的用户

有了这些经过处理的信息,我想慢慢了解人们在聊天室中谈论的内容,然后根据这些关键字自动找到相关的聊天室等。

我的问题如下:执行上述操作的最佳 C/C++ 或 .NET 工具是什么?

0 投票
3 回答
5778 浏览

java - R语言tm(文本挖掘)包中的stemDocument如何使用?

我正在尝试使用调用 Java 的 R 语言 tm 包中的 stemDocument 来阻止语料库。我已经尝试过 tm 手册中的示例:

并得到以下错误:

任何帮助表示赞赏。我对Java一无所知。

谢谢

0 投票
2 回答
1988 浏览

c# - 将波特词干算法的输出保存到文本文件

我在 C# 中有这个搬运工算法代码,有人能告诉我如何将此代码的输出保存到 txt 文件吗?我还要输入文件名或其内容吗?

使用系统;使用 System.IO;

命名空间搬运工 { /*

}

0 投票
2 回答
142 浏览

java - 在 Java 中将单词转换为其基本形式

在 Java 中使用什么库来将单词转换为其基本形式?也就是说,如果我们在输入上有“go”、“going”和“gone”,我需要在输出上接收 3 次“go”。

0 投票
1 回答
387 浏览

lucene - 带有重音词的 Lucene SpanishAnalyzer 类的奇怪行为

我正在使用 Lucene 3.4 中的 SpanishAnalyzer 类。当我想解析重音单词时,我得到了一个奇怪的结果。例如,如果我解析这两个词:“comunicación”和“comunicacion”,我得到的词干是“comun”和“comunicacion”。如果我改为解析“maratón”和“maraton”,我会得到两个词的相同词干(“maraton”)。

所以,至少在我看来,同一个词“comunicación”会根据重音与否而给出不同的结果,这很奇怪。如果我搜索“comunicacion”这个词,无论它是否有重音,我都应该得到相同的结果。

我正在使用的代码是下一个:

我发现能够获得共享“comunicacion”词干的每个单词的解决方案,无论是否带重音,是在第一步中去掉重音,然后用分析器解析它,但我没有知道这是否是正确的方法。

请问,谁能帮帮我?

0 投票
1 回答
170 浏览

solr - 如何在 solr 中使用前缀索引单词?

我使用 solr 3.3 来索引我的文件,我想要带有后缀的 solr 索引词,例如我想索引彩色的颜色,当我搜索颜色时,solr 显示任何具有彩色的文档。

0 投票
2 回答
356 浏览

solr - 如何在 solr 中用前缀索引单词?

可能重复:
如何在 solr 中使用前缀索引单词?

我正在使用 solr 3.3。我想要带有后缀的 solr 索引词。

当我索引“book”和“books”并搜索“book”时,solr 显示任何包含“book”或“books”的文档,但是当我索引“rain”和“rainy”并搜索“rain”时,solr 显示任何具有“雨”的文档,但我希望 solr 显示任何具有“雨”“雨”的文档。

0 投票
2 回答
577 浏览

python - Python包在文件/url/字符串中查找预定义的关键字/标签

是否有任何 python 包可以获取关键字/标签列表并将它们与给定的字符串/文件/url 匹配?

特别是使用词干和/或其他一些同义词匹配方式。

即我预先保存的关键字:

Ski, Bike, Climb

我的文字:

Skiing in the mountains is great

应该被标记为Ski

Skiing and mountain biking is fun

应该用SkiAnd标记Bike

如果我有一个同义词文件映射Bike到某处MTB

MTB is a great way to spend the day

应该被标记Bike