问题标签 [stemming]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
56078 浏览

java - Java 中的分词器、停用词删除、词干提取

我正在寻找一个类或方法,该类或方法需要包含 100 多个单词的长字符串并进行标记,删除停用词和词干以在 IR 系统中使用。

例如:

“大肥猫,对袋鼠说‘我认识的最有趣的人’……”

分词器将删除标点符号并返回一个ArrayList单词

停用词去除器会去除“the”、“to”等词

词干分析器会减少每个单词的“词根”,例如“最有趣”会变得有趣

提前谢谢了。

0 投票
2 回答
1911 浏览

algorithm - 从文本中提取关键句子

你知道从文本中提取关键句子的有效方法吗?

我也想知道是否有一些软件实现

非常感谢

0 投票
3 回答
4232 浏览

mysql - 带词干的 MySQL 全文

我正在为我的网站构建一个小搜索功能。我正在获取用户的查询,对关键词进行词干化,然后针对词干化的关键词运行全文 MySQL 搜索。

问题是 MySQL 将词干视为文字。这是正在发生的过程:

  1. 用户搜索“棒球”之类的词
  2. 我的词干算法(Porter Stemmer)将“棒球”变成“棒球”
  3. 全文没有找到任何匹配“basebal”的内容,即使应该有“baseball”和“baseballs”的匹配项

如何使用全文执行相当于 LIKE 'basebal%' 的操作?

编辑:

这是我当前的查询:

0 投票
1 回答
732 浏览

solr - Solr 能否返回使用同义词和词干提取时使用的实际最终查询?

我希望能够在我的 UI 中显示 solr 用于运行最终查询的查询术语。例如,我可能会键入查询“run”,但在幕后 solr 将使用词干提取来查询“ran”和“running”,我可能还定义了一个具有“run = sprint”的同义词。

我想向用户展示,尽管他们输入了“run”,但实际查询是“run run running sprint”

有什么简单的方法可以做到这一点?

谢谢!

0 投票
2 回答
2250 浏览

python - python中的停用词消除和词干分析器

我有一个有点大的文档,想用 Python 对这个文档的单词进行停用词消除和词干处理。有谁知道这些的货架包装?如果不是对大型文档足够快的代码,也欢迎使用。谢谢

0 投票
2 回答
665 浏览

php - PHP 中的 Schinke 拉丁语词干提取算法

本网站提供“Schinke 拉丁语词干算法”供下载,以便在Snowball词干系统中使用。

我想使用这个算法,但我不想使用 Snowball。

好消息:该页面上有一些伪代码,您可以将其转换为 PHP 函数。这是我尝试过的:

我的问题:

1)这段代码能正常工作吗?它是否遵循算法的规则?

2)您如何改进代码(性能)?

非常感谢您!

0 投票
4 回答
3484 浏览

nlp - 是否有任何可用于印度语言的词干分析器

是否有任何用于印度语言的词干分析器的实现,例如(印地语,泰卢固语)......

0 投票
3 回答
3139 浏览

java - 词库/词干词典

看来我的 Google-fu 让我失望了。

有谁知道免费提供的仅包含单词库的单词库字典?所以,对于像草莓这样的东西,它会有草莓。但不包含缩写或拼写错误或替代拼写(如英国与美国)?任何可以在 Java 中快速使用的东西都会很好,但只是一个映射的文本文件或任何可以读入的东西都会有帮助。

0 投票
4 回答
1730 浏览

sql - SQL词根匹配

我想知道那里的主要 SQL 引擎(MS SQL、Oracle、MySQL)是否有能力理解两个词是相关的,因为它们共享相同的根。

我们知道在搜索“network”时很容易匹配“networking”,因为后者是前者的子字符串。

但是SQL引擎有没有在搜索“networking”时可以匹配“network”的功能呢?

非常感谢。

0 投票
2 回答
890 浏览

c# - 在 C# 或 ruby​​ 中处理文本的索引词干

鉴于此文本:

“朋友是更友好的朋友,把友好的分类分类分类。花开的花随着花的流动而流动”

我需要将词干应用于文本以实现以下结果:

当我们与 FAST 搜索引擎交互时。FAST 对内容进行索引以向查询提供相关的搜索结果。索引的一个方面是词干提取,我们需要使用 C# 或 ruby​​ 来解决这个问题。

将不胜感激任何人对最佳方法的看法