问题标签 [stop-words]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1030 浏览

lucene - Lucene,停用词过滤器

嗨,我在使用停用词索引时使用的是 StandardAnalyzer。

当我索引该行时

用于 Macintosh 的 Microsoft Excel

像这样搜索效果很好

我在搜索时使用与索引 +Microsoft +Excel +for +Macintosh 时相同的分析器

当我尝试像这样搜索时

“Microsoft Excel for Macintosh”我没有得到任何结果,因为它被转换为“Microsoft Excel Macintosh”

任何人都知道为什么我的结果是 0 ?

//三连

0 投票
1 回答
14799 浏览

python - NLTK 中的小写停用词并将停用词存储在列表中

亲爱的朋友们,我想知道如何在名为 tokens 的列表中小写 NLTK 中的停用词

0 投票
5 回答
12912 浏览

java - 如何删除java中的停用词?

我想删除java中的停用词。

所以,我从文本文件中读取停用词。

和存储集

而且,我读了另一个文本文件。

所以,我想删除文本文件中的重复字符串。

我怎样才能?

0 投票
4 回答
390 浏览

php - 比较没有停用词 PHP 的字符串

我想比较没有停用词的 2 个字符串,例如

LIKE 术语,可以或包含:例如:“它是两个”或“两个”将被视为相等。

0 投票
6 回答
16340 浏览

mysql - 忽略查询中的mysql全文停用词

我正在构建一个使用全文搜索的网站搜索。搜索本身效果很好,那不是我的问题。我将用户提供的关键字(匹配...反对...)与 AND 串在一起,以便多个词进一步缩小结果。现在,我知道某些停用词没有被索引,这对我来说很好,我真的不想将它们用作选择标准。但是,如果(由用户)在关键字集中提供了一个停用词,即使该词实际上在某个文本块中,它也会杀死所有结果(如预期的那样)。

我的问题:有没有办法在查询时检查某个单词是否是停用词?我的首选解决方案只是从搜索条件中排除相关的单词(我不在乎用户是否可以通过单词'neither'来缩小结果,我只是不希望 MySQL 返回一个空的结果集,因为用户提供它,即使结果中都不存在)。或者,我是否只需要清空停用词列表?非常感谢您的帮助。

编辑----我很抱歉,但实际上没有代码片段可以提供给这个。该代码工作正常,实际上完全符合预期。这更像是我正在处理的一个逻辑问题。但作为一个例子,以解释的方式:

假设有三个记录,其中包括单词(但不限于)

1:苹果、橙子、芒果、香蕉 2:葡萄、橙子、菠萝、芒果 3:土豆、芒果、甜瓜、keira knightly

如果用户输入的搜索词是芒果,则所有结果都正确返回。如果单词是橙色 AND 芒果,则返回结果 1 和 2(正确)。现在,假设香蕉是一个停用词(它不是……但我们假设它是),如果搜索的是橙色、芒果和香蕉,则不会返回任何结果(因为香蕉不在全文索引中)。

我正在寻找的是是否有其他人遇到过这个问题,并且有办法解决它。一种:

或者......我是否只需要删除停用词列表......

0 投票
3 回答
257 浏览

python - 以下python代码中的错误是什么

我想删除停用词。这是我的代码

但只删除了一些停用词。请在这件事上给予我帮助

0 投票
3 回答
16424 浏览

sql-server - 即使停用词列表为空,如果包含停用词,全文搜索也不起作用

我希望能够搜索每个单词,所以我已经清除了停用词列表。比我重建的索引。但不幸的是,如果我输入一个带有停用词的搜索表达式,它仍然不会返回任何行。如果我只省略停用词,我会得到结果。例如“双重磨损留在原地” - 没有结果,“双重磨损留在原地” - 我得到的结果实际上也包含“in”。

有谁知道为什么会这样?我正在使用 SQL Server 2012 Express。

非常感谢!

0 投票
1 回答
696 浏览

mysql - 在 MySQL 中使用停用词进行全文搜索

我在 MySQL 中使用全文搜索。但是当用停用词搜索它时,结果是空的。

我想要的是像我们使用 LIKE 一样的操作。意思是,它与所有单词有关。使用全文搜索后,我觉得它比 LIKE 更强大,它可以与索引 FULLTEXT 一起使用,具有多个字段。

但是,当 AGAINST 中的搜索条件在停用词列表中时,结果为空。

如何在 MySQL 中使用全文搜索来过滤 Stopword 中的单词?或者我可以与搜索算法一起使用的其他方式?

0 投票
2 回答
824 浏览

nlp - 如何向 MeCab 添加停用词?

我想在 MeCab 中添加停用词——比如“我”、“你”或其他词。但我在 MeCab 的手册上找不到任何停用词的信息。

0 投票
1 回答
1110 浏览

java - 在java中使用多个分隔符拆分字符串

我正在研究一种数据挖掘算法,我需要使用多个单词对字符串进行标记。我有一个单独的文件,其中包含所有停用词。我需要做的是通过任何作为分隔符的单词(停用词)来标记输入字符串。例如。 如果
文件按 原样 包含
停用 词



输入字符串变成
“一个计算机集群由一组松散连接的计算机组成,它们一起工作”
输出变成
计算机集群由
一组
松散连接的计算机
一起工作

递归地检查所有停用词的字符串会非常耗时吗?有什么好的方法吗?