问题标签 [stop-words]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1884 浏览

sql-server - Sql Server 2008 - 从系统停止列表中删除一个单词?

我试图从停用词列表中删除“-”字符,但我做不到。我创建了继承自系统停止列表的自定义停止列表。当我尝试从停止列表中删除“-”时,sql server 告诉我该字符不在停止列表中。这是我正在使用的 sql 语句:

我还尝试创建一个不从系统继承的停止列表,它也不起作用。当然,每次更改时,我都会重新填充目录。

我猜 sql server 也在以某种方式使用系统停止列表,但我不知道如何从系统停止列表中删除字符。

我需要的是像“blablabla-blablala”这样的字符串(有一些使用“-”字符的葡萄牙语单词)只有在我执行如下查询时才能找到:

当我执行如下查询时永远找不到:

有任何想法吗?

0 投票
2 回答
661 浏览

python - 将未标记的语料库转换为标记的 (NLTK)

我有一个纯文本语料库,我想标记并保存它,以便进一步使用它。最好的方法是什么?

我已经制作了我的标记器,但我想不出一种方法来更改不凌乱的语料库

0 投票
1 回答
1160 浏览

sql-server - Sql Server 2008 没有忽略全文短语查询中的干扰词?

假设我们有一个带有全文字段的表格。该字段称为text。该表的内容将是:

这个词and在我的stoplist

现在,我将使用这个 sql 查询这个表:

此查询仅返回car wash行而不返回car and wash行。通过假设这个词and是一个停用词,为什么 Sql 不返回该car and wash行?

我知道我正在进行短语搜索(使用“”)。这正是我需要的,但我认为 Sql 应该忽略停止列表中的单词,这不是正在发生的事情。这让我快疯了。

我的理解是,当 FT 算法找到像它这样的短语时,car and wash它只会索引carwash. 这是真的?

此外,当我查询它时,ft_parser它说出了我期望它说的内容:

有什么想法吗?

0 投票
1 回答
2144 浏览

java - 删除 Java 中的停用词 --- 需要帮助

我使用一种方法来删除文件中定义的停用词,这将从我传递给此方法的查询字符串中撕下这些词......代码工作正常

现在我需要做的是......如果查询字符串只包含那些停用词,那么它不应该被撕掉......

例如:如果停用词文件有 "is" "was" "and"

如果查询是“我是学生”,那么输出应该是“我是学生”

但如果查询是“and is”,现在我需要与“and is”相同的输出。

以下是我编写的删除停用词的方法。

0 投票
1 回答
1466 浏览

postgresql - 是否可以在 PostgreSQL 中动态创建字典?

我是 PostgreSQL 全文搜索的新手,发现了字典和停用词之类的东西。

我有一张桌子,上面有很多文本中的很多单词。我想创建自己的字典并将前 30 个最常用的单词作为停用词。

是否可以在运行时执行此操作?

0 投票
2 回答
10189 浏览

linux - 使用 grep 从停用词文件中过滤掉单词

我想将 grep 与停用词文件一起使用来过滤掉另一个文件中的常见英文单词。文件“somefile”每行包含一个单词。

这种方法的问题是:它检查停用词中的单词是否出现在 somefile 中,但我想要相反,即检查 somefile 中的单词是否出现在停用词中。

这该怎么做?

例子

somefile 包含以下内容:

停用词包含以下内容:

我只想从 somefile 中过滤掉单词“o”,而不是 hello 和 orange。

0 投票
0 回答
316 浏览

search - 自动标记文本的软件,例如博客文章或新闻文章?

我正在寻找可以执行以下操作的软件:

  1. 处理从 100 到 1k 字不等的大量文章;
  2. 自动删除停用词
  3. 根据剩余单词推荐最佳标签,即这篇文章是关于“汽车、变速箱、日本”的。

对我来说,这有点像 Google 的内部关键字摘要工具。任何想法?像 Ferret 这样的开源全文搜索工具会是一个可行的选择吗?但我也对商业软件工具完全开放。

0 投票
3 回答
3715 浏览

lucene - 删除常用英语单词策略

我想从 html 页面中提取相关关键字。

我已经删除了所有 html 内容,将文本拆分为单词,使用词干分析器并从 lucene 中删除了出现在停用词列表中的所有单词。

但是现在我仍然有很多基本的动词和代词作为最常用的词。

在 lucene 或 snowball 或其他任何地方是否有某种方法或一组词来过滤掉所有这些东西,例如“I, is , go, going, am, it, were, we, you, us,....”

0 投票
3 回答
1156 浏览

c# - 如何在 C# 中执行标记化和停用词删除?

基本上我想标记段落的每个单词,然后执行停用词删除。这将是我的算法的预处理数据。

0 投票
1 回答
1455 浏览

search - 当短语包含停用词时,如何停止 solr 中的结果?

我在使用 Solr 搜索包含停用词的短语时遇到问题。Solr 使用停用词发送结果,这不是我的预期输出。

stopwords.txt我在文件中添加了一个单词“test” 。在schema.xml文件中,我有这样的字段

我索引了一些数据,然后尝试在 solr 浏览器窗口中搜索如下:searchword:“test”,但没有得到结果。然后我又给出了一个类似搜索词的短语:“测试数据”,我得到了结果。如何避免这种情况?如果它包含停用词 Solr 不应该给出任何结果。当短语包含停用词时,如何停止 solr 中的结果?

以下是我正在使用的 fieldType:

当我给出包含停用词的短语时,我需要 Solr 的解决方案没有提供任何结果(测试)