问题标签 [stop-words]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

614 问题

0 投票

1 回答

1884 浏览

sql-server - Sql Server 2008 - 从系统停止列表中删除一个单词？

我试图从停用词列表中删除“-”字符，但我做不到。我创建了继承自系统停止列表的自定义停止列表。当我尝试从停止列表中删除“-”时，sql server 告诉我该字符不在停止列表中。这是我正在使用的 sql 语句：

我还尝试创建一个不从系统继承的停止列表，它也不起作用。当然，每次更改时，我都会重新填充目录。

我猜 sql server 也在以某种方式使用系统停止列表，但我不知道如何从系统停止列表中删除字符。

我需要的是像“blablabla-blablala”这样的字符串（有一些使用“-”字符的葡萄牙语单词）只有在我执行如下查询时才能找到：

当我执行如下查询时永远找不到：

有任何想法吗？

2011-07-08T17:28:11.040

0 投票

2 回答

661 浏览

python - 将未标记的语料库转换为标记的 (NLTK)

我有一个纯文本语料库，我想标记并保存它，以便进一步使用它。最好的方法是什么？

我已经制作了我的标记器，但我想不出一种方法来更改不凌乱的语料库

python nltk stop-words

2011-07-22T01:24:38.627

0 投票

1 回答

1160 浏览

sql-server - Sql Server 2008 没有忽略全文短语查询中的干扰词？

假设我们有一个带有全文字段的表格。该字段称为text。该表的内容将是：

这个词and在我的stoplist

现在，我将使用这个 sql 查询这个表：

此查询仅返回car wash行而不返回car and wash行。通过假设这个词and是一个停用词，为什么 Sql 不返回该car and wash行？

我知道我正在进行短语搜索（使用“”）。这正是我需要的，但我认为 Sql 应该忽略停止列表中的单词，这不是正在发生的事情。这让我快疯了。

我的理解是，当 FT 算法找到像它这样的短语时，car and wash它只会索引car和wash. 这是真的？

此外，当我查询它时，ft_parser它说出了我期望它说的内容：

有什么想法吗？

sql-server sql-server-2008 full-text-search stop-words

2011-07-28T22:14:40.967

0 投票

1 回答

2144 浏览

java - 删除 Java 中的停用词 --- 需要帮助

我使用一种方法来删除文件中定义的停用词，这将从我传递给此方法的查询字符串中撕下这些词......代码工作正常

现在我需要做的是......如果查询字符串只包含那些停用词，那么它不应该被撕掉......

例如：如果停用词文件有 "is" "was" "and"

如果查询是“我是学生”，那么输出应该是“我是学生”

但如果查询是“and is”，现在我需要与“and is”相同的输出。

以下是我编写的删除停用词的方法。

java file-io query-string stop-words

2011-08-23T06:35:06.543

0 投票

1 回答

1466 浏览

postgresql - 是否可以在 PostgreSQL 中动态创建字典？

我是 PostgreSQL 全文搜索的新手，发现了字典和停用词之类的东西。

我有一张桌子，上面有很多文本中的很多单词。我想创建自己的字典并将前 30 个最常用的单词作为停用词。

是否可以在运行时执行此操作？

postgresql dictionary full-text-search stop-words

2011-09-03T20:10:29.163

0 投票

2 回答

10189 浏览

linux - 使用 grep 从停用词文件中过滤掉单词

我想将 grep 与停用词文件一起使用来过滤掉另一个文件中的常见英文单词。文件“somefile”每行包含一个单词。

这种方法的问题是：它检查停用词中的单词是否出现在 somefile 中，但我想要相反，即检查 somefile 中的单词是否出现在停用词中。

这该怎么做？

例子

somefile 包含以下内容：

停用词包含以下内容：

我只想从 somefile 中过滤掉单词“o”，而不是 hello 和 orange。

linux grep stop-words

2011-09-07T10:59:49.400

0 投票

0 回答

316 浏览

search - 自动标记文本的软件，例如博客文章或新闻文章？

我正在寻找可以执行以下操作的软件：

处理从 100 到 1k 字不等的大量文章；
自动删除停用词；
根据剩余单词推荐最佳标签，即这篇文章是关于“汽车、变速箱、日本”的。

对我来说，这有点像 Google 的内部关键字摘要工具。任何想法？像 Ferret 这样的开源全文搜索工具会是一个可行的选择吗？但我也对商业软件工具完全开放。

search tags full-text-search stop-words

2011-09-19T18:06:33.593

0 投票

3 回答

3715 浏览

lucene - 删除常用英语单词策略

我想从 html 页面中提取相关关键字。

我已经删除了所有 html 内容，将文本拆分为单词，使用词干分析器并从 lucene 中删除了出现在停用词列表中的所有单词。

但是现在我仍然有很多基本的动词和代词作为最常用的词。

在 lucene 或 snowball 或其他任何地方是否有某种方法或一组词来过滤掉所有这些东西，例如“I, is , go, going, am, it, were, we, you, us,....”

lucene weka stop-words snowball

2011-09-23T17:43:29.430

0 投票

3 回答

1156 浏览

c# - 如何在 C# 中执行标记化和停用词删除？

基本上我想标记段落的每个单词，然后执行停用词删除。这将是我的算法的预处理数据。

c#tokenize stop-words

2011-09-30T15:32:06.847

0 投票

1 回答

1455 浏览

search - 当短语包含停用词时，如何停止 solr 中的结果？

我在使用 Solr 搜索包含停用词的短语时遇到问题。Solr 使用停用词发送结果，这不是我的预期输出。

stopwords.txt我在文件中添加了一个单词“test” 。在schema.xml文件中，我有这样的字段

我索引了一些数据，然后尝试在 solr 浏览器窗口中搜索如下：searchword：“test”，但没有得到结果。然后我又给出了一个类似搜索词的短语：“测试数据”，我得到了结果。如何避免这种情况？如果它包含停用词 Solr 不应该给出任何结果。当短语包含停用词时，如何停止 solr 中的结果？

以下是我正在使用的 fieldType：

当我给出包含停用词的短语时，我需要 Solr 的解决方案没有提供任何结果（测试）

search solr tokenize stop-words

2011-11-26T10:41:21.227

1 2 3 4 5 6 7 8 9 10

问题标签 [stop-words]

Reference