问题标签 [stop-words]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql-server - Sql Server 2008 - 从系统停止列表中删除一个单词?
我试图从停用词列表中删除“-”字符,但我做不到。我创建了继承自系统停止列表的自定义停止列表。当我尝试从停止列表中删除“-”时,sql server 告诉我该字符不在停止列表中。这是我正在使用的 sql 语句:
我还尝试创建一个不从系统继承的停止列表,它也不起作用。当然,每次更改时,我都会重新填充目录。
我猜 sql server 也在以某种方式使用系统停止列表,但我不知道如何从系统停止列表中删除字符。
我需要的是像“blablabla-blablala”这样的字符串(有一些使用“-”字符的葡萄牙语单词)只有在我执行如下查询时才能找到:
当我执行如下查询时永远找不到:
有任何想法吗?
python - 将未标记的语料库转换为标记的 (NLTK)
我有一个纯文本语料库,我想标记并保存它,以便进一步使用它。最好的方法是什么?
我已经制作了我的标记器,但我想不出一种方法来更改不凌乱的语料库
sql-server - Sql Server 2008 没有忽略全文短语查询中的干扰词?
假设我们有一个带有全文字段的表格。该字段称为text
。该表的内容将是:
这个词and
在我的stoplist
现在,我将使用这个 sql 查询这个表:
此查询仅返回car wash
行而不返回car and wash
行。通过假设这个词and
是一个停用词,为什么 Sql 不返回该car and wash
行?
我知道我正在进行短语搜索(使用“”)。这正是我需要的,但我认为 Sql 应该忽略停止列表中的单词,这不是正在发生的事情。这让我快疯了。
我的理解是,当 FT 算法找到像它这样的短语时,car and wash
它只会索引car
和wash
. 这是真的?
此外,当我查询它时,ft_parser
它说出了我期望它说的内容:
有什么想法吗?
java - 删除 Java 中的停用词 --- 需要帮助
我使用一种方法来删除文件中定义的停用词,这将从我传递给此方法的查询字符串中撕下这些词......代码工作正常
现在我需要做的是......如果查询字符串只包含那些停用词,那么它不应该被撕掉......
例如:如果停用词文件有 "is" "was" "and"
如果查询是“我是学生”,那么输出应该是“我是学生”
但如果查询是“and is”,现在我需要与“and is”相同的输出。
以下是我编写的删除停用词的方法。
postgresql - 是否可以在 PostgreSQL 中动态创建字典?
我是 PostgreSQL 全文搜索的新手,发现了字典和停用词之类的东西。
我有一张桌子,上面有很多文本中的很多单词。我想创建自己的字典并将前 30 个最常用的单词作为停用词。
是否可以在运行时执行此操作?
linux - 使用 grep 从停用词文件中过滤掉单词
我想将 grep 与停用词文件一起使用来过滤掉另一个文件中的常见英文单词。文件“somefile”每行包含一个单词。
这种方法的问题是:它检查停用词中的单词是否出现在 somefile 中,但我想要相反,即检查 somefile 中的单词是否出现在停用词中。
这该怎么做?
例子
somefile 包含以下内容:
停用词包含以下内容:
我只想从 somefile 中过滤掉单词“o”,而不是 hello 和 orange。
search - 自动标记文本的软件,例如博客文章或新闻文章?
我正在寻找可以执行以下操作的软件:
- 处理从 100 到 1k 字不等的大量文章;
- 自动删除停用词;
- 根据剩余单词推荐最佳标签,即这篇文章是关于“汽车、变速箱、日本”的。
对我来说,这有点像 Google 的内部关键字摘要工具。任何想法?像 Ferret 这样的开源全文搜索工具会是一个可行的选择吗?但我也对商业软件工具完全开放。
lucene - 删除常用英语单词策略
我想从 html 页面中提取相关关键字。
我已经删除了所有 html 内容,将文本拆分为单词,使用词干分析器并从 lucene 中删除了出现在停用词列表中的所有单词。
但是现在我仍然有很多基本的动词和代词作为最常用的词。
在 lucene 或 snowball 或其他任何地方是否有某种方法或一组词来过滤掉所有这些东西,例如“I, is , go, going, am, it, were, we, you, us,....”
c# - 如何在 C# 中执行标记化和停用词删除?
基本上我想标记段落的每个单词,然后执行停用词删除。这将是我的算法的预处理数据。
search - 当短语包含停用词时,如何停止 solr 中的结果?
我在使用 Solr 搜索包含停用词的短语时遇到问题。Solr 使用停用词发送结果,这不是我的预期输出。
stopwords.txt
我在文件中添加了一个单词“test” 。在schema.xml
文件中,我有这样的字段
我索引了一些数据,然后尝试在 solr 浏览器窗口中搜索如下:searchword:“test”,但没有得到结果。然后我又给出了一个类似搜索词的短语:“测试数据”,我得到了结果。如何避免这种情况?如果它包含停用词 Solr 不应该给出任何结果。当短语包含停用词时,如何停止 solr 中的结果?
以下是我正在使用的 fieldType:
当我给出包含停用词的短语时,我需要 Solr 的解决方案没有提供任何结果(测试)