问题标签 [stop-words]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
8092 浏览

data-mining - 词干对词频的影响?

词频 (TF) 和逆文档频率 (IDF) 如何受到停用词移除和词干提取的影响?

谢谢!

0 投票
3 回答
921 浏览

php - 清理噪音词,例如 the, a, and or etc...

我知道这是一个很长的镜头,但无论如何我都会问。

我想对某些文本运行过滤器,并且我想删除英语中出现次数最多的单词,例如“The”、“a”、“and”、“or”等...

这个挑战是否在某个地方得到了解决,这样你就可以获得一个很好的此类单词列表?

0 投票
0 回答
90 浏览

mysql - 更改 ft_stopword_file 设置后启动 mysql 时出现超时错误

我想关闭停用词,并更新我的 my.cnf 文件以包括:

但是,现在重新启动 mysql 时出现超时错误。如果我擦除ft_stopword_file="",错误就会消失。

我是语法错误,还是需要为新设置增加超时。如果增加,那设置在哪里?

0 投票
6 回答
6772 浏览

python - 如果我有一个单词列表,如何有效地检查字符串是否不包含列表中的任何单词?

正如标题所说,我有一个单词列表,就像stopWords = ["the", "and", "with", etc...]我收到了“杀死狐狸和狗”这样的文字。我想要像“杀死狐狸狗”这样的输出非常有效和快速。我该怎么做(我知道我可以使用 for 循环进行迭代,但这不是很有效)

0 投票
1 回答
1144 浏览

search - Solr 停用词不起作用

我正在使用 Solr 3.6 进行预测搜索。我需要 Solr 忽略单词“con”(带有空格),这意味着西班牙语中的“with”我添加了 solr.StopFilterFactory:

我的文件只包含“con”(不带引号)

但是当我搜索“Departamento con parrilla”时,Solr 没有返回任何内容,我需要它返回“Departamento parrilla”,而忽略查询中的“con”一词

我希望我让自己明白了。

非常感谢!!!!!

0 投票
1 回答
1046 浏览

mysql - MySQL全文索引下划线

我对 MySQL 的全文索引有疑问,它将下划线视为单词的一部分(为什么?不知道)。这是我桌子上的字符串,VA_-_Some_Album

这是它的查询:

MySQL为此查询返回一个空集,除非我将其更改为,+*Some*因为下划线是单词的一部分(_Some而不是Some)。这对我不利,因为当添加额外的星号 (*) 时,加号停止运行,我没有完成“AND”。

我试图更改字符集定义,并重建全文索引但没有。

有任何想法吗?改变字符串的存储方式不取决于我。谢谢!

0 投票
1 回答
474 浏览

lucene - Lucene 3.6.0 - SnowballAnalyzer Stemmer 已弃用

今天我试图在 Lucene Java API v3.6.0 上使用SnowballAnalyzer,但它似乎已经过时了。当我尝试在我的代码上使用分析器时,代码在到达分析器时停止。其实我想用 PorterStemmer 但在 luce 上没有,所以我决定用这个雪球,但是出现了这个问题。

任何人都知道如何解决这个问题?

另外,有谁知道如何设置停用词文件格式,因为当我输入:

stopword.txt中,调用它,程序停止。谁能与我分享如何格式化stopword.txt文件?

谢谢。

0 投票
5 回答
9501 浏览

django - Solr 找不到资源 stopwords_en.txt

我正在尝试使用 Django-haystack Beta 2.0.0 设置 Solr 3.6.0。

运行./manage.py build_solr_schemaschema.xml 并将其移动到 conf 目录后,在访问时,我收到一个与此线程http://localhost:8983/solr/admin中产生的完全一样的错误。

org.apache.solr.common.SolrException: No cores were created, please check the logs for errors

java.lang.RuntimeException: Can't find resource 'stopwords_en.txt' in classpath or 'solr/./conf/', cwd=/home/randall/startupsearch_live/apache-solr-3.6.0/example

在线程的底部,用户提到必须编辑 schema.xml 以将 stopwords_en.txt 与 /example/solr/conf/ 目录匹配,我通过符号链接和编辑 stopwords.txt 的所有实例都做到了这一点到生成的 schema.xml 文件中的 /solr/conf/stopwords_en.txt。但是,相同的错误仍然存​​在,输出略有不同:

java.lang.RuntimeException: Can't find resource '/solr/conf/stopwords_en.txt' in classpath or 'solr/./conf/', cwd=/home/randall/startupsearch_live/apache-solr-3.6.0/example

我必须编辑什么文件来解决这个问题?

0 投票
3 回答
1614 浏览

full-text-search - SQL Server 2008 中的全文搜索:将新的停用词添加到现有的停用词列表

我正在 SQL Server 2008 中进行 FTS。

我需要一次将一些新的停用词(大约有 100 个)添加到现有的停用词列表中。

如何才能做到这一点 ?

0 投票
0 回答
454 浏览

sql-server - 使用 CONTAINSTABLE 的停用词列表

使用 Sql 服务器进行全文搜索。我们可以避免使用 FREETEXTTABLE 搜索停用词。但如果我使用 CONTAINSTABLE 进行搜索,也会搜索停用词。

我认为 CONTAINS TABLE 没有考虑停用词列表。

如果我想避免在 CONTAINSTABLE 中搜索停用词,有什么解决方法。