问题标签 [stop-words]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
data-mining - 词干对词频的影响?
词频 (TF) 和逆文档频率 (IDF) 如何受到停用词移除和词干提取的影响?
谢谢!
php - 清理噪音词,例如 the, a, and or etc...
我知道这是一个很长的镜头,但无论如何我都会问。
我想对某些文本运行过滤器,并且我想删除英语中出现次数最多的单词,例如“The”、“a”、“and”、“or”等...
这个挑战是否在某个地方得到了解决,这样你就可以获得一个很好的此类单词列表?
mysql - 更改 ft_stopword_file 设置后启动 mysql 时出现超时错误
我想关闭停用词,并更新我的 my.cnf 文件以包括:
但是,现在重新启动 mysql 时出现超时错误。如果我擦除ft_stopword_file=""
,错误就会消失。
我是语法错误,还是需要为新设置增加超时。如果增加,那设置在哪里?
python - 如果我有一个单词列表,如何有效地检查字符串是否不包含列表中的任何单词?
正如标题所说,我有一个单词列表,就像stopWords = ["the", "and", "with", etc...]
我收到了“杀死狐狸和狗”这样的文字。我想要像“杀死狐狸狗”这样的输出非常有效和快速。我该怎么做(我知道我可以使用 for 循环进行迭代,但这不是很有效)
search - Solr 停用词不起作用
我正在使用 Solr 3.6 进行预测搜索。我需要 Solr 忽略单词“con”(带有空格),这意味着西班牙语中的“with”我添加了 solr.StopFilterFactory:
我的文件只包含“con”(不带引号)
但是当我搜索“Departamento con parrilla”时,Solr 没有返回任何内容,我需要它返回“Departamento parrilla”,而忽略查询中的“con”一词
我希望我让自己明白了。
非常感谢!!!!!
mysql - MySQL全文索引下划线
我对 MySQL 的全文索引有疑问,它将下划线视为单词的一部分(为什么?不知道)。这是我桌子上的字符串,VA_-_Some_Album
这是它的查询:
MySQL为此查询返回一个空集,除非我将其更改为,+*Some*
因为下划线是单词的一部分(_Some
而不是Some
)。这对我不利,因为当添加额外的星号 (*) 时,加号停止运行,我没有完成“AND”。
我试图更改字符集定义,并重建全文索引但没有。
有任何想法吗?改变字符串的存储方式不取决于我。谢谢!
lucene - Lucene 3.6.0 - SnowballAnalyzer Stemmer 已弃用
今天我试图在 Lucene Java API v3.6.0 上使用SnowballAnalyzer,但它似乎已经过时了。当我尝试在我的代码上使用分析器时,代码在到达分析器时停止。其实我想用 PorterStemmer 但在 luce 上没有,所以我决定用这个雪球,但是出现了这个问题。
任何人都知道如何解决这个问题?
另外,有谁知道如何设置停用词文件格式,因为当我输入:
在stopword.txt中,调用它,程序停止。谁能与我分享如何格式化stopword.txt文件?
谢谢。
django - Solr 找不到资源 stopwords_en.txt
我正在尝试使用 Django-haystack Beta 2.0.0 设置 Solr 3.6.0。
运行./manage.py build_solr_schema
schema.xml 并将其移动到 conf 目录后,在访问时,我收到一个与此线程http://localhost:8983/solr/admin
中产生的完全一样的错误。
org.apache.solr.common.SolrException: No cores were created, please check the logs for errors
java.lang.RuntimeException: Can't find resource 'stopwords_en.txt' in classpath or 'solr/./conf/', cwd=/home/randall/startupsearch_live/apache-solr-3.6.0/example
在线程的底部,用户提到必须编辑 schema.xml 以将 stopwords_en.txt 与 /example/solr/conf/ 目录匹配,我通过符号链接和编辑 stopwords.txt 的所有实例都做到了这一点到生成的 schema.xml 文件中的 /solr/conf/stopwords_en.txt。但是,相同的错误仍然存在,输出略有不同:
java.lang.RuntimeException: Can't find resource '/solr/conf/stopwords_en.txt' in classpath or 'solr/./conf/', cwd=/home/randall/startupsearch_live/apache-solr-3.6.0/example
我必须编辑什么文件来解决这个问题?
full-text-search - SQL Server 2008 中的全文搜索:将新的停用词添加到现有的停用词列表
我正在 SQL Server 2008 中进行 FTS。
我需要一次将一些新的停用词(大约有 100 个)添加到现有的停用词列表中。
如何才能做到这一点 ?
sql-server - 使用 CONTAINSTABLE 的停用词列表
使用 Sql 服务器进行全文搜索。我们可以避免使用 FREETEXTTABLE 搜索停用词。但如果我使用 CONTAINSTABLE 进行搜索,也会搜索停用词。
我认为 CONTAINS TABLE 没有考虑停用词列表。
如果我想避免在 CONTAINSTABLE 中搜索停用词,有什么解决方法。