问题标签 [stop-words]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mysql - 什么是mysql停用词文件格式?
单词是否有引号,是逗号分隔还是行分隔?
solr - Solr 停用词出现在构面搜索结果中
我目前正在我的 Solr 架构中的文本字段上测试构面搜索,并注意到我在我的 stopwords.txt 文件中获得了大量结果。
我的架构当前使用文本数据类型的默认配置,并且我的印象是,如果“solr.StopFilterFactory”过滤器正在使用,则停用词没有被索引。
我希望有人能对此有所了解,或者a)帮助我理解为什么停用词不适用于构面以及如何使用它,或者b)为我指明正确的方向,这样我的构面查询就不会返回来自停用词的词。
谢谢!
java - java中的停用词和词干分析器
我正在考虑在我的相似性程序中放置一个停用词,然后是一个词干分析器(选择搬运工 1 或 2 取决于最容易实现的)
我想知道,因为我从文件中读取我的文本作为整行并将它们保存为一个长字符串,所以如果我有两个字符串 ex.
现在我得到了那些字符串
词干:我可以直接在它上面使用词干算法,将其保存为字符串,然后像在程序中实现词干分析器之前那样继续处理相似性,比如运行 one.stem(); 之类的事情?
停止词:这是怎么回事?哦,我只是使用;one.replaceall("I", ""); 还是有一些特定的方法可以用于这个过程?我想继续使用该字符串并获取一个字符串,然后再对其使用相似度算法来获取相似度。维基并没有说太多。
希望你能帮帮我!谢谢。
编辑:这是一个与学校相关的项目,我正在写一篇关于不同算法之间相似性的论文,所以我认为我不允许使用 lucene 或其他为我工作的库。另外,在开始使用 Lucene 和 co 等库之前,我想尝试了解它是如何工作的。希望不要太麻烦^^
java - 使用 lucene 重新索引/从索引中删除术语
我希望你能帮助我,这是我的问题:
编辑:现在我重新考虑,如果有办法从索引中删除一个术语,它无论如何都会起作用。有没有办法做到这一点?如果有,则无需阅读问题的其余部分。谢谢!
这是我打算做的: 1 - 我必须在删除标准停用词的同时索引一些文件。2 - 之后,我必须计算每个术语的文档频率,并删除那些 df < 2 的术语
我是怎么做的:
1 - 我使用 indexwriter 索引文件,同时删除 std 停用词。2 - 我计算每个术语的 df,并添加到停用词列表中。3 - 然后,我使用 indexwriter 再次索引文本,但使用新的停用词列表
真正发生了什么:
我第一次索引它按计划进行。问题是当我尝试第二次索引时。结果变得非常不可预测:
1)如果我运行一次程序,即使停用词有新词,也只会删除 std 停用词。
2)如果我再次运行该程序,则删除 df < 2 的条款。
我在索引中打印了两次,一次是在第一次索引之后,一次是在第二次索引之后。
当我第二次运行时,第一次打印中删除了 df < 2 的术语(请注意,我在第二次索引时添加了 df < 2 的术语,它不应该)出现在第一次打印中删除。
也许我解释的方式有点混乱,如果有什么不能理解的,我请你告诉我。
我希望你们能帮助我。非常感谢!
sqlite - SQLite3、FTS3 和停用词
在构建虚拟 FTS3 表期间,如何防止 SQLite3 不索引某些关键字或“停用词”?
我不想索引的例子包括“is”、“the”、“a”等。
mysql - 我的停用词列表已加载但无法正常工作
我有一个修改过的停用词列表文件,它基本上去掉了“单独”这个词。我已经更新了我的/etc/my.cnf
重新启动我的 mysql 服务器后,我执行以下操作以表明 mysql 确实在获取新变量。
之后,我做了一个 REPAIR TABLE 来更新索引。但是,当我进行搜索时,新设置似乎没有生效。我究竟做错了什么?
sql-server-2008 - 对 SQL Server 2008 记录进行排序时忽略停用词
我有一个有书名字段的表。我希望能够像这样对记录进行排序:
- 古代鳄鱼
- 安妮阿姨的鳄鱼
- 鳄鱼完整指南
- 乡村短吻鳄
- 不要碰鳄鱼!
- 轻松的鳄鱼狩猎
依此类推,忽略“A”、“An”和“The”,当它们作为标题的第一个单词出现时。(它们也可以在标题的任何地方被忽略。)
我知道这些是 SQL Server 2008 中的停用词,因此如果有人在搜索中使用它们,它们可以被忽略。
但是有没有办法让 ORDER BY 忽略它们?(如果有区别,查询将使用 ASP.NET 中的 LinqDataSource。)
谢谢!
language-agnostic - 为什么这些词被认为是停用词?
我没有自然语言处理方面的正式背景,我想知道 NLP 方面的人是否可以对此有所了解。我正在玩弄NLTK库,我专门研究了这个包提供的停用词功能:
在 [80] 中:nltk.corpus.stopwords.words('english')
出[80]:
['我','我','我的','我自己','我们','我们的','我们的','我们自己','你','你的','你的','你自己',' “你自己”、“他”、“他”、“他的”、“他自己”、“她”、“她”、“她的”、“她自己”、“它”、“它”、“它自己”、“他们” ,“他们”,“他们的”,“他们的”,“他们自己”,“什么”,“哪个”,“谁”,“谁”,“这个”,“那个”,“这些”,“那些”,“ am'、'is'、'are'、'was'、'were'、'be'、'been'、'being'、'have'、'has'、'had'、'有','做','做','做','做','a','an','the','and','but','if','or','because' , 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', '通过','期间','之前','之后','上面','下面','to','from','up','down','in','out','on' , 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', '为什么','如何','全部','任何','两者','每个','少数','更多','大多数','其他','一些','这样','没有' , 'nor', 'not', 'only', 'own', 'same', 'so', 'than', 'too', 'very', 's', 't', 'can', '将','只是','不要','应该','现在']'s'、't'、'can'、'will'、'just'、'don'、'should'、'now']'s'、't'、'can'、'will'、'just'、'don'、'should'、'now']
我不明白的是,为什么会出现“不”这个词?这不是确定句子中的情绪所必需的吗?例如,这样的句子:
我不确定问题是什么。
一旦not
删除停用词,将句子的含义更改为相反的 ( I am sure what the problem is
),则完全不同。如果是这种情况,是否有一套我在何时不使用这些停用词时遗漏的规则?
php - 如何使用 SQL 获取 MySQL 停用词
我知道可以在 MySQL 中的 ft_stopword_file 变量的帮助下更改停用词文件。但我需要将这些停用词读入 PHP 中的数组。所以我的问题是,
有没有办法通过使用 SQL Query 查询数据库来获取 Stop Words 结果集?
sql-server - Sql Server 2008 - 如何避免字符“/”成为停用词?
假设我们有一个大的全文索引表,并且有一些这样的字符串(当然在全文索引列中):
这些字符串是只有在完全按照我编写的方式查询时才有意义的数字(对于我的应用程序)。
当我执行这样的查询时:
它返回包含第二个字符串的行,但我执行它以不返回任何结果,因为除了字符串包含 5111 之外,它对我没有意义(仅对整个数字有意义,而不是其中的一部分)。
有什么办法可以避免像我提到的那样返回部分字符串?我猜 Sql server 正在处理“/”和“。” 作为停用词,我说得对吗?