问题标签 [stop-words]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mysql - 停用词和 MySQL 布尔全文
我正在使用 mysql 内置的布尔全文功能来搜索数据集。(匹配...反对语法)。
我遇到了一个问题,MySql 的默认停用词列表中的关键字没有返回任何结果。例如,“之前”、“之间”等。
(我认为)没有办法在运行时禁用 MySql 的停用词。而且因为我将我的网站托管在共享服务器 (DreamHost) 上,所以我没有禁用停用词重新编译 MySQL 的选项。
我想知道是否有人对解决上述问题的方法有任何建议?(无需升级到 VPS 或专用系统)
在此先感谢您的帮助,
特拉维斯
lucene - 我可以自定义 Elastic Search 以使用我自己的停用词列表吗?
具体来说,我想索引没有停用词列表的所有内容(例如谁)。弹性搜索是否足够灵活且易于更改?
c# - 如何获取我的全文目录中使用的停用词列表?
有没有办法获取我的 SQL Server 2008 全文目录正在使用的 StopWord 列表?并在我的 C# 代码隐藏中使用它?
我想在 ASP.NET 页面中使用它来搜索术语并突出显示它们。
搜索页面和突出显示已经正常工作,但我想改进突出显示。我不想突出显示我的 StopWord 列表中的单词。
solr - Solr 中的“保护短语”
我的一个客户是一家专门从事新闻摄影(以及八卦)的摄影机构,因此他们的许多客户的搜索都围绕特定的人。
我们索引了大约 150 万篇文档,对标题和标题进行了全文搜索;和全文搜索,而无需基于标签。我们有一个不错的停用词列表,它们提供了一个他们认为没有正确词干的受保护词列表。我们正在使用 Dismax 搜索标题、标题和标签,并有不同的提升)这一切都很好。
然而,事实证明,有些人很难做到正确。例如,阿尔·戈尔。在意大利语中,“al”是一个停用词,因此对“al gore”(不带引号)的简单查询变为:
这确实为前副总裁带来了成功,当然还有“Lesley Gore”和“Tipper Gore”;而且,由于词干,“Gori”等的热门歌曲。暂且不说排序,它确实使结果混乱,我想做得更好。
将搜索词用引号括起来并没有帮助,无论如何,“al”都会被删除。将“gore”标记为受保护的词让我走到了一半,限制了误报的数量。我也尝试过使用 SynonymFilterFactory,但并没有走得太远——我将 SynonymFilterFactory 作为第一个过滤器,所以无论如何“al”都会被删除。
我认为我真正需要的是一种将“al gore”标记为单个标记的方法。对于一组可配置的“短语”,有什么可以让我这样做的吗?还有另一种我忽略的方法吗?solr.CommonGramsFilterFactory 也许?
更多背景信息:我们使用的是 Solr 1.4.0。schema.xml 的相关部分
regex - 删除停用词并保存新文件 Perl
我创建了一个 Perl 文件来加载“停用词”数组。
然后我加载一个包含“.ner”文件的目录。每个文件都被打开,每个单词都被拆分并与停止文件中的单词进行比较。如果单词与单词匹配,则将其更改为“”(什么都没有-并被删除),然后我将文件复制到另一个位置。所以我可以区分有停用词的文件和没有停用词的文件。但这会将文件更改为现在不包含停用词还是会恢复为原始文件?
我正在拆分和比较的文件格式如下:
我应该概述应该在哪里拆分单词,即:split(/|/)?
python - 忽略python字典中的重复单词
我有一个 Python 脚本,它接收“.html”文件,删除停用词并返回 python 字典中的所有其他词。但是如果同一个词出现在多个文件中,我希望它只返回一次。即包含不间断的单词,每个单词只有一次。
python - 如何使用 nltk 或 python 删除停用词
所以我有一个数据集,我想删除停用词
我正在努力如何在我的代码中使用它来简单地取出这些单词。我已经有了这个数据集中的单词列表,我正在努力的部分是与这个列表进行比较并删除停用词。任何帮助表示赞赏。
python - 将单词添加到 nltk 停止列表
我有一些代码可以从我的数据集中删除停用词,因为停用词列表似乎也没有删除我想要的大部分单词,我希望将单词添加到这个停用词列表中,以便它将删除他们为这个案子。我用来删除停用词的代码是:
我不确定添加单词的正确语法,而且似乎在任何地方都找不到正确的语法。任何帮助表示赞赏。谢谢。
python - 摆脱停用词和标点符号
我正在为 NLTK 停用词而苦苦挣扎。
这是我的代码..有人可以告诉我出了什么问题吗?
solr - Apache Solr:从 LukeRequestHandler 的 topTerms 中删除停用词
标题几乎说明了一切,我正在使用 LukeRequestHandler 查询 Solr 的 topTerms,但该列表包含许多短词,如“is”、“a”、“do”(实际上,它们是德语)等等...
这些实际上都在我的停用词文件中,有没有办法阻止 Solr 将它们列为 topTerms?
编辑:嗯,我是否有可能在配置停用词时犯了错误?搜索停用词仍然会给我结果......
谢谢任何帮助