问题标签 [stop-words]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

614 问题

0 投票

2 回答

1750 浏览

mysql - 停用词和 MySQL 布尔全文

我正在使用 mysql 内置的布尔全文功能来搜索数据集。（匹配...反对语法）。

我遇到了一个问题，MySql 的默认停用词列表中的关键字没有返回任何结果。例如，“之前”、“之间”等。

（我认为）没有办法在运行时禁用 MySql 的停用词。而且因为我将我的网站托管在共享服务器 (DreamHost) 上，所以我没有禁用停用词重新编译 MySQL 的选项。

我想知道是否有人对解决上述问题的方法有任何建议？（无需升级到 VPS 或专用系统）

在此先感谢您的帮助，

特拉维斯

2011-01-31T05:27:46.130

0 投票

4 回答

7666 浏览

lucene - 我可以自定义 Elastic Search 以使用我自己的停用词列表吗？

具体来说，我想索引没有停用词列表的所有内容（例如谁）。弹性搜索是否足够灵活且易于更改？

lucene stop-words elasticsearch

2011-02-07T22:54:32.783

0 投票

3 回答

15387 浏览

c# - 如何获取我的全文目录中使用的停用词列表？

有没有办法获取我的 SQL Server 2008 全文目录正在使用的 StopWord 列表？并在我的 C# 代码隐藏中使用它？

我想在 ASP.NET 页面中使用它来搜索术语并突出显示它们。

搜索页面和突出显示已经正常工作，但我想改进突出显示。我不想突出显示我的 StopWord 列表中的单词。

c#.net sql-server full-text-search stop-words

2011-02-11T19:06:21.640

0 投票

1 回答

1980 浏览

solr - Solr 中的“保护短语”

我的一个客户是一家专门从事新闻摄影（以及八卦）的摄影机构，因此他们的许多客户的搜索都围绕特定的人。

我们索引了大约 150 万篇文档，对标题和标题进行了全文搜索；和全文搜索，而无需基于标签。我们有一个不错的停用词列表，它们提供了一个他们认为没有正确词干的受保护词列表。我们正在使用 Dismax 搜索标题、标题和标签，并有不同的提升）这一切都很好。

然而，事实证明，有些人很难做到正确。例如，阿尔·戈尔。在意大利语中，“al”是一个停用词，因此对“al gore”（不带引号）的简单查询变为：

这确实为前副总裁带来了成功，当然还有“Lesley Gore”和“Tipper Gore”；而且，由于词干，“Gori”等的热门歌曲。暂且不说排序，它确实使结果混乱，我想做得更好。

将搜索词用引号括起来并没有帮助，无论如何，“al”都会被删除。将“gore”标记为受保护的词让我走到了一半，限制了误报的数量。我也尝试过使用 SynonymFilterFactory，但并没有走得太远——我将 SynonymFilterFactory 作为第一个过滤器，所以无论如何“al”都会被删除。

我认为我真正需要的是一种将“al gore”标记为单个标记的方法。对于一组可配置的“短语”，有什么可以让我这样做的吗？还有另一种我忽略的方法吗？solr.CommonGramsFilterFactory 也许？

更多背景信息：我们使用的是 Solr 1.4.0。schema.xml 的相关部分

solr stop-words dismax

2011-02-19T10:22:00.767

0 投票

3 回答

1156 浏览

regex - 删除停用词并保存新文件 Perl

我创建了一个 Perl 文件来加载“停用词”数组。

然后我加载一个包含“.ner”文件的目录。每个文件都被打开，每个单词都被拆分并与停止文件中的单词进行比较。如果单词与单词匹配，则将其更改为“”（什么都没有-并被删除），然后我将文件复制到另一个位置。所以我可以区分有停用词的文件和没有停用词的文件。但这会将文件更改为现在不包含停用词还是会恢复为原始文件？

我正在拆分和比较的文件格式如下：

我应该概述应该在哪里拆分单词，即：split(/|/)？

regex perl split stop-words

2011-03-02T11:38:10.160

0 投票

1 回答

782 浏览